
(本文閱讀時間:9分鐘)
近年來人工智慧技術的飛速發展,不斷推動著文字到語音合成(Text-to-Speech,TTS)技術的邊界。TTS 技術的持續最佳化與創新,為人們提供了豐富、便捷的語音互動體驗,相關的研究成果在教育、娛樂以及多語言交流等多個領域都有著廣泛的應用前景。
傳統的 TTS 系統僅僅使用來自錄音室的高質量且乾淨的語音資料進行訓練,導致其泛化能力較差。在零樣本情境下,對於陌生的說話人,語音相似度和自然度也會顯著下降。對此,微軟亞洲研究院的研究員們嘗試將 LLMs 技術引入語音處理任務,並構建了第一個使用離散編碼的語音大模型 VALL-E。這些離散編碼來自現成的神經音訊編碼模型,並將 TTS 視為條件語言模型任務,從而可以展現出強大的上下文學習能力。只需陌生的說話人提供一段3秒的錄音作為提示,VALL-E 即可合成高質量的個性化語音。但由於自迴歸建模和隨機取樣推斷,VALL-E 在魯棒性和效率方面仍有待提升。
在此基礎上,研究員們設計了 VALL-E 2,其利用重複感知取樣(repetition aware sampling)和分組編碼建模技術,實現了零樣本 TTS 的效能在 LibriSpeech 和 VCTK 資料集上可達到與人類水平相媲美的程度。其中,重複感知取樣透過考慮解碼歷史中的標記重複,改進了原始的核(Nucleus)取樣過程。它不僅能穩定解碼,還能避免在 VALL-E 中遇到的無限迴圈問題。分組編碼建模則將編解碼器編碼組織成組,有效縮短了序列長度,在提高推理速度的同時,也解決了長序列建模的難題。

圖1:VALL-E 2 的框架
透過這兩項技術,VALL-E 2 在語音的穩健性、自然度和說話人相似度方面顯著超過了以往的系統。即使是在較大複雜性或重複短語這些具有挑戰性的句子上,VALL-E 2 也能一致地合成高質量語音。
VALL-E 2 論文:
https://arxiv.org/abs/2406.05370
VALL-E 2 演示頁面:
https://aka.ms/valle2

VALL-E 2 採用了同 VALL-E 類似的層次結構:一個自迴歸(AR)編碼語言模型和一個非自迴歸(NAR)編碼語言模型。AR 模型以自迴歸方式生成每幀的第一個編碼序列,而 NAR 模型則基於之前的編碼序列以非自迴歸方式生成每個剩餘的編碼序列。兩個模型都使用相同的 Transformer 架構,包含一個文字嵌入層、一個編碼嵌入層、Transformer 層和一個編碼預測層。但 AR 模型和 NAR 模型有不同的注意力掩碼策略:AR 模型使用因果注意力策略,而 NAR 模型使用全注意力策略。

圖2:VALL-E 2 中的 AR 和 NAR 模型
基於過往經驗,研究員們發現 VALL-E 在推理中使用的隨機取樣可能會導致輸出不穩定。儘管錯誤編碼(圖3中的紅色方塊)的機率很低,但由於取樣步驟太多,它們仍然不可避免地會被取樣到。為了穩定推理過程,通常會利用 Nucleus 取樣來從累積機率低於預設閾值的最可能標記集合中進行取樣。Nucleus 取樣方法可以減少說錯詞的錯誤,但也可能導致模型為了減少錯誤而只生成靜音。
因此,為了平衡隨機取樣和 Nucleus 取樣,研究員們提出了重複感知取樣的方法。在給定 AR 模型預測的機率分佈基礎上,研究員們首先使用預定義的 top-p 值透過 Nucleus 取樣生成目標編碼。然後使用固定的視窗大小來計算預測編碼在前面的編碼序列中的重複比例。如果重複比例超過預定義的重複閾值,研究員們就會使用隨機取樣從原始機率分佈中獲得新的預測結果來替換原來的目標編碼。透過這種重複感知取樣的方法,解碼過程既可以受益於 Nucleus 取樣的穩定性,還可以藉助隨機取樣避免陷入靜音的無限迴圈。

圖3:VALL-E 2 中的重複感知取樣和分組編碼建模
同時,研究員們發現,VALL-E 的自迴歸架構受限於現成音訊編碼模型的高幀率,從而導致推理速度緩慢,特別是在自迴歸模型的推理過程中尤為顯著。為了加速推理過程,研究員們在 VALL-E 2 中採用了分組編碼建模方法,將編碼序列劃分為一定大小的分組,並將每組編碼建模為一步。在自迴歸模型中,研究員們利用分組嵌入層將編碼嵌入結果對映到分組嵌入並作為網路的輸入,並在輸出層使用分組預測層對一組中的編碼進行預測。透過這種方式,現有神經音訊編碼模型的幀率限制得以擺脫,幀率成倍數地降低得到實現。這不僅有利於推理效率的提高,還可以緩解長上下文建模的問題並提升整體語音質量。

為了展示 VALL-E 2 的效能,研究員們在 LibriSpeech 和 VCTK 資料集上進行了實驗,並在穩健性、自然度和音色相似度評分方面與多個基線模型進行了比較。這些評分是根據原始論文中報告的結果計算得到的相對數值,不考慮模型架構和訓練資料的差異。
從圖4中可以看到,VALL-E 2 相比以前的方法顯著提升了各個指標的效能,並且首次實現了與人類同等水平相近的零樣本 TTS。與人類水平相近指的是 VALL-E 2 的穩健性、自然度和相似度指標超越了真實樣本,即 WER(GroundTruth)-WER(VALL-E 2)>0,CMOS(VALL-E 2)-CMOS(GroundTruth)>0 和 SMOS(VALL-E 2)-SMOS(GroundTruth)>0,這意味著 VALL-E 2 能夠生成與原始說話人聲音較為一致的準確自然的語音。但需要注意,這一結論僅僅基於 LibriSpeech 和 VCTK 資料集的實驗結果。

圖4:VALL-E 2 同以往系統的比較結果
重複感知取樣和分組編碼建模兩種方法的引入,使得 VALL-E 2 能夠可靠地合成複雜句子的語音,包括那些難以閱讀或包含大量重複短語的句子。VALL-E 2 的技術優勢,可以為人工智慧向善的場景做出貢獻,例如為失語症患者或肌萎縮側索硬化症的患者生成語音等。
注:VALL-E 2 是一個純粹的研究專案,目前沒有計劃納入產品或向公眾開放。VALL-E 2 可以合成保持說話者音色的語音,可用於教育學習、娛樂、新聞、自創內容、無障礙功能、互動語音應答系統、翻譯、聊天機器人等。雖然 VALL-E 2 可以生成媲美真人聲音的語音,但其相似度和自然度仍取決於語音提示的長度和質量、背景噪音以及其他因素。該模型可能在誤用方面存在潛在風險,例如偽造語音識別或冒充特定說話者。在語音合成研究中,我們已經獲得使用者的授權,將其作為實驗的目標說話者,如果該模型需要推廣到現實世界中的未見過的說話者,應確保說話者同意使用其聲音的協議和合成語音檢測模型。如果您發現 VALL-E 2 被濫用、非法使用或侵犯了您的權利或他人的權利,可以在微軟的濫用報告入口網站(https://msrc.microsoft.com/report/)進行舉報。
你也許還想看:
