語音合成突破:F5R-TTS首次實現非自迴歸模型的GRPO最佳化,零樣本克隆效能顯著提升

在人工智慧技術日新月異的今天,語音合成(TTS)領域正經歷著一場前所未有的技術革命。最新一代文字轉語音系統不僅能夠生成媲美真人音質的高保真語音,更實現了「只聽一次」就能完美復刻目標音色的零樣本克隆能力。這一突破性進展的背後,是大規模語音資料的積累和大模型技術的快速發展。
同時在技術前沿,DeepSeek 系列憑藉其 GRPO 演算法(群體相對策略最佳化),正以強化學習引領大語言模型(LLM)研究的新趨勢。目前,強化學習已擴充套件至自迴歸 TTS 系統。然而,由於非自迴歸架構與大型語言模型(LLMs)存在根本性的結構差異,此前非自迴歸 TTS 系統尚未出現成功的強化學習整合案例,這一技術難題仍有待可行的研究解決方案。
近日,騰訊PCG社交線的研究團隊針對這一挑戰提出了 F5R-TTS 系統,首創性地透過將模型輸出轉化為機率表徵,打通了非自迴歸 TTS 模型強化學習的「任督二脈」。
  • 論文標題:F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization
  • 論文連結:https://arxiv.org/abs/2504.02407
  • 專案主頁:https://frontierlabs.github.io/F5R/
F5R-TTS 的創新架構
F5R-TTS 透過模型架構創新,有效融合了強化學習。這項研究的主要貢獻體現在三個方面:
  1. 機率化輸出轉換:研究團隊創新性地將 flow-matching 的 TTS 模型輸出轉化為機率表徵。這一轉換使得強化學習在非自迴歸模型中的應用成為可能,為後續的最佳化奠定了基礎。
  2. GRPO 最佳化方法:首次成功將 GRPO 方法應用於非自迴歸 TTS 模型,採用詞錯誤率(WER)和說話人相似度(SIM)作為獎勵訊號,有效引導模型最佳化方向。
  3. 零樣本語音克隆驗證:在零樣本語音克隆場景中,F5R-TTS 模型展現出顯著優勢。相較於傳統非自迴歸 TTS 基線模型,在可懂度(WER 相對降低 29.5%)和說話人一致性(SIM 相對提升 4.6%)兩方面均實現顯著提升。
F5R-TTS 的訓練流程分為兩個關鍵階段:第一階段基於 flow-matching 損失函式進行預訓練;第二階段採用 GRPO 演算法對模型進行精細最佳化。這種兩階段訓練策略既保證了模型的初始效能,又透過強化學習實現了針對性最佳化。
機率化改造:強化學習的基礎
我們選用了當前效果領先的非自迴歸 TTS——F5-TTS 作為骨架。為了使非自迴歸模型適配 GRPO 框架,F5R-TTS 進行了關鍵的機率化改造。具體而言,模型被設計為預測每一步輸出時的分佈機率,而非直接預測確定性的輸出值。這一改造使得模型輸出具有了機率分佈特性,為強化學習中的策略梯度計算提供了必要條件。
在第一階段預訓練中,目標函式仍採用 flow-matching 的形式,其核心思想是將標準正態分佈 x0 的機率路徑匹配到近似真實資料 x1 的分佈上。模型在最後一層預測高斯分佈的均值與方差,並透過最佳化引數以最大化 x1 −x0 的對數似然函式。這一過程可以形式化為以下目標函式:
簡化後,模型使用下式作為預訓練的目標函式
GRPO 強化
在 GRPO 階段,預訓練模型作為策略模型進行微調,同時以預訓練引數初始化參考模型。
具體實現上,策略模型的前向運算需要執行類似推理過程的取樣操作 —— 從標準高斯分佈初始輸入開始,逐步計算每一步的輸出機率分佈,並進行取樣。取樣結果既用於計算獎勵訊號,也需要與參考模型輸出比較以計算 KL 散度損失,確保最佳化過程的穩定性。
獎勵函式的設計是 GRPO 階段的核心。研究團隊選擇了詞錯誤率(WER)和說話人相似度(SIM)作為主要獎勵指標,分別對應語音克隆任務中最關鍵的兩個方面:語義準確性和音色保真度。
最終,GRPO 階段的目標函式定義如下:
實驗
研究團隊設計了全面的實驗來驗證 F5R-TTS 的有效性。實驗設定包括:
  • 預訓練階段:採用 7226 小時開源資料集 WenetSpeech4TTS Basic
  • GRPO 微調:隨機選取 100 小時高質量語音資料
  • 評估體系:基於 Seed-TTS 測試標準,構建包含 2560 個測試樣本(含 400 個高難度樣本、140 個帶噪樣本)的評估集,計算 WER 和 SIM
研究團隊首先採用 t-SNE 技術對說話人相似度進行二維空間視覺化。結果如圖 4 顯示,對比其他方法,F5R-TTS 模型的合成結果能夠更準確地按照目標說話人實現聚類。這一視覺化結果直觀地證明了 F5R-TTS 模型在說話人相似度方面的優越表現。
其次,採用全域性方差(Global Variance,  GV)指標進行頻譜分析。如圖 5 所示,F5R 模型的曲線與真實語音的曲線吻合度最高,再次驗證 F5-R 模型的合成語音在頻譜特性上與真實語音具有更高的相似性。
客觀測評指標表明,採用 WER 和 SIM 作為獎勵訊號的 GRPO 方法,使 F5R-TTS 相較於基線在語義準確性和說話人相似度兩個維度均獲得提升。在說話人相關獎勵的引導下,F5R 能夠透過上下文學習更精準地克隆目標說話人的聲學特徵。
值得注意的是,在困難測試集上,F5R 在 WER 指標上的相對優勢更為顯著 —— 這得益於 WER 相關獎勵元件有效增強了模型的語義保持能力。另外,為驗證所提方法的泛化能力,實驗還用在內部資料集上進行了重複驗證,結果表明 GRPO 方法在不同資料集上都能持續提升模型效能。
同時,三個模型在困難測試集上的效能均出現下降,這表明文字複雜度的增加通常會導致模型穩定性降低。該現象將成為後續最佳化研究的重要切入點。
未來展望
F5R-TTS 首次成功將 GRPO 整合到非自迴歸 TTS 系統中,突破了非自迴歸模型難以應用強化學習的技術瓶頸。實驗證明該方法能同時提升語義準確性和音色保真度,為零樣本語音克隆提供了更優解決方案。文章提出的機率化輸出轉換策略為其他生成模型的強化學習最佳化提供了可借鑑的思路。這項研究不僅推動了語音合成技術本身的發展,也為其他生成式 AI 模型的最佳化提供了新思路。
展望未來,研究團隊計劃從三個方向繼續深入探索:
  1. 強化學習演算法擴充套件:探索將 PPO、DDPO 等其他強化學習演算法整合到非自迴歸語音合成系統的可行性,尋求更高效的最佳化路徑。
  2. 獎勵函式最佳化:設計更精細、多層次的獎勵函式,進一步提升模型在自然、個性化和表現力等方面的效果。
  3. 大規模資料驗證:在更大規模、更多樣化的訓練資料上驗證方法的擴充套件性,探索資料規模與模型效能的量化關係。
隨著技術的不斷成熟,期待未來出現更加自然、個性化和富有表現力的語音合成系統,為智慧互動、內容創作、輔助技術等領域帶來全新可能。

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章