
©PaperWeekly 原創·作者 |郭文祥單位 |浙江大學
研究方向 |音樂生成
歌聲合成任務旨在透過輸入的歌詞和樂譜生成高質量的歌聲。隨著深度學習技術的發展,現有方法在生成自然且高質量的音訊方面取得了顯著進展,但鮮少能實現精準控制的歌唱技巧(如強度、混聲、假聲和氣聲等)。
為此,本文提出 TechSinger,一種支援五種語言與七種歌唱技巧精細控制的歌聲合成系統,克服傳統方法在可控性和藝術表達上的侷限。

論文連結:
https://arxiv.org/pdf/2502.12572
Demo連結:
https://tech-singer.github.io
程式碼連結:
https://github.com/gwx314/TechSinger

任務動機
傳統歌聲合成技術缺乏對歌唱技巧的精細控制,且受限於現有資料集標註不足以及控制方式複雜的問題。TechSinger 透過以下創新解決難題:
-
自動標註技術:訓練技巧檢測器,為開源歌聲資料自動新增音素級技巧標籤。 -
流匹配生成框架:基於流匹配方法精準建模不同技巧歌聲的音高與梅爾頻譜。 -
多種技巧控制方式:支援透過技巧標籤或自然語言指令指定合成技巧。

方法
2.1 總體架構

圖中展示了本文提出的 TechSinger 的訓練和推理過程。模型輸入包括樂譜、MIDI 序列、歌手和技巧資訊。若輸入為自然語言 prompt,預訓練的技巧預測器將生成對應音素的技巧標籤。模型分為兩階段:
第一階段:預測音素時長,透過流匹配生成基頻(F0),解碼器生成粗糙梅爾頻譜。
第二階段:以編碼資訊和粗糙梅爾頻譜為條件,使用流匹配策略生成高質量梅爾頻譜。
2.2 Flow Matching
TechSinger 基於流匹配模型預測音高(F0)和梅爾頻譜,從而實現高精度技巧控制。具體而言,Flow Matching 透過高斯噪聲與目標 F0/Mel 的線性插值構建機率路徑,利用 ODE 求解器預測向量場,以規避傳統 L1 損失導致的頻譜模糊問題。訓練損失如下:

生成過程中使用 Euler ODE 求解器進行逆向生成預測:

為進一步提升梅爾頻譜質量,本文引入分類器無關引導(CFG)的流匹配後處理網路,結合標籤隨機丟棄策略,增強模型對標註噪聲的魯棒性。CFG 公式如下:

其中,縮放參數 可用於調節生成技巧的強度。
2.3 技巧檢測器與預測器

2.3.1 技巧檢測器
為實現開源資料集的技巧標註,本文基於有標註的歌聲資料訓練技巧檢測器。該檢測器編碼梅爾頻譜、音高和能量等特徵,採用以 Squeezeformer 為主體的 Unet 框架及多頭注意力層,最終預測音素級技巧序列。損失函式為:

2.3.2 技巧預測器
為實現自然語言控制,本文基於 GPT-4o 設計 prompt 模板生成訓練資料,並採用 FLAN-T5 編碼器對使用者提示(如“使用強力度演唱”)進行編碼,透過 Transformer 模型預測音素級技巧序列。

實驗
3.1 整體效能


實驗基於 GTSinger、M4Singer 和自建技巧資料集,對比現有 SVS 模型新增技巧編碼器的改進版本。主客觀指標表明,TechSinger 在生成質量和技巧控制能力上均優於基線模型。視覺化結果顯示,其音高曲線和梅爾頻譜細節與真人演唱更為接近。
3.2 技巧檢測器和預測器

消融實驗表明,Unet 框架和多頭注意力層的設計顯著提升檢測準確率,同時較高的客觀指標說明了自動化技巧標註技術的有效性。

不同編碼器的對比實驗顯示,FLAN-T5 在跨語言技巧預測任務中表現最優。
3.3 TechSinger 消融

消融實驗證實,流匹配生成框架和 CFG 策略對提升梅爾頻譜質量具有關鍵作用,可以提高生成歌聲的質量和技巧控制力。

總結與展望
本文提出首個基於流匹配框架的多語言、多技巧可控歌聲合成系統 TechSinger,透過自動標註技術解決資料不足問題,並利用流匹配精準建模音高與頻譜。此外,透過技巧預測器,實現自然語言控制歌聲技巧生成。實驗表明其能生成高質量、高表現力的歌聲。
未來,將探索跨歌手音色遷移,控制生成技巧的強度,進一步提升創作自由度。
更多閱讀




#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
