ACL2025|AI唱歌也內卷?浙大開源釋出TCSinger2,多語言歌聲零樣本自由定製

©作者 | 張彧
單位 | 浙江大學
研究方向 | 音樂/空間音訊
零樣本歌聲合成(SVS)旨在基於音訊或文字提示,生成具有未見過的多級別風格的高質量歌聲。該領域在專業音樂創作和短影片配音方面具有廣泛的潛在應用。
儘管傳統的歌聲合成任務已經取得了顯著進展,但人們對更具定製化的體驗需求日益增長。這不僅包括透過音訊提示實現零樣本風格遷移,還需要利用自然語言文字提示進行多級別風格控制。
文字提示可以透過指定歌手的性別和音域來影響整體音色。此外,它們還能控制更廣泛的歌聲風格方面,例如演唱技巧(如美聲唱法)和情感表達(如歡快或悲傷),以及片段級或詞語級的技巧(如混聲或假聲)。
此外,音訊提示能讓目標在學習這些一致的多級別風格的同時,融入口音、發音和過渡方式。然而,當前的模型在零樣本場景下,仍難以基於各種提示有效實現風格遷移和風格控制。 
為此,來自浙江大學的學者提出了一個多工多語言零樣本歌聲合成模型 TCSinger2,可以透過自然語言文字、語音或歌聲提示實現有效的風格控制。目前,該論文已被 ACL 2025 接收,並已開源相關程式碼。
論文連結:
https://arxiv.org/abs/2505.14910
Demo 連結:
https://aaronz345.github.io/TCSinger2Demo/
程式碼連結:
https://github.com/AaronZ345/TCSinger2
任務動機
目前,可定製的多語言零樣本歌聲合成主要面臨兩大挑戰:
1. 現有歌聲合成模型嚴重依賴音素和音符邊界標註,這限制了模型的穩健性。像 OpenCpop 這類資料集依賴 MFA 和人耳對齊,這會在邊界處引入顯著誤差。此外,這些歌聲合成模型在音素和音符之間的過渡往往表現不佳,尤其是在零樣本場景中,這一問題更為突出。
2. 現有的具備風格遷移和風格控制功能的歌聲合成模型,缺乏透過多樣化提示實現有效的多級別風格控制的能力。TCSinger 藉助指定標籤或音訊提示實現了風格控制。然而,它仍無法透過更靈活的提示(包括自然語言文字、語音或歌聲提示)覆蓋更廣泛的應用場景。
為了應對這些挑戰,我們提出了 TCSinger 2,這是一個多工多語言零樣本歌聲合成模型,能夠基於多種提示實現風格遷移和風格控制。TCSinger 2 可以透過自然語言文字、語音或歌聲提示實現有效的風格控制。為了實現流暢且穩健的音素 / 音符邊界建模,我們設計了模糊邊界內容(BBC)編碼器。該編碼器能夠預測時長、擴充套件內容嵌入,並對音素和音符邊界進行掩碼處理,從而促進平滑過渡並確保穩健性。
此外,為了從歌聲、語音和文字提示中提取對齊的表徵,我們提出了基於對比學習的定製音訊編碼器,這擴充套件了模型在更廣泛相關任務中的適用性。同時,為了生成高質量且具有高度可控性的歌聲,我們引入了基於流的定製 Transofmer。在這一框架中,我們採用了 Cus-MOE,它能根據語言以及文字或音訊提示選擇不同的專家,以實現更好的合成質量和風格建模。而且,我們還融入了基於基頻(F0)資訊的額外監督,以增強合成輸出的表現力。
模型方法
首先,編碼器利用對比學習從歌聲、語音和文字提示中提取一致的表徵。當從跨語言歌聲或語音音訊提示遷移風格時,它會提取富含風格的表徵。當使用文字提示進行風格控制時,文字提示會被編碼為多風格控制表徵。最後,基於流的定製轉換器生成預測的歌聲。
▲ 圖1:TCSinger 2 的架構。BBC Encoder 即模糊邊界內容編碼器。圖(a)展示了風格遷移過程。來自音訊提示的梅爾頻譜或文字提示均可控制多級別風格。
模糊邊界內容編碼器
當前的歌聲合成(SVS)模型嚴重依賴精確的音素和音符邊界標註,這些標註通常是使用 MFA 等工具自動生成的。然而,經過人工後期編輯的資料集十分稀少,即便那些基於人類聽覺標註的資料集也存在諸多錯誤。這在多語言歌聲資料集中尤為成問題,標註錯誤和資料稀缺會導致音素和音高的學習出現偏差。例如,當一個音素時長的後半部分實際上屬於下一個音素時,模型很難正確學習這兩個音素的發音。此外,當前的歌聲合成模型在音素和音符之間的過渡表現不佳,尤其是在零樣本場景中,這一問題更為突出。
為解決這一問題,同時在擴充套件資料集的基礎上提升零樣本場景下過渡的自然度和音樂性,我們引入了模糊邊界內容(BBC)編碼器。如圖 1(b)所示,在對歌詞和音符分別進行編碼後,我們會預測時長並擴充套件內容嵌入,最終得到具有精確的邊界的序列。接下來,我們在每個音素和音符的邊界處隨機掩蓋 m 個標記。透過調整 m 的值,我們可以在提供更多監督資訊和實現更好的穩健性之間取得平衡。考慮到我們的壓縮率和取樣率,我們將 m 設為 8。需要注意的是,m 不會覆蓋過短的內容。藉助 BBC 編碼器,我們得到模糊的邊界,隨後在基於流的定製轉換器中進行細化,其中自注意力機制會建立細粒度的隱式對齊路徑。BBC 編碼器擴充套件了粗略對齊的資料集,改善了過渡的自然度,並提升了零樣本生成的質量。
定製音訊編碼器
▲ 圖2:定製音訊編碼器和 Cus-MOE 的架構。在圖(a)中,不同的編碼器根據輸入提取對齊的表徵。在圖(b)中,每個路由在推理過程中會根據條件選擇一個前饋網路。
歌聲風格非常複雜,包含音色、唱法、情感、技巧、口音等多種因素。這使得在對歌聲梅爾頻譜進行壓縮的同時,提取出富含多級別風格的表徵頗具挑戰性。而這種表徵對於風格遷移和風格控制而言都至關重要。此外,為了拓展可定製的應用場景,從語音中提取對齊的風格表徵也很重要。這能讓使用者生成與自己語音風格相匹配的歌聲。
如圖 2(a)所示,基於歌聲提示、語音提示以及帶有內容的文字提示,我們提取出一個三元組。歌聲編碼器、語音編碼器和音訊解碼器均基於變分自編碼器(VAE)模型。對於文字編碼器,我們採用交叉注意力機制將樂譜和文字提示相結合,得到兼具內容和多級別風格的表徵。我們使用對比學習來對齊這些三元組,確保它們都包含統一的風格。我們設計了三種對比型別:(1)相同內容,不同風格;(2)相似風格,不同內容;(3)不同風格和內容。
基於流的定製 Transofmer
歌聲具有高度的複雜性和風格多樣性,這使其建模工作極具挑戰性。為此,我們提出了基於流的定製 Transformer。如圖 1(c)所示,我們將能夠生成穩定且平滑路徑的流匹配技術相結合,以實現穩健且快速的推理。此外,我們還利用 Transformer 注意力機制的序列學習能力,來提升歌聲合成(SVS)的質量和風格建模效果。
為實現更高質量的多語言生成和更優的風格建模,我們提出了 Cus-MOE(混合專家模型),它能基於各種條件選擇合適的專家。如圖 2(b)所示,我們的 Cus-MOE 包含兩個專家組,每組分別專注於語言條件和風格條件。語言混合專家模型根據歌詞語言選擇專家,每個專家專攻特定語系(如拉丁語系),透過領域特定專家提升各語系的生成質量。風格混合專家模型以音訊或自然語言文字提示為條件,調整輸入以匹配細粒度風格,例如有專家專攻女低音音域且帶有歡快流行風格的假聲演唱。
推理流程
TCSinger 2 支援基於輸入提示的多種推理任務。對於未見過的歌聲提示,無論內容與提示語言相同還是不同,它都能執行零樣本風格遷移。若輸入包含歌詞和不同語言的歌聲提示,該模型可進行跨語言風格遷移。給定自然語言文字提示時,TCSinger 2 能夠實現多級別風格控制。當提供語音提示時,它可以執行語音轉歌聲風格遷移。
為了提升生成質量和風格可控性,我們融入了無分類器引導(CFG)策略。在訓練過程中,我們會以 0.2 的機率隨機丟棄輸入提示。我們將 CFG 係數設為 3,以提高生成質量並增強風格控制。最後,藉助流匹配方法的加速推理能力,我們的模型能夠高效且穩健地生成歌聲。
實驗結果
為了 TCSinger 2 的風格遷移效果,在平行實驗中,我們從測試集中隨機選取未見過的歌手樣本作為目標聲音,並使用同一歌手的不同語音片段構建提示。此外,我們還採用歌詞語言不同(如英語和漢語)的未見過測試資料分別作為提示和目標進行推理。
▲ 表1:零樣本平行風格遷移與跨語言風格遷移的合成質量及歌手相似度。
對於風格控制,表 2 展示了使用自然語言文字提示進行風格控制的實驗結果。我們在基準模型中添加了一個交叉注意力模型來處理文字提示。在平行實驗中,我們從測試集中隨機選取未見過的音訊,將真實(GT)文字提示作為目標。在非平行實驗中,多級別風格會以適合上下文的方式被隨機分配。
▲ 表2:基於文字提示的平行與非平行實驗中的多級別風格控制性能。
▲ 圖3:風格控制的視覺化結果。圖(b)比圖(a)顯示出更大的基頻(F0)波動,突出了顫音效果。圖(c)比圖(a)具有更高的共振峰和更豐富的高頻細節,體現了不同歌手的身份特徵。
總結展望
在本文中,我們提出了 TCSinger 2,這是一款多語言、多工、零樣本歌聲合成模型,具備基於多種提示的高階風格遷移和風格控制能力。我們的實驗結果表明,在零樣本風格遷移、跨語言風格遷移、多級別風格控制以及語音轉歌聲(STS)風格遷移等多種相關任務中,TCSinger 2 在合成質量、歌手相似度和風格可控性方面均優於其他基準模型。在未來的工作中,我們將設計更好的自動標註工具來擴充套件資料,同時將研究利用 MeanFlow 等方法以減少延遲。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章