
近日,浙江大學趙洲教授團隊聯合字節跳動,釋出第三代語音合成模型 MegaTTS3,在各大專業評測資料下均展現領先水平。MegaTTS3 以僅 0.45B 引數的輕量化架構,不僅實現高質量的中英雙語語音合成,還在語音克隆方面展現出自然、可控、個性化的驚人潛力。

繼 Mega-TTS1 解決傳統語音合成技術可控性差、跨場景適應性弱問題,Mega-TTS2 解決長語音生成穩定性與自然度、細粒度特徵建模問題,此次最新發布的第三代 MegaTTS3 模型,重點在語音-文字稀疏對齊精準性,生成效果可控性,生成效率與質量的平衡性上取得了重大突破。
MegaTTS3 的提出,將 AI 語音合成技術帶上了接近人類自然發音的新高度,高質量、高可控、高即時、高性價比的新一代語音合成服務將很快進入大家的日常使用中。
目前,該模型已在 GitHub 和 Hugging Face 上同步開源,吸引了眾多開發者和使用者的關注,釋出僅數天,github stars 超 4.5k,多家知名媒體報道評測。同時,使用者可以在 Demo 中體驗更多 TTS 效果,感受 MegaTTS3 帶來的逼真度和流暢感。

開源地址:
https://github.com/bytedance/MegaTTS3
論文地址:
https://arxiv.org/abs/2502.18924

什麼是 MegaTTS3?
MegaTTS3 是一款基於輕量級擴散模型的零樣本文字到語音合成系統,它基於獨特的零樣本語音合成能力,能依託少量提示和幾秒的音訊樣本,快速生成高度自然、富有情感且高度模仿目標說話人的語音。
與同等規模的模型相比,MegaTTS3 在實現輕量化的同時,兼具高質量與高效能,還能進行細粒度語音控制,在情感表達上處理得更細緻入微。其顯著特點包括:
-
輕量化高效能:其核心 TTS Diffusion Transformer 主幹網路引數量僅為 0.45B,相比大規模 TTS 模型,更輕量、更高效、更易部署。
-
高質量語音克隆:可模擬目標說話人的音色、語氣、節奏,生成清晰、自然、韻律豐富的語音。
-
中英雙語支援:無縫支援中文和英文的文字輸入,解決“英式腔調 vs. 美式腔調”不自然切換問題,甚至能在同一段語音中實現自然的程式碼切換(Code-Switching)。
-
口音強度可控:支援對部分語音屬性進行強度控制和細粒度發音調整,自由選擇語音是帶點家鄉味還是標準發音。

技術亮點
MegaTTS3 透過兩大核心技術輕鬆複製你想要的音色。
1. 多條件分類器自由指導(Multi-Condition CFG):口音調控黑科技
demo 演示中可以看到,MegaTTS3 可以對口音強度進行控制,這其中多條件分類器自由指導起到關鍵作用。
-
功能:獨立控制文字內容與說話人音色的引導權重。
-
優勢:透過調整文字引導引數,生成“標準英語”或“帶地方口音”的語音;生成高保真音色,說話人相似度(SIM-O)達 0.71,超越主流模型。
-
應用場景:外語教學中的發音糾正、影視配音的方言適配。
2. 分段整流流加速(PeRFlow):極速生成高質量語音
MegaTTS3 靠“分段整流流”技術給模型“踩油門”。
-
技術亮點:將生成過程拆分為多段平行計算,取樣步驟從 25 步壓縮至 8 步,速度提升 3 倍。
-
效能指標:生成 1 分鐘語音僅需 0.124 秒(RTF 值),且質量損失可忽略(CMOS 僅下降 0.03)。
-
意義:為即時語音互動(如直播字幕生成)提供技術支援。

核心架構
MegaTTS3 採用 WaveVAE 和 Latent Diffusion Transformer 雙模組協同合作,創造出超高質量的語音合成效果。
1. WaveVAE 模組
WaveVAE 模組的使命是將原始語音訊號壓縮成緊湊的潛向量:
-
編碼器:對語音進行下采樣,並提取關鍵的高頻細節資訊,使得每一幀潛向量都飽含聲音魅力;
-
解碼器:藉助多尺度、多解析度判別器(如 MPD、MSD、MRD),實現高保真語音的完美還原;
-
訓練策略:透過重構誤差、KL 散度和對抗損失的綜合考量,確保生成的潛向量既精準又富有表現力。
2. Latent Diffusion Transformer 模組
在壓縮後的潛空間中,MegaTTS3 利用擴散模型進行條件生成。
-
隱式對齊機制:Transformer 的自注意力機制在潛空間中構建出文字與語音之間的細緻對映,確保語音與文字資訊無縫融合;
-
稀疏對齊策略:透過在潛向量序列中嵌入少量對齊錨點,降低對齊難度,同時為每個音素提供精準的位置資訊,使生成過程既自由又穩定;
-
訓練方法:將潛向量序列分為“提示區域”和“遮蔽區域”,在提示條件下預測被遮蔽部分,模型在不斷訓練中逐步掌握精細對齊技能。


實驗成果與優勢
MegaTTS3 前代模型的表現就很優異,在相關論文中,MegaTTS 和 MegaTTS 2的語音質量(MOS-Q)和說話人相似度(MOS-S)指標均表現出與當時頂尖模型(如 NaturalSpeech 2, Voicebox)相媲美甚至超越的效能 。
FVTTS 等研究也將 MegaTTS 系列視為 SOTA(State-of-the-Art)模型進行比較。
據論文介紹,作為升級版的 MegaTTS3,自然度、相似度雙領先,在 LibriSpeech 資料集上,生成語音的自然度(CMOS)和說話人相似度(SIM-O)都是當前最優,聽著就像真人說話,連細節音色都能完美還原。

大量實驗資料表明,MegaTTS3 在語音清晰度、可懂度和自然度上均表現優異。
-
高保真效果:即使在僅 8 步取樣的情況下,生成的語音質量依然堪比最先進的技術;
-
魯棒性提升:稀疏對齊策略使系統在長句和複雜文字下表現穩定,大幅減少對齊錯誤;
-
靈活個性化:multi-conditional CFG 策略賦予使用者更多控制權,無論是語速、情感還是口音,都能輕鬆調節,滿足個性化需求。


場景應用與未來展望
MegaTTS3 以其零樣本語音合成能力、輕量級擴散模型和多語言支援等特點,為語音合成技術帶來了全新的突破,滿足了不同場景下的多樣化需求,為使用者帶來自然流暢的聽覺體驗。
Demo 1 內容創作場景👇
影片創作者和部落格主播可以透過 MegaTTS3 快速生成影片或部落格旁白,MegaTTS3 僅需數秒音訊樣本,即可提供多樣化的音色與韻律選擇,支援中、英及多語言混合場景,有效適配全球化內容生產需求。
Demo 2 教育應用場景👇
MegaTTS3 透過將教材及學習資料轉化為有聲內容,助力視障群體及有閱讀障礙的使用者理解文字內容。其生成的高質量有聲讀物,為學習者創造了更生動直觀的知識獲取方式,推動教育資源的無障礙化傳播。
Demo 3 智慧互動場景👇
MegaTTS3 賦能智慧語音助手及智慧家居裝置,構建親切便捷的語音互動體驗。使用者可透過自然語音對話實現天氣查詢、音樂播放、提醒設定等功能,使智慧裝置真正成為兼具功能性與情感連線的生活夥伴。
Demo 4 車載語音導航場景👇
MegaTTS3 實現了路線指引、交通訊息及路況播報的語音化輸出,幫助駕駛員在獲取關鍵資訊時保持注意力集中,有效提升駕駛安全性。
*連結裡還有更多官方demo:https://sditdemo.github.io/sditdemo/
作為語音互動的核心技術之一,TTS 已經在各行各業中展現出巨大的潛力。隨著技術的持續迭代和社群的共同建設,我們期待 MegaTTS3 未來能帶來更多驚喜,例如更便捷的零樣本克隆能力、更豐富的情感和風格控制等。

結語
MegaTTS3 的問世打破了傳統 TTS 技術的固有認知,以輕量級模型架構實現強大效能,重新定義了輕量級 TTS 模型的技術邊界。這一突破不僅標誌著語音合成技術的階段性跨越,更為後續研究開闢了更廣闊的最佳化空間。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
