明敏 發自 凹非寺量子位 | 公眾號 QbitAI
超越OpenAI!
國產大模型突襲,AI語音生成天花板被重新定義了。
MiniMax最新發布Speech-02,同時拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena兩項全球權威語音基準測評第一!
而且還是榜單前十名中唯一的國產玩家。
要知道,這倆榜首長期被OpenAI、ElevenLabs佔據,前者不用多介紹,公認的AI領域全球NO.1梯隊成員,後者也是專精AI語音合成賽道的領軍玩家。

具體效果如何?一手實測在此:
用專業播音腔讀一讀量子位的文章?So easy~
直接根據文章內容配上相應的語氣和情緒,中英混雜輕鬆搞定,各種停頓和重音,完全就是頂級新聞播報員的感覺。
還能讓黴黴為我們讀論文。不僅是熟悉的美音,而且非常還原她個人特點。
如上效果,只需幾秒語音參考,即可讓大模型當場完成超逼真復刻。
並且在提供SOTA級效能同時,定價僅為ElevenLabs的一半甚至四分之一,價效比也稱得上“全球SOTA”了。

如此能力,不少人其實不知不覺體驗到了。
比如前段時間大火的吳彥祖陪你學英語中的“AI阿祖”,底層能力正是來自MiniMax。

還有個人開發者打造的出圈案例——故宮AI嚮導,正是基於MiniMax MCP Server,支援透過簡單文字輸入,完成影像、語音、影片生成以及聲音克隆等多項能力。其中語音生成與克隆的能力,就是靠MiniMax Speech模型完成。

果然,MiniMax還是一如既往悶聲搞大事啊。
那麼藉著這次語音模型重磅更新,來扒一扒MiniMax是如何發起突襲的。
全球首個實現多樣化、個性定義的語音模型
總結來看,Speech-02兼顧了三方面亮點:
-
超擬人 -
個性化 -
多樣性
首先,在最關鍵的“超擬人”方面,Speech-02的還原度不說是100%,也幾乎是天衣無縫了。
比如這段脫口秀,無論是中文咬字還是英文發音,都非常完美。同時還帶有自然的情緒起伏、停頓和重音,給人以更豐富的聽覺感受。
其次在個性化方面,Speech-02現在已經提供了豐富音色可供選擇。
細分維度包括語言、口音、性別和年齡。目前已經支援32種語言。中英文這樣常用的選項裡,還包含不同的口音。

同時,它也支援對任意音色進行復刻。
由於不侷限於只學習精品音色,它具備極強泛化能力,最少只需聽10秒參考樣本,即可完成對一種說話人聲音的模仿。而且還支援對音色進行進一步細節調整。
以聲音參考這一功能為例(這一功能在國內僅對B端使用者開放),只需提供10-300秒聲音參考樣本,Speech-02就可以開始完成復刻。上傳檔案or直接錄音都可以。也就是說,對著模型說幾句話,它就已經能學會你的音色了。

它支援自動剔除背景噪音,對上傳音訊的質量要求不高。
比如生成黴黴音色時,我們使用了她在紐約大學演講的片段,其中包含了掌聲、歡呼聲等噪音影響,但是對生成結果的影響很小。
此外還支援情緒等更細微的調整,能滿足專業領域人士的需求。
最後,在多樣性方面,Speech-02可以支援32種語言。
不僅支援不同語言之間無縫切換,而且在音色生成時就可以完成語種跨越。比如餵給它黴黴英文語音素材,讓它生成中文版音色。
生成的語音也支援多語言之間無縫切換,如下是英語、西班牙語之間切換。
由此幾方面優勢結合,用Speech-02完成電影級配音,也不是問題了。
從資料維度看,Speech-02的表現也是全方位碾壓。
透過詞錯誤率(WER)和說話者相似度(SIM)兩個維度,在Seed-TTS Test資料集上,Speech-02在零樣本克隆中實現了更低詞錯誤率,one-shot下SIM得分與真實音訊(Ground Truth)相當,表明模型能夠有效提取和保留說話者音色特色。

在多語言評估上,Speech-02在包含24種語言的測試集上,它的WER表現與ElevenLabs Multilingual v2相當,在中文、粵語、泰語、越南語和日語等複雜語言中表現更好,甚至在英語上也完成了對ElevenLabs的全線超越。
在SIM方面,MiniMax-Speech在所有測試語言中均優於ElevenLabs Multilingual v2,表明其說話者編碼器和合成流程在保留說話者身份方面更為有效。

A語音音訊直接克隆至B語言語音,MiniMax-Speech的zero-shot在所有測試語言中都實現了更低WER,發音準確度最高。

創新性提出Flow-VAE,更好把握克隆細節
所以,Speech-02為啥這麼強?
還得看技術細節。目前Speech-02論文已全面公開,還被很多海外AI博主關注到了。



從技術維度,Speech-02實現了只需極少樣本、甚至在沒有訓練資料的情況下,僅透過參考音訊,就能生成與目標說話人極為相似的音色,並且可以轉換成多種語種。

具體而言,它使用了基於自迴歸Transformer的架構。
大多數自迴歸TTS在語音克隆中需要語音和對應文字轉錄作為提示。提示語音和目標語音在語義或語言上存在不匹配、解碼長度限制等問題,往往會造成生成質量欠佳。
為此,Speech-02引入了獨特的可學習說話者編碼器(Learnable Speaker Encoder),直接與TTS模型一起訓練。輸入僅為一段參考音訊,輸出為一個固定大小的“聲音特徵向量”。
核心解決了三方面問題:
1、無需參考文字即可透過語音提示實現零樣本語音克隆;2、跨語言語音生成,它只關注聲音的特徵而不關心語音內容,因此即使參考音訊是英文,但是也可以使用該音色直接生成其他語言的語音;3、根據生成任務實際需求,提取出對音質和相似度更有用的特徵。

模型另一個重要創新在於引入了基於Flow-VAE的流匹配模型,進一步提升了生成語音的音質和說話人相似性。
VAE(Variational Autoencoder)用來學習語音的潛在特徵表示(比如音色、韻律、情感等),它通常假設潛在空間服從標準正態分佈,這可能會限制模型對複雜資料分佈的建模能力。
由此引入Flow模型,透過一系列可逆轉換,將潛在空間對映到更復雜的分佈,從而更準確地捕捉資料中的複雜結構和分佈特性。

此外,研究團隊還探索了模型的多種下游應用。比如透過LoRA實現對合成語音情感更精細控制、文字驅動音色生成以及專業語音克隆(透過微調引數為特定說話人生成更高保真度語音)。
為行業造AI語音引擎
不過,技術上領先還只是其一,在AI語音行業落地上,MiniMax也已悄悄領先。
落地案例多元、跨行業、全球化。與不同行業玩家共同開拓AI語音的應用前景。具體包括:
-
成熟場景:教育、有聲書等 -
新鮮場景:AI伴讀、智慧硬體、汽車智慧座艙、3A遊戲即時互動等
比如在教育領域,MiniMax與高途共同探索出了24小時可定製化的AI語言陪練系統。
最近全網爆火的“吳彥祖教你學口語”中的“AI阿祖”,就是基於此實現,透過對吳彥祖音色精品復刻,在高途推出的吳彥祖英語課中,AI阿祖可以24小時隨時線上陪練。
在智慧座艙方面,MiniMax多個大模型已入駐極狐汽車,為使用者提供即時問答服務。
值得一提的是,作為大模型技術廠商,MiniMax還一直與不同行業玩家共創,開拓AI應用邊界、激發場景創新。
在一些前沿落地場景裡,總能看到MiniMax。
比如大模型趨勢下爆火的AI玩具領域,MiniMax為熱度top1的躍然創新haivivi提供底層語音合成和文字模型能力。支援BubblePal能夠隨時靈活回答小朋友們的“十萬個為什麼”。

基於MiniMax語音能力的「AI語音掛件」(售價399-449元),上線2個月銷量突破2萬臺。
AI教育硬體方面,MiniMax為聽力熊團隊提供底層模型支援,專為青少年解決學習、生活中的各種問題,不侷限於問題回答,還可以進行適當的反饋和情感表達,兼顧教育與陪伴場景。聽力熊AI聽說學習機T6已接入。
更為新鮮的,MiniMax與香港電視臺嘗試了使用語音模型的粵語能力做天氣預報,進一步開拓落地場景。
在海外也與Hedra合作,打造了可以定製化的數字角色分身。
可以明顯感知到,MiniMax不僅在商業價值已得到初步驗證的領域積極落地,也重點關注了AI語音在更多新場景的應用,推動技術創新同時更為行業帶來新價值。
可以感知到,與MiniMax達成合作的行業玩家中,不乏領域內領軍者,更有很多來自新興賽道。前者的落地價值已經初步被驗證,後者則蘊藏著巨大潛力。
Always MiniMax,Why?
所以,為啥它們不約而同選擇MiniMax?
技術領先性是最首要的。MiniMax是AI領域頭部玩家,在大模型技術浪潮之前,已經搶先佈局自研多個模態的基礎模型,覆蓋文字、語音、視覺三大領域。
顯然在AI語音領域,MiniMax長線佈局,而且一直走在行業前沿。
而且,MiniMax還有天然的技術試煉場——星野、Talkie等。這意味著,MiniMax更懂實際落地、更懂如何將實驗室中的前沿技術輸送到使用者面前。所以,MiniMax也是國內最早用大模型架構提供語音服務的公司。
這或許也是為何MiniMax始終低調,但又一直被行業青睞。
而透過這次動作,MiniMax的佈局戰略,也呈現出更清晰的全貌——
佈局全模態,且紛紛拿下SOTA。
以最初的三大基礎模型為起點,MiniMax在短短2年時間內已經完成了對全模態能力的完整佈局。
文字方面,MiniMax打破了傳統Transformer架構限制,首次大規模實現了線性注意力機制,這種架構創新極大地提升了模型的計算效率,降低了成本,尤其在處理超長文字場景中,展現出顯著的可擴充套件性。這也是對Agent時代進行搶先押注,從中也足見MiniMax領先於行業的技術。
就在年初,MiniMax還完成了MiniMax-01系列開源,包含兩個模型,基礎語言大模型 MiniMax-Text-01 和視覺多模態大模型 MiniMax-VL-01,為開源社群提供優質選擇。
語音方面,隨著Speech-02釋出,MiniMax在AI語音領域的領先地位更加不可動搖。
影片方面,海螺AI已經是全球最大的生成式AI影片平臺,它為使用者提供了高度自由的創作控制能力,使用者可以透過簡單的輸入(如一張圖片或一段文字)生成影片,並且能夠像專業導演一樣自由掌控鏡頭語言。

如今,大模型趨勢來到應用落地側,MiniMax依舊堅持原始性創新,不斷重新整理領域內新紀錄。
底層技術是AI廠商的源頭優勢,是長期估值的壓艙石,也是唯一不可被快速複製的壁壘。
而在落地方面,MiniMax低調推進,與不同行業合作。一些AI落地爆款背後,總能看到MiniMax的身影。這既是技術領先的進一步驗證,也是其落地能力的直接證明。
可以看到,隨著大模型發展駛入“深水區”,更關鍵在於,誰能構建起“模型即產品”機制,不斷將AI技術從一線實驗室向千行百業輸送。
在這之中,佈局全、壁壘深、落地廣的玩家,更值得被關注。
MiniMax已經為行業打了個樣,不是嗎?
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
🌟 點亮星標 🌟