最近身邊經常傳出一種聲音:


當我們都在熱議這些 DeepSeek、Qwen AI 大模型的時候,大家或多或少都有了各自的首選。
但提到語音大模型,好像還沒有一個真正讓人眼前一亮的統一答案。
不過,這一局面正在被 MiniMax 打破。
他們推出的 Speech-02 系列語音模型,已經強勢登頂語音排行榜 Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 權威榜單的第一名。
在最新的語音模型排行榜中,Speech-02-HD 一舉超越此前爆火的 OpenAI、elevenlabs 等語音模型。
或許這正是我們等待已久的那個“領軍者”。


這次 Speech-02 系列語音模型在海外火了起來,很多海外自來水大 V 紛紛轉發,國產大模型的又一次勝利。


說了這麼多,我們先聽一下這段效果音訊:
深沉的電影級低音,具有身臨其境的深度強大的語音增強器和豐富的設定 – 非常適合電影、遊戲、播客等。錄音室級音訊觸手可及。
如果你經常看我的影片,那我的聲音,應該不陌生。
而我要說,你聽到的這段自然的音訊,就是用這個 AI 合成的。而且還能做語種遷移,支援說英文。
說實話,我可讀不出來這麼地道的感覺。
Speech-02 系列語音模型真得太強了,後面我會放出更多的效果實測,先跟大家聊聊 Speech-02 系列語音模型到底是個啥?
-
Speech-02-hd:旗艦模型,主打超高保真度、表現力極強。 -
Speech-2-turbo:高性價比,同時在多語種生成上也有很不錯的表現。

使用地址:
https://www.minimax.io/audio
他們真不是“語音圈新人”
不少人提起 MiniMax,第一反應是 “這不是做通用大模型的那家?”
但其實在語音領域,MiniMax 早就默默深耕了很久。
比如,最近全網刷屏的 “高途吳彥祖教英語”,那個說話絲滑、語氣自然到像真人一樣的 AI 阿祖,其聲音也是 MiniMax 的語音模型生成的!阿祖的爆火不僅是內容創意,也更是技術力的體現。

不僅如此,MiniMax 的語音模型也正在走向國際舞臺。矽谷的一家影片敘事工具公司 Hedra,專注於打造可定製的數字化身與虛擬角色,已經集成了 MiniMax 最新的語音模型,為使用者打造更真實的聲音體驗。

甚至連智慧玩具也被他們點亮了!愛小伴和國民級 IP 奶龍聯名推出了 AI 玩伴機器人,為了還原奶龍那標誌性的萌系聲線,特別選用了 MiniMax 的語音模型。

應用場景可謂是非常廣,而大家都選擇它的原因也很簡單:效果出類拔萃。
區別於其它語音模型,Speech-02 模型還額外支援個性化定義語音。
在多語種語音生成的表現上,MiniMax 的Speech-02模型同樣可圈可點。根據字錯率(WER)和語音相似度(SIM)這兩個關鍵指標,與 11Labs 進行了對比測試:
-
相似度方面:整體上優於 11Labs,語音復刻效果更自然、更貼近原聲。
-
字錯率方面:MiniMax 不僅在 11Labs 的主場語言英語上實現了反超,在法語、日語等主流語種中也展現出強勁實力,覆蓋面廣。

一、Speech-02 體驗
給我的感覺是,它的效果不止是“擬人”,簡直可以說是“本尊駕到”。
我拿更多資料進行了實測,Speech-02突出的就是一種擬人感,真實感。說白了就是沒有“AI味兒”。
無論是哪種語言的遷移,能夠保證真實感。
中文:春天的公園今天是溫暖的春日。公園裡孩子們在嬉戲玩耍,歡聲笑語。櫻花盛開得很美。還可以聽到鳥兒的聲音。感覺非常舒適。
日語:春の公園は今日、溫かい春の日です。公園では子供たちが遊び、笑い聲が響いています。桜がとても美しく咲いています。鳥の聲も聞こえてきます。とても心地良い気分です。
不止音色像,它甚至學會了周董特有的咬字方式、停頓節奏、語氣習慣。那種熟悉的“含糊感”,Speech-02 模型也能復刻出來了!

整個製作過程也不超過一分鐘,直接上傳音訊素材,它會自動分析進行儲存。並且MiniMax也提供豐富的語音庫供大家使用。
除此之外,Speech-02 還支援豐富的自定義功能,包括聲音克隆、情感調節、語速音高控制等。自由度很高,也就是可以個性化設定。
我直接試了一下我自己的音訊,下面這段音訊,就是我上傳自己的聲音素材後,Speech-02 快速生成的結果。
中文:大家好,我是Jack Cui, 很高興為大家提供聲音配音服務。
看過我影片的朋友應該很熟悉這個聲音,不妨對比一下,看看學得像不像我。 裡面有很多引數都是可以任意調節的:

除了聽起來真、適配性強,Speech-02 還有一個殺手鐧:超強的多語種能力。它支援高達32個語言,覆蓋多個語系。
哪怕一段音訊裡中英混說,它也能接得很順、說得很溜,毫無突兀感。
好傢伙,我的中英文混讀稿,也能交由 AI 完成了?
中英文字:Ollama 是一個可以在本地輕鬆執行大語言模型的平臺,just one command to start models like Llama3 or Mistral locally。
英語都是小菜一碟,來聽聽粵語:
粵語:Ollama 是一個可以在本地輕鬆執行大型語言模型的平臺,只需一個命令就可以在本地啟動像 Llama3 或 Mistral 的模型。
這是阿拉伯語:
阿拉伯語:Ollama هو منصة يمكن تشغيل نماذج اللغة الكبيرة بسهولة محلياً، مجرد أمر واحد لبدء نماذج مثل Llama3 أو Mistral محلياً.
還有韓語也不在話下:
Ollama는 로컬에서 Llama3나 Mistral과 같은 대형 언어 모델을 쉽게 실행할 수 있는 플랫폼으로, 단 하나의 명령어로 시작할 수 있습니다.
熟悉小語種的朋友,聽聽下面的印度語發音標準不?
印度語:Ollama एक ऐसा प्लेटफॉर्म है जहाँ आप स्थानीय रूप से बड़े भाषा मॉडल को आसानी से चला सकते हैं, बस एक कमांड से Llama3 या Mistral जैसे मॉडल को स्थानीय रूप से प्रारंभ कर सकते हैं।
就這效果,能打的語音大模型有哪家?
二、Speech-02 為何這麼強?
前面聊了這麼多體驗感受,可能你也跟我一樣好奇:Speech-02 為什麼能做到這麼自然且真實?
經過深挖,我發現它在模型結構和訓練方式上,做了很多技術細節上的突破。從輸入的編碼器到輸出的解碼器,MiniMax 對各個模組都進行了深度最佳化,還全方面升級了訓練策略。

1. Learnable Speaker Encoder(可學習說話人編碼器)
大部分語音模型,提取音色的方法都很傳統,依賴一種叫“speaker verification 模型”的技術,說白了就是“做個聲音識別器”,告訴系統這是誰的聲音。
但問題是,這類模型往往需要轉錄好的文字配合,適配性差、訓練目的也不統一。
而 MiniMax 的做法是:讓模型自己學。
它用一個“可學習的說話人編碼器”(Learnable Speaker Encoder),直接從你上傳的音訊中,自動提取出你的聲音特徵、情緒風格、語調節奏等,不需要文字,不需要對齊,直接“聽一遍就學會”。
這就是為什麼 Speech-02 能做到:
-
Zero-shot voice cloning:聽一次就能復刻聲音 -
跨語言合成:日語說起來也像周董 -
沒有轉錄資料也能訓模型
2. Flow-VAE解碼器

再說說它的解碼器。傳統語音模型一般用 VAE 或 spectrogram,那種方式有點像你先畫了個大致輪廓,但很多聲音細節就丟了,比如氣息、尾音的頓挫、停頓的節奏感。
MiniMax 用的是一種組合方案,叫做 Flow-VAE。
可以把它理解成:“VAE 先起草稿,Flow 模型再來精修細節”,讓聲音聽起來更真實、有細節。
這也是為什麼我們聽到周董的音訊,不光是音色像,連那種“懶洋洋、嘴巴沒張開的唱腔”都復刻出來了。
3. 聯合訓練
以往很多語音模型,是把各個模組(比如語音編碼器、合成器)分別訓練好,然後再拼在一起用。
但問題是:這些模組訓練目標不同,組合起來常常就顯得生硬。
MiniMax 的做法是,從頭到尾一起訓練,讓 Speaker Encoder 和語音生成模型(Autoregressive Transformer)是一個整體,互相適配。
再加上 32 種語言的大資料訓練,讓它在多語種、多口音、多情緒的表現力上都能打滿分。
說了這麼多,再好的模型,效果再強,用不起也白搭。
而在這一點上,MiniMax 做得非常厚道。
相較於 ElevenLabs,MiniMax 的Speech-02語音模型在效能登頂的基礎上,在價效比方面可謂遙遙領先,價格僅是 11labs 的四分之一。

三、最後
現在,國產語音賽道也迎來了一位真正能讓 OpenAI 和 ElevenLabs 感到壓力的強敵。它也有著我心中 TOP1 語音模型 的實力。
如果以後再有人問我“有沒有語音合成工具推薦”?
我會毫不猶豫地說:MiniMax的Speech-02語音模型,值得一試。
>/ 本期作者:與之 & JackCui
>/ JackCui:AI領域從業者,畢業於東北大學,大廠演算法工程師,熱愛技術分享。