斬獲全球SOTA，競技場雙榜登頂！這款國產語音模型憑什麼？

MiniMax又一王牌模型Speech-02亮相。

作者 | 陳駿達

編輯 | 漠影

國產模型又斬獲多項SOTA！

智東西5月16日報道，近日，上海大模型獨角獸MiniMax旗下的Speech-02語音模型，在兩項全球權威語音基準測評榜單中拔得頭籌，力壓OpenAI、AI語音明星創企ElevenLabs旗下的所有語音模型。

▲左為Artificial Analysis Speech Arena榜單，右為Hugging Face TTS Arena

Speech-02不僅在WER（字錯率）、SIM（相似度）等硬性指標上實現了與真人無異、甚至更好的SOTA表現，還透過資料、架構層面的創新，實現了超強的泛化能力，支援30+種語種、不同口音、不同情緒的個性化定製。

此外，Speech-02每百萬字元輸出價格為50美元，價格低至ElevenLabs的1/4，實現了效能與成本的平衡，進一步加速了相關技術的商業化落地。

目前，以Speech-02為代表的多款MiniMax語音互動模型，已經收穫多家行業頭部企業和新銳創企的選用，商業化進展迅猛。在AI語音互動這一前景廣闊的技術領域中，MiniMax已率先驗證了技術到應用的高效轉化路徑。

01.

語音互動技術加速滲透

“MiniMax方案”廣受認可

近年來，語音模型技術從實驗室走向規模化應用，在語音助手、有聲內容創作、智慧教育等多個領域催生出一批成功案例。

觀察行業頭部企業的實踐，我們可以發現，準確率早已不是語音技術的唯一競爭點，個性化、情感化的互動體驗正成為新標準。

在教育科技領域，龍頭企業高途利用新一代語音技術，打造了可定製化的AI語言陪練系統“吳彥祖24小時伴學”，使“AI阿祖”成為現象級教育IP，驗證了AI語音在教育場景的落地潛力。

無獨有偶，國內老牌數字閱讀企業閱文旗下的起點讀書，選擇在在有聲書場景打造定製化音色，並取得了使用者的廣泛好評。

值得注意的是，這些領軍企業在突破語音互動技術瓶頸時，都不約而同地選擇了同一家技術夥伴——MiniMax，並由此取得了顯著成效。

MiniMax語音技術不僅僅侷限於上述相對成熟的場景，還賦能了眾多創新企業，透過定製化解決方案，幫助中小團隊快速實現語音互動產品的商業化落地。

今年年初，在有“消費電子風向標”之稱的CES展會上，一大批新銳創企打造的陪伴類AI硬體迎來潑天流量，其中，躍然創新推出的AI語音掛件BubblePal爆火出圈。

透過接入MiniMax的語音模型，這一小掛件能使普通毛絨玩具具備自然對話能力，還可以根據兒童喜歡的卡通人物復刻音色，高度還原角色音色，讓孩子與卡通人物沉浸對話。

蟬魔方資料顯示，在釋出後的短短半年間，BubblePal的銷量在2.5-5萬之間，總銷售額超過1000萬元。截至25年3月，該產品在抖音單平臺的銷售額已經超過2000萬元。

愛小伴AI玩伴機器人同樣在CES大會上亮相。透過MiniMax的語音生成技術，愛小伴打造了“會說話的AI奶龍”，精準還原了國民IP“奶龍”的標誌性聲線，不僅能與使用者進行生動互動交流，還能聲情並茂地講述故事，真正實現“寓教於陪”的創新體驗。

MiniMax語音技術支撐BubblePal、AI奶龍們實現高度擬人化、千人千面的制勝策略。該技術不僅適用於陪伴類AI硬體，也能在AI教育硬體、智慧座艙等更廣闊的硬體型別上獲得成功。

這類具備強互動、定製化體驗的AI硬體，切中了消費者對於智慧互動類產品日益增長的需求。

已有11年AI教育行業經驗的聽力熊團隊，選擇在其AI教育硬體上接入MiniMax語音模型能力。在基礎的語音互動和知識問答之外，MiniMax語音模型可以給使用者適當的反饋與情感表達，從而豐富學習互動體驗。

智慧座艙作為未來汽車互動的核心場景，對高擬真和低延遲提出了嚴格要求，以滿足使用者對沉浸式體驗和即時反饋的需求。北汽集團極狐汽車已在其座艙中搭載了多款MiniMax大模型，給使用者提供及時響應的問答。

從有聲書到AI教育，再到智慧硬體，MiniMax究竟憑藉什麼取得行業頭部企業和新銳創企等B端客戶的青睞？在MiniMax今年5月釋出的Speech-02模型技術報告中，我們或許能找到答案。

02.

技術報告全公開

Speech-02靠什麼取勝？

給智慧硬體們裝上“AI聲帶”的Speech-02模型屬於TTS（文字轉語音）模型。TTS模型存在多條技術路徑，其中最重要的分野之一是自迴歸與非自迴歸架構的選擇。

自迴歸（AR）模型需要逐個順序生成輸出，每一步的生成依賴之前所有步驟的輸出，就像是“邊想邊說”。

非自迴歸模型並行生成所有輸出，一次性生成所有語音幀，主要參考輸入文字，就像是“照稿念”。

Speech-02選擇的是前一條技術路線。儘管非自迴歸模型在推理速度上天然具備優勢，但自迴歸模型能提供更高的準確率、相似度，總體使用者體驗更佳。

在自迴歸Transformer架構基礎上，Speech-02創新性地採用了“會學習的音色提取器”，本質上是一個人聲編碼器（speaker encoder）能夠將任意長度的音訊片段轉化為固定尺寸的條件向量，從而實現高質量、靈活的聲音表達，這也是Speech-02“零樣本”復刻人聲能力的關鍵。

不同於其他系統使用的預訓練人聲編碼器，Speech-02的這一模組是和語音合成模組一起訓練的，因此更貼合聲音合成任務的需求，能更精準捕捉音色、語調等特徵，還解鎖了模型自學多語言的能力。

原文：你們有沒有過那種 momento en que 簡單的快樂讓你覺得 la vida es bella？對了，我昨天看了一部電影，裡面說 "el destino no es una cuestión de casualidad" —— 命運不是偶然的問題。這讓我 pensare molto 關於我們每天做的選擇。

對應翻譯：你有沒有過那樣一個瞬間，簡單的快樂讓你覺得生活多美好？對了，我昨天看了一部電影，裡面說 “命運不是偶然的問題”，這讓我不禁思考我們每天做的選擇。

Speech-02的另一大創新是Flow-VAE模型。許多語音模型採用的傳統VAE（變分自編碼器）存在“一刀切”的問題，對複雜資料的建模效果一般。

而Flow（流模型）的加入讓語音模型能學會更自然、更多樣的音訊細節特徵，提升最終的生成效果。以下方案例中的“脫口秀表演”為例，這段聲音情緒飽滿，起伏、變化自然，感染力較強。

MiniMax在語音模型基礎架構的創新，讓Speech-02擁有了實現定製化的語音互動體驗的“三板斧”。

第一是情感控制，系統可使用獨立訓練的小型Lora模組來精確調節輸出語音的情感，比如高興或悲傷，同時保留原說話者的聲音特徵。

第二是文生音功能，使用者可以用語言描述想要的音色特點，系統會結合結構化引數生成符合要求的語音，還可以進行情緒控制，如同用文字描述對聲音進行“ps”。

第三是專業級聲音參考（PVC），只需少量樣本就能提取說話者的核心特徵，生成高度相似的聲音，且每個克隆只需儲存極少數據。在智東西的實測中，下方的埃隆·馬斯克聲音就僅僅使用了一段20秒的音訊作為參考。

03.

AI語音賽道卷出新高度

或開啟硬體與內容革命

語音作為人類最自然的互動方式，能顯著提升AI應用的溝通效率。同時，語音承載的語調、語速等情感要素若被AI精準模擬，將使互動更生動自然，賦予機器擬人化的溫度，大幅縮短人機距離感。

語音模型市場的前景十分廣闊。諮詢機構德勤的資料顯示，受益於成熟技術、政府/資本扶持以及智慧化市場需求，中國智慧語音市場規模將進一步增長，預計2030年市場總規模將達到1452億元，消費級應用場景超過710億元，企業級場景將達到740億規模。

已有許多企業看到了語音入口的重要價值，並開啟了相關佈局。OpenAI的相關技術主打上下文感知、對話互動；ElevenLabs關注擬真度與情感表達；Meta、谷歌這兩家巨頭則將重心放在了多語言覆蓋等領域。

位居兩大權威測評榜單榜首的MiniMax，則憑藉Speech-02與各大語音模型玩家們正面交鋒。Speech-02既具備自然流暢的對話能力，也可以表達豐富的情感，還透過架構創新實現了多語音的良好支援。

在當下語音模型的競爭格局中，MiniMax有自己獨立的思考。MiniMax從最初做Talkie和星野等產品時起，就意識到讓使用者擁有個性化的語音體驗對於智慧互動的重要性。

MiniMax將語音技術對外開放，也成為了國內最早用大模型架構提供語音服務的公司。

本次Speech-02的登頂證明了MiniMax語音技術的技術領先性，而他們更是利用這一技術優勢佈局下游應用場景，加速產品和服務在下游市場的滲透率。

今年2月，MiniMax與多家智慧硬體企業牽頭成立了“MiniMax智慧硬體產業創新聯盟”，該聯盟有望進一步擴充套件MiniMax語音技術在B端市場的發展前景。

以Speech-02為代表的MiniMax語音模型，有望與新硬體形態深度融合，加速催生以AI眼鏡為代表的新一代智慧互動裝置。

從宏觀角度上來看，這類新硬體形態需要便捷、個性化的語音互動體驗，才能最大化其作為下一代智慧終端的潛力。

而語音技術的突破，也依賴於AI眼鏡等新型硬體提供的真實場景和資料反饋，從而持續最佳化演算法與使用者體驗。二者相互促進，形成了技術迭代的正向迴圈。

展望未來，MiniMax的新一代語音技術還有可能在內容行業引發創作方式與互動體驗的變革，讓更多人能創造屬於自己的音訊與多模態內容，推動內容創作的普惠化。

例如，遊戲開發者可透過語音模型，實現NPC對話的批次生成，將原本需要數月錄製的語音工程縮短至數天完成，降低開發成本；或是透過對話的即時生成，提供獨一無二的遊戲體驗。

在播客行業，新一代語音技術的突破有望拓展個人創作者的能力邊界，讓他們能夠獨立完成原本需要專業團隊協作的廣播劇和敘事類播客製作，大幅降低製作門檻和成本，使高質量的播客創作不再是專業工作室的專利。

同時，播客的收聽體驗也因語音技術迎來升級。國內頭部播客平臺小宇宙已經利用MiniMax的語音技術，內測了外語播客一鍵轉中文收聽功能。

04.

結語：個性化語音互動鳴槍起跑

MiniMax搶佔領先身位

未來，隨著AI Agent和多模態互動的爆發，高度個性化、擬人化，具備強大情感表現力的語音技術，將成為突破使用者體驗的關鍵。

憑藉長期的技術積累和Speech-02這一SOTA級模型的釋出，MiniMax已在這一賽道上佔據了領先身位。

（本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。）

dignews.cc

斬獲全球SOTA，競技場雙榜登頂！這款國產語音模型憑什麼？

相關文章

超越OpenAI、拿下全球雙料第一，“AI吳彥祖”背後大模型SOTA了！

一個極具顛覆性的技術，「5秒音色克隆」火了！

超越OpenAI、ElevenLabs，MiniMax新一代語音模型屠榜！人格化語音時代來了

“最強AI聲優”駕到！10秒復刻聲音，連本人都分不出來！

雷軍：小米自研晶片「玄戒O1」五月見/蘋果CarPlayUltra上線/華為官宣鴻蒙摺疊屏電腦

幾十個測試後，發現海螺語音與ElevenLabs掰手腕的能力不是蓋的

AI早知道｜阿里通義千問登頂全球開源模型榜首；首款專為犬類設計的AI文字轉語音模型

雷軍官宣小米自研手機晶片/DeepSeek釋出新論文，梁文鋒署名/馬化騰：微信的AgenticAI很獨特

一睜眼就被老祖宗追著罵，AI古人「回答我」影片火了（附教程）

語音與語言處理技術大咖齊聚，IEEESLT2024開啟徵稿！