阿里開源語音處理模型FunAudioLLM：50種語言無縫翻譯，還能識別語音情緒

2025-09-17 09:23 AI前線

作者 | 趙明華

阿里巴巴通義實驗室近日釋出並開源了 FunAudioLLM，這是一個旨在增強人與大型語言模型（LLMs）之間自然語音互動的框架，代表了語音處理領域的最新進展。

這一框架的核心是兩個創新模型：SenseVoice 和 CosyVoice。這兩個模型不僅在多語言語音識別、情感識別、音訊事件檢測和自然語音生成方面表現出色，還展示了極高的成熟度和廣泛的應用潛力。

SenseVoice：精準多語言識別與情感辨識

● 多語言識別：採用超過 40 萬小時的資料訓練，支援超過 50 種語言，在中文和粵語上的識別準確度提升超過 50%。

● 情感辨識：具備出色的情感識別能力，在測試資料上達到或超過當前最佳情感識別模型的效果。

● 聲音事件檢測：能夠識別多種情緒和互動事件，如音樂、掌聲、笑聲、哭聲等。

● 模型架構：包括自動語音識別（ASR）、語言識別（LID）、情感識別（SER）以及音訊事件檢測（AED），能夠適應不同應用場景。

CosyVoice：模擬音色與提升情感表現力

● 多語言合成：採用了總共超 15 萬小時的資料訓練，支援中英日粵韓 5 種語言的合成，合成效果顯著優於傳統語音合成模型。

● 極速音色模擬：僅需要 3 至 10 秒的原始音訊，即可生成模擬音色，包含韻律和情感等細節，甚至能夠實現跨語言的語音生成。

● 細粒度控制：支援透過富文字或自然語言形式，對生成語音的情感和韻律進行細粒度控制，大大提升了生成語音在情感表現力上的細膩程度。

● 模型架構：包含迴歸變換器，用於生成輸入文字的語音標記；基於 ODE 的擴散模型（流匹配），用於從生成的語音標記重建梅爾頻譜；以及基於 HiFTNet 的聲碼器，用於合成波形。

FunAudioLLM 不僅在技術上有所突破，其應用前景也十分廣泛。基於 SenseVoice 和 CosyVoice 模型，該專案可以支援多種人機互動應用場景，例如音色情感生成的多語言語音翻譯、情緒語音對話、互動播客和有聲讀物等。

多語言語音翻譯

透過結合 SenseVoice、LLMs 以及 CosyVoice，使用者可以無縫地進行語音到語音的翻譯（S2ST）。示例：中文翻譯為英語、日語和粵語：

情緒語音對話

透過融合 SenseVoice、大語言模型（LLM）和 CosyVoice，FunAudioLLM 能夠開發出一款情感語音聊天應用。

互動播客

透過將 SenseVoice、基於 LLM 的即時知識多代理系統和 CosyVoice 整合，FunAudioLLM 可以創造一個互動式播客電臺。

有聲讀物

結合 LLM 的文字分析能力和 CosyVoice 的語音生成技術，FunAudioLLM 能夠製作表現力更強的有聲讀物。

目前，與 SenseVoice 和 CosyVoice 相關的模型已在 ModelScope 和 Huggingface 上開源，同時在 GitHub 上釋出了相應的訓練、推理和微調程式碼。

參考連結：

https://mp.weixin.qq.com/s/oO5Gy-MwDNVl_j5Zt9vkyghttps://fun-audio-llm.github.io/

論文連結：

https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf

內容推薦

AIGC技術正以驚人的速度重塑著創新的邊界，InfoQ 首期《大模型領航者AIGC實踐案例集錦》電子書，深度對話30位國內頂尖大模型專家，洞悉大模型技術前沿與未來趨勢，精選10餘個行業一線實踐案例，全面展示大模型在多個垂直行業的應用成果，同時，揭秘全球熱門大模型效果，為創業者、開發者提供決策支援和選型參考。關注「AI前線」，回覆「領航者」免費獲取電子書。

活動推薦

AICon 全球人工智慧開發與應用大會，為資深工程師、產品經理、資料分析師等專業人群搭建深度交流平臺。聚焦大模型訓練與推理、AI Agent、RAG 技術、多模態等前沿議題，匯聚 AI 和大模型超全落地場景與最佳實踐，期望幫助與會者在大模型時代把握先機，實現技術與業務的雙重飛躍。

在主題演講環節，我們已經邀請到了「蔚來創始人李斌」，分享基於蔚來汽車 10 年來創新創業過程中的思考和實踐，聚焦 SmartEV 和 AI 結合的關鍵問題和解決之道。大會火熱報名中，7 月 31 日前可以享受 9 折優惠，單張門票節省 480 元（原價 4800 元），詳情可聯絡票務經理 13269078023 諮詢。

你也「在看」嗎？👇

相關文章

百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90％，1秒極速響應

百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90％，1秒極速響應

Allin大模型！智慧座艙語音互動決勝2025

Allin大模型！智慧座艙語音互動決勝2025

語音界Deepseek！百度最新跨模態端到端語音互動，成本最高降90％

語音界Deepseek！百度最新跨模態端到端語音互動，成本最高降90％

OpenAI語音智慧體誕生，懟臉實拍語氣狂到飛起！API降到每分鐘0.3美分

OpenAI語音智慧體誕生，懟臉實拍語氣狂到飛起！API降到每分鐘0.3美分

幾十個測試後，發現海螺語音與ElevenLabs掰手腕的能力不是蓋的

幾十個測試後，發現海螺語音與ElevenLabs掰手腕的能力不是蓋的

透過文字生成個性化語音會定製在你的“心趴”上嗎？

透過文字生成個性化語音會定製在你的“心趴”上嗎？

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造

端側GPT-4o來了！面壁釋出全新端側模型，全模態、端到端，支援即時流式音視訊通話！

端側GPT-4o來了！面壁釋出全新端側模型，全模態、端到端，支援即時流式音視訊通話！

AI湧現人類情感！希臘「樂之神」Orpheus開源，單卡可跑語音流式推理

AI湧現人類情感！希臘「樂之神」Orpheus開源，單卡可跑語音流式推理

AI說書媲美真人！豆包語音大模型升級長上下文理解

AI說書媲美真人！豆包語音大模型升級長上下文理解

Copyright © 2025 | WordPress Theme by MH Themes