
作者 | 趙明華
阿里巴巴通義實驗室近日釋出並開源了 FunAudioLLM,這是一個旨在增強人與大型語言模型(LLMs)之間自然語音互動的框架,代表了語音處理領域的最新進展。
這一框架的核心是兩個創新模型:SenseVoice 和 CosyVoice。這兩個模型不僅在多語言語音識別、情感識別、音訊事件檢測和自然語音生成方面表現出色,還展示了極高的成熟度和廣泛的應用潛力。
● 多語言識別:採用超過 40 萬小時的資料訓練,支援超過 50 種語言,在中文和粵語上的識別準確度提升超過 50%。
● 情感辨識:具備出色的情感識別能力,在測試資料上達到或超過當前最佳情感識別模型的效果。
● 聲音事件檢測:能夠識別多種情緒和互動事件,如音樂、掌聲、笑聲、哭聲等。
● 模型架構:包括自動語音識別(ASR)、語言識別(LID)、情感識別(SER)以及音訊事件檢測(AED),能夠適應不同應用場景。
● 多語言合成:採用了總共超 15 萬小時的資料訓練,支援中英日粵韓 5 種語言的合成,合成效果顯著優於傳統語音合成模型。
● 極速音色模擬:僅需要 3 至 10 秒的原始音訊,即可生成模擬音色,包含韻律和情感等細節,甚至能夠實現跨語言的語音生成。
● 細粒度控制:支援透過富文字或自然語言形式,對生成語音的情感和韻律進行細粒度控制,大大提升了生成語音在情感表現力上的細膩程度。
● 模型架構:包含迴歸變換器,用於生成輸入文字的語音標記;基於 ODE 的擴散模型(流匹配),用於從生成的語音標記重建梅爾頻譜;以及基於 HiFTNet 的聲碼器,用於合成波形。
FunAudioLLM 不僅在技術上有所突破,其應用前景也十分廣泛。基於 SenseVoice 和 CosyVoice 模型,該專案可以支援多種人機互動應用場景,例如音色情感生成的多語言語音翻譯、情緒語音對話、互動播客和有聲讀物等。


透過融合 SenseVoice、大語言模型(LLM)和 CosyVoice,FunAudioLLM 能夠開發出一款情感語音聊天應用。

透過將 SenseVoice、基於 LLM 的即時知識多代理系統和 CosyVoice 整合,FunAudioLLM 可以創造一個互動式播客電臺。

結合 LLM 的文字分析能力和 CosyVoice 的語音生成技術,FunAudioLLM 能夠製作表現力更強的有聲讀物。
目前,與 SenseVoice 和 CosyVoice 相關的模型已在 ModelScope 和 Huggingface 上開源,同時在 GitHub 上釋出了相應的訓練、推理和微調程式碼。
參考連結:
https://mp.weixin.qq.com/s/oO5Gy-MwDNVl_j5Zt9vkyghttps://fun-audio-llm.github.io/
論文連結:
https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf
AIGC技術正以驚人的速度重塑著創新的邊界,InfoQ 首期《大模型領航者AIGC實踐案例集錦》電子書,深度對話30位國內頂尖大模型專家,洞悉大模型技術前沿與未來趨勢,精選10餘個行業一線實踐案例,全面展示大模型在多個垂直行業的應用成果,同時,揭秘全球熱門大模型效果,為創業者、開發者提供決策支援和選型參考。關注「AI前線」,回覆「領航者」免費獲取電子書。

在主題演講環節,我們已經邀請到了「蔚來創始人 李斌」,分享基於蔚來汽車 10 年來創新創業過程中的思考和實踐,聚焦 SmartEV 和 AI 結合的關鍵問題和解決之道。大會火熱報名中,7 月 31 日前可以享受 9 折優惠,單張門票節省 480 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
