AI說書媲美真人!豆包語音大模型升級長上下文理解

允中 發自 凹非寺

量子位 | 公眾號 QbitAI
下面的兩個有聲書演播片段,你能分辨是真人還是AI合成的嗎?
實際上這兩個小說片段都是AI合成的,方案來自於豆包語音模型團隊。為了逼近一流真人主播的演播效果,豆包語音模型基於原有Seed-TTS框架進一步加入上下文理解,最終實現了高表現力、高自然度、高語義理解的小說演播效果。

豆包語音模型無需額外標籤,端到端合成聲音

市面上很多的語音模型已經能保證足夠自然的合成表現,但在音質、韻律、情感,以及多角色演繹上還有探索空間。特別是在小說演播場景下,想要媲美一流主播細膩的演播效果,要做好旁白和角色的區分演繹、角色情感的精確表達、不同角色的區分度等。
傳統的小說TTS生成方式,需要提前給對話旁白、情感、角色打標籤,而豆包語音模型則可以做到端到端合成,無需額外標籤標註。
傳統語音模型和豆包語音模型合成鏈路的區別

改進Seed-TTS技術,合成語音效果媲美真人

原始Seed-TTS(技術報告:https://arxiv.org/pdf/2406.02430)是一種自迴歸文字到語音模型,主要分為4個主要模組:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。
其中Speech Tokenizer解析了參考音訊資訊,決定了合成音訊的音色和全域性風格;Autoregressive Transformer接收傳入的目標文字和Speech Tokenizer的輸出,進而生成出包含語義資訊的Semantic Token;Diffusion Model會基於Semantic Token建模出包含語音資訊的Acoustic Token;Acoustic Vocoder負責將Acoustic Token重建還原出最終的音訊。
原始Seed-TTS架構
為進一步提升小說演播下的語音表現力和長文字的理解,豆包技術團隊對Seed-TTS進行了改進
  • 在資料上,小說音訊做章節級別處理,保證了長文下的語音一致性和連貫性。
  • 在特徵上,融合TTS前端提取的音素、音調、韻律資訊和原始文字,提升發音和韻律的同時,保留小說語義。
  • 在結構上,將speech tokenizer改為speaker embedding,解除reference audio對於語音風格的限制,因而同一個發音人能在不同角色上作出更貼合人設的演繹。
  • 最後在目標合成文字之外,額外加入了上下文的資訊,從而使得模型能夠感知更大範圍的語義資訊,旁白和角色音表現更精準到位。
經過專業評測,最佳化後的豆包語音模型在小說演播場景,CMOS(Comparative Mean Opinion Score,與真人打對比分的一種主觀評分方式)已達一流主播的90%+效果。
最佳化後的豆包語音模型結構

技術落地番茄小說,惠及聽書使用者

豆包語音大模型團隊以王明軍、李滿超兩位演播圈大咖的聲音為基礎,採用新技術合成的千部有聲書,已上線番茄小說,題材覆蓋了歷史、懸疑、靈異、都市、腦洞、科幻等熱門書目型別。
據瞭解,未來豆包語音模型會繼續探索前沿科技與業務場景的結合,追求更極致的“聽”體驗。

豆包語音模型合成的小說音色效果

王明軍演播試聽:
李滿超演播試聽:
左下角點選【閱讀原文】,聽更多小說音色效果。
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章