聲音比真人還像真人的Maya,背後模型開源了!跨越語音恐怖谷

機器之心報道
機器之心編輯部
語音恐怖谷是指在語音合成技術中,當 AI 合成語音接近人類的真實語音,但又存在細微的不自然或不完美之處時,會引發人類的不適感。
在 AI 這條賽道上,語音助手也是大家重點發力的領域。
你可能已經和 OpenAI 版《Her》展開過對話,也可能詢問過其他語音助手一些問題。它們都有各自的優缺點,有選擇困難症的小夥伴可能犯難了,到底該選擇哪一款呢?
其實,在和語音助手交談的時候,除了對話流暢,聲音的微妙表達如情緒、停頓、安慰都是不能少的。
但當今 AI 語音助手雖然接近人類但仍有機械感或情感表達不自然的時候,使用者可能會感到怪異,甚至比完全機械化的語音更難以接受。這種現象被稱為語音恐怖谷效應,是當前語音合成技術需要克服的挑戰之一。
AI 公司 Sesame 釋出的逼真語音助手 Maya,透過情感智慧、上下文記憶和高保真語音生成技術,成功跨越了語音恐怖谷,使語音互動更加自然、情感豐富。
Sesame 官方部落格中正式寫道他們的研究跨越恐怖谷效應,來源:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
在下面演示的這段對話中,你就像和朋友聊天一樣,聊上十幾分鍾都沒問題,Maya 的語氣很隨和,它會打斷別人的話,你也可以隨時打斷它的話,甚至你還能聽到對話時的呼吸聲。
來源:https://x.com/tanvitabs/status/1895842394928791888
現在,Sesame 開源了驅動 Maya 的基礎模型 CSM-1B(Conversational Speech Model)。
  • 專案地址:https://github.com/SesameAILabs/csm
  • huggingface 地址:https://huggingface.co/spaces/sesame/csm-1b
該模型擁有 10 億引數規模,並且採用了 Apache 2.0 許可證,這意味著它可以在幾乎沒有限制的情況下用於商業用途。CSM-1B 可以從文字和音訊輸入中生成「RVQ 音訊編碼」。
可能大家都很好奇什麼是 RVQ(Residual Vector Quantization),簡單來講就是一種將音訊編碼為離散 token 的技術。這種技術已經被應用於多種 AI 音訊研究中,包括各種大廠都在採用,如 Google 的 SoundStream(一款用於收聽播客、有聲讀物和廣播節目的應用程式)和 Meta 的 Encodec。
CSM-1B 使用了 Meta 研發的 Llama 系列模型作為其骨幹架構,並搭配了一個音訊解碼器元件。
Sesame 表示,Maya 的精細微調版本正是基於 CSM。Sesame 還提到:在 Hugging Face 和 GitHub 上開源的模型是一個基礎生成模型,能夠產生多種聲音,但尚未針對任何特定聲音進行精細微調…… 該模型因訓練資料中的資料汙染,對非英語語言有一定的能力,但表現可能不佳。
目前尚不清楚 Sesame 用於訓練 CSM-1B 的資料來源,該公司並未透露相關資訊。
值得注意的是,該模型實際上沒有任何真正的安全防護措施。Sesame 採用的是一種誠信系統,僅僅是敦促開發者和使用者不要在未經他人同意的情況下使用該模型模仿別人的聲音,不要建立誤導性內容如假新聞,或從事有害或惡意活動。
《消費者報告》最近發出警告,指出市場上眾多流行的 AI 語音克隆工具缺乏有效的防範措施來預防欺詐和濫用行為。
公司介紹
Sesame 由 Brendan Iribe(Oculus 聯合創始人兼前 CEO)、Ankit Kumar(前 Ubiquity6 首席技術官兼聯合創始人)、Ryan Brown(前 Meta Reality Labs 研究工程總監)等創意人才領導。
Sesame 已從 Andreessen Horowitz、Spark Capital 和 Matrix Partners 等投資機構獲得融資,但具體金額未對外公佈。
Sesame 專注於開發自然對話的語音夥伴及相關裝置。公司採用跨學科方法,結合硬體、軟體和機器學習技術,確保語音介面既實用又令人愉悅。其研究團隊在語音生成、個性化建模和多模態技術領域積極創新,並依託大規模 GPU 叢集和專業訓練評估體系支援研發工作。
該公司除了開發語音助手技術外,還在研發可全天佩戴的 AI 眼鏡原型,這些眼鏡將搭載公司自主開發的定製模型。
參考連結:
https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/
https://www.zdnet.com/article/talking-with-sesames-ai-voice-companion-is-amazing-and-creepy-see-for-yourself/
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章