
整理 | 華衛
想象一下,一個 AI 模型可以表達 70 多種情緒,以不同的風格說話,甚至令人信服地模仿口音。並且,它能夠同時處理兩個音訊流,同時聽和說。這不是科幻小說,而是 Kyutai 在語音 AI 技術上的最新突破。
只用短短 6 個月的時間,這個由 8 人組成的非營利性 AI 研究實驗室從零開發出了一種名為 "Moshi "的即時原生多模態基礎 AI 模型。根據 Kyutai 的說法,Moshi 是世界上首個具有自然對話能力的可公開訪問 AI 助手。OpenAI 之前曾展示過 GPT-4o 的語音引擎和語音模式功能,但尚未釋出。
據稱,該模型具備的功能可與 OpenAI 的 GPT-4o 和 Google Astra 相媲美,但模型要小得多。“Moshi 在說話時思考。”Kyutai 執行長帕特里克·佩雷斯 (Patrick Pérez) 表示,Moshi 具有徹底改變人機通訊的潛力。

7 月 4 日,Kyutai 在法國巴黎公開發布了 Moshi 的實驗原型,使用者可以在網上自由測試體驗(https://moshi.chat/?queue_id=talktomoshi)。值得一提的是,Kyutai 的所有模型都是開源的。之後,該團隊不僅計劃釋出完整模型,包括推理程式碼庫、7B 模型、音訊編解碼器和最佳化堆疊。
圖靈獎得主 Yann LeCun 分享說:“Moshi 可以聽懂帶有法國口音的英語。”就連 PyTorch 之父 Soumith Chintala 也向 Kyutai 表示了祝賀,並透露該團隊某成員是他在 Meta 的 AI 研究團隊 FAIR 的前同事。

Kyutai 團隊
據悉,這家成立於 2023 年 11 月的初創團隊,得到了包括法國億萬富翁 Xavier Niel 在內投資的近 3 億歐元的支援,旨在為 AI 的開放研究做出貢獻並促進生態系統發展。Kyutai 還組建了一支由知名人工智慧研究人員組成的科學顧問團隊——計算機科學家、2022 年麥克阿瑟“天才”獎獲得者 Yejin Choi,Meta 首席 AI 科學家、ACM 圖靈獎獲得者 Yann LeCun 和德國馬克斯·普朗克智慧系統研究所研究所所長 Bernhard Schölkopf。
在現場演示過程中,Kyutai 團隊與 Moshi 進行互動,展示了其在各種說話風格之間無縫切換,以及在角色扮演中迅速化身的創造力。
當被要求用法國口音說話時,Moshi 朗誦了一首關於巴黎的詩;在被要求變身為一個熱情洋溢的海盜時,Moshi 講述了七大洋上的勇敢和冒險故事;Moshi 還能用一種低語的講述神秘故事的語氣,表達《駭客帝國》的電影情節。
Moshi 還能一秒化身太空助手,和對話使用者一同“進入”太空之旅。並且,Moshi 的反應似乎比人類更快,經常在問題或提示被完全提出之前就做出了回答。
在釋出現場的一系列演示中,Moshi 是在沒有網際網路連線的標準 MacBook Pro 上執行。Kyutai 還計劃進一步最佳化移動裝置的 Moshi,確保其廣泛採用。這將使 Moshi 更加通用,從個人助理到行動式教育工具,可以在各種環境中使用。
據介紹, Moshi 不僅僅是一個語音 AI,還是一個能夠處理文字和音訊的多模態模型,主要功能特點包括:
-
同時聽和說:Moshi 支援多流音訊,使其能夠同時收聽和響應,從而實現自然流暢的前後對話,其中中斷和重疊的語音很常見。與依靠語音活動檢測來切換輪次的傳統系統不同,Moshi 保持連續的對話流。
-
文字思想:在用音訊說話時,Moshi 會產生文字思想。這種雙重方法增強了其產生準確和符合具體情況的響應的能力。透過文字思考,Moshi 可以更有效地組織其響應,並從更豐富的知識庫中汲取靈感。
-
富有情商:Moshi 不僅僅是文字,而是關於理解它們背後的意圖。該模型經過訓練,可以識別情緒,甚至可以生成傳達特定情緒的語音。
-
即時互動:Kyutai 聲稱 Moshi 的理論延遲僅為 160 毫秒,而實際上,它在 200 到 240 毫秒之間。
-
人人可訪問:不僅是開源專案,公司、研究人員都可以整合、試驗,而且開發了一種可以在個人計算機上執行的較小版本,使這項技術能夠被大型研究實驗室以外的更廣泛的使用者使用。
-
負責任的 AI :Kyutai 正在整合水印技術幫助識別 AI 生成的音訊,以確保透明度。
其中,Moshi 最令人印象深刻的方面之一是它能夠在裝置上執行。此功能解決了隱私問題,並使 AI 在即時應用程式中更易於訪問和響應。使用者可以與 Moshi 進行互動,而不必擔心資料被髮送到遠端伺服器。
Moshi 因其同時處理音訊和文字的能力而脫穎而出,而這種即時互動是由 Kyutai 創新的聯合預訓練過程提供支援。
據瞭解,Moshi 基於 Helium 7B 模型構建,集成了文字和音訊訓練,針對 CUDA、Metal 和 CPU 後端進行了最佳化,支援 4 位和 8 位量化。在訓練方面,Kyutai 使用了各種資料來源,包括人體運動資料和 YouTube 影片。
Moshi 還集成了基於 Kyutai 的 Mimi 模型的高壓縮語音編解碼器,可以高效處理音訊資訊。
訓練中,Moshi 涉及一些創新的開創性技術,使其對自然語言和對話流程有了深刻的理解。
-
音訊語言模型:Moshi 的模型不是隻在文字上訓練,而是在語音資料上訓練。語音被壓縮成偽詞,然後用這些偽詞來訓練模型以預測下一段音訊。這種方法使模型能夠理解口語的內容和上下文。
-
合成對話:為了訓練 Moshi 進行對話,Kyutai 從純文字語言模型中生成了合成對話。然後,這些對話透過內部文字轉語音引擎進行合成。這種方法確保其學會了處理真實的對話動態。
同時,Kyutai 以新穎的方法正面解決了傳統的語音 AI 系統面臨的問題,如延遲和處理過程中非文字資訊的丟失,創造了一種響應更靈敏、聽起來更自然的 AI。
-
整合深度神經網路:Kyutai 沒有依賴每個任務的單獨模型,而是將所有內容合併到一個深度神經網路中。這種整合減少了延遲,並保留了語音通訊的豐富性,而語音通訊在純文字處理中通常會丟失。
-
基於語音的訓練:Moshi 的模型從大量壓縮的帶註釋的語音片段中學習,使其能夠理解語音的複雜性,包括特定的聲音特徵和聲學條件。
此外,Kyutai 敏銳地意識到高階語音 AI 可能被濫用於惡意目的,如網路釣魚。為了降低這些風險,Kyutai 實施了識別 Moshi 生成內容的策略,包括維護生成的音訊簽名的資料庫,並使用水印技術在音訊中嵌入聽不見的標記。
Moshi 代表了語音 AI 技術的重大飛躍。更廣泛地說,Moshi 有可能徹底改變數字世界中語音的使用。例如,它的文字到語音功能在情感和多人語音互動方面非常出色。它能夠傳達情感、調整說話風格和進行自然對話,這將徹底改變我們與人工智慧互動的方式,並開啟了一個充滿可能性的世界:
-
客服支援:由 Moshi 提供支援的 AI 助手可以提供富有同理心和高效的客服支援,提高使用者滿意度並減少等待時間。
-
語言學習:Moshi 模仿母語口音和傳達情感的能力可以徹底改變語言學習,使其更加身臨其境和有效。
-
醫療保健:Moshi 可以作為患者的伴侶,提供支援和資訊,同時根據使用者的情緒狀態調整其語氣。
-
娛樂:Moshi 可以憑藉其多樣化的聲音和情感將角色帶入生活,豐富互動式講故事體驗。
與此同時,Moshi 的出現隔空對 OpenAI 等主要人工智慧公司提出了挑戰,這些公司因安全問題而推遲釋出類似的語音功能產品而受到不少使用者的批評。
不過,也有 Moshi 的使用者表示,其在第一分鐘左右的速度和響應速度都非常快,但對話進行的時間越長,就會變得越不連貫;並且,Moshi 明顯缺乏知識,在犯了錯誤而受到責備時,就會驚慌失措,陷入“對不起,對不起…”的迴圈回覆。
雖然 OpenAI 暫時還不需要擔心來自 Moshi 的競爭,但確實表明,許多公司正在迎頭趕上 OpenAI。就像 Sora 一樣,現在 Luma Labs、Runway 等其他公司都在推出表現不弱的競對產品挑戰其模型質量和市場地位。
參考連結:
https://medium.com/@shrimangalevallabh789/moshi-voice-ai-the-advanced-voice-ai-that-feels-almost-human-d185d85da97d
https://analyticsindiamag.com/french-ai-lab-kyutai-releases-openai-gpt-4o-killer-moshi/
https://www.tomsguide.com/ai/moshi-chats-gpt-4o-advanced-voice-competitor-tried-to-argue-with-me-openai-doesnt-need-to-worry-just-yet
在人工智慧的浪潮之下,AI Agent 正逐漸成為技術前沿探索與實踐的焦點,不僅推動著各行各業的革新,也在企業生產、辦公自動化、零售連鎖等多個領域展現出巨大的潛力和價值。我們精選了2024年InfoQ技術大會上關於AI Agent的精彩演講內容,帶你瞭解華為、微軟等大廠的探索方向和實踐經驗。關注「AI前線」,回覆關鍵詞「Agent」免費獲取PPT資料。

8 月 16-17 日,FCon 全球金融科技大會將在上海舉辦。本屆大會由中國信通院鑄基計劃作為官方合作機構,來自工銀科技、北京銀行、平安銀行、廣發銀行、中信銀行、度小滿、螞蟻集團等金融機構及金融科技公司的資深專家將現身說法分享其在金融科技應用實踐中的經驗與深入洞察。
大會火熱報名中,7 月 31 日前可以享受 9 折優惠,單張門票節省 480 元(原價 4800 元),詳情可聯絡票務經理 17310043226 諮詢。
