紫東太初團隊 投稿量子位 | 公眾號 QbitAI
GPT-4o、Gemini這些頂級語音模型雖然展現了驚人的共情對話能力,但它們的技術體系完全閉源。
現在,紫東太初團隊聯合長城汽車AI Lab直接把整個技術棧都開源了,推出完全透明開源的端到端共情語音語言大模型OpenS2S。

OpenS2S的核心在於提供一個高效、低成本構建共情語音系統的新正規化。
它不僅繼承了團隊在語音到文字共情模型BLSP-Emo上的技術積累,更引入了流式交錯解碼架構,實現了低延遲的即時語音生成。OpenS2S提出自動化資料生成方法,結合大語言模型與可控文字到語音生成技術,構建多說話者、多情感的高質量共情語音訓練語料。
最為重要的是,團隊開源了構建OpenS2S所需的所有資源,包括:訓練與微調資料集、資料構建程式碼、模型權重以及預訓練和微調程式碼,致力於賦能更廣泛的研究社群,推動共情語音系統領域的創新與發展。

△表1 語音語言大模型的開源程度
核心貢獻
1. 模型的構建與訓練
OpenS2S 基於先進的框架構建了高效的端到端語音到語音共情對話模型,並使用高質量資料進行訓練。該模型能夠為人類與人工智慧提供更便捷、更自然的互動方式。
2. 共情語音指令資料集的自動化構建
OpenS2S提出了一種自動化的資料增強方法,融合了大語言模型(LLMs)與文字到語音(TTS)技術的優勢,專為共情語音對話而設計。藉助LLMs生成豐富多樣的使用者提問與共情回應,再透過語音克隆技術確保說話者身份的多樣性。更重要的是,該技術實現了對語音情感表達的精準控制,能夠以極低的人力成本,構建出內容豐富、高質量的訓練資料集,為共情語音系統的發展注入強大動力。
3. 全面開源釋出
為促進學術合作與推動共情大規模語音語言模型(LSLMs)領域的快速創新,OpenS2S完整開源了所有核心資源。包括模型權重、資料集構建程式碼、預訓練與微調程式碼、評估工具及合成數據集,致力於為研究社群提供完全透明、可復現的研究基礎,助力共情語音技術的持續突破。
技術方案
OpenS2S 採用模組化設計,包含四大核心元件:
– 音訊編碼器:基於Qwen2-Audio編碼器,高效提取音訊波形中的語義與非語言特徵。– 指令遵循大語言模型(LLM):選用Qwen3-8B-Instruct,發揮其強大的文字理解與處理能力,實現精準指令解析。– 流式語音解碼器:借鑑Minmo與LLaMA-Omni2,採用監督語義語音分詞器將語音響應離散化為token,隨後透過自迴歸文字到語音模型生成連續語音token,實現低延遲流式生成。– Token2Wav解碼器:將生成的語音token轉換為最終語音波形,分塊感知因果流匹配模型及HiFi-GAN聲碼器均採用 GLM-4-Voice 中的預訓練元件,保證語音質量自然流暢。

**△圖1 OpenS2S架構示意圖
資料構建過程:
首先,利用強大的LLMs生成多樣化且富有共情色彩的使用者查詢及其對應的回應,確保了對話內容的豐富性和真實性。
接著,透過引入語音克隆技術,進一步豐富了資料集的語音多樣性,使其能夠模擬不同說話者的聲音。
更進一步,藉助InstructTTS技術,模型能夠對語音回應中的情感表達進行精確控制,使合成的語音不僅語義連貫,更能在情感層面自然地傳遞共情。
透過這一自動化流程,OpenS2S實現了以極低的成本合成出大量高質量、具備語言多樣性的共情語音對話資料,並且僅需少量人工監督,從而為模型學習富有共情的人機互動提供了堅實且可擴充套件的訓練基礎。

△圖2共情語音指令資料集構建的自動化流程
訓練流程分為三階段:
語音理解預訓練、語音生成預訓練及共情語音指令微調,全面提升模型對語音語義和非語言線索的感知能力,最終實現自然且富有共情的語音響應生成。

**△圖3 OpenS2S訓練過程示意圖
實驗結果
端到端語音到語音共情互動相對難以評測,按照兩階段的方式,先進行語音到文字的評測,再展示語音到語音的共情互動樣例。
語音到文字評測能夠驗證模型的語音指令遵循能力、語義和情感理解能力。在語音到文字的互動能力評估中,OpenS2S在VoiceBench的四個子集上取得了優異成績,其表現僅次於Kimi-Audio(基於超大規模語音資料訓練),優於其他所有模型。
這表明OpenS2S擁有強大的語音互動能力,能夠高效理解使用者的語音指令輸入。此外,在URO-Bench的共情評估子集上,儘管訓練資料量遠少於現有最先進模型,OpenS2S依然取得了很好的表現。
這不僅驗證了OpenS2S的共情互動能力,也充分體現了其創新共情語音對話資料生成方法的高質量和有效性。

△表2 OpenS2S與其他模型在語音到文字互動基準測試中的效能對比。
在GitHub頁面上還展示了若干語音到語音的共情對話樣例。從例子中可以深切感受到模型對於使用者的精準理解和共情能力。
論文地址:https://arxiv.org/pdf/2507.05177Demo樣例地址:https://casia-lm.github.io/OpenS2S程式碼地址:https://github.com/CASIA-LM/OpenS2S資料地址:https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets模型地址:https://huggingface.co/CASIA-LM/OpenS2S
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —


🌟 點亮星標 🌟