港中大(深圳)開源Soundwave語音理解大模型,1/50訓練資料媲美Qwen2-Audio!

在 NLP 領域,大模型(LLMs)憑藉其強大的理解和推理能力,正在重塑行業格局。另一方面,多模態大模型,尤其是以語音互動為核心的模型也開始崛起,技術發展迅猛,前景廣闊。以 GPT-4o 為例,語音與大模型的端到端結合展示出了高即時性與強表現力,進而吸引了大量科研學者及使用者的注意。
在實際對話中,語音交流不僅受表達內容的影響,語氣、停頓等副語言特徵也是重要因素,此外,環境音、說話人特徵等背景因素也會對影響到意圖的表達。
相較於文字,語音模態能傳遞更多維度的資訊,然而種種資訊的疊加也導致了語音特徵變化無常。這也導致了儘管現有大模型(如 ChatGPTDeepSeek)在文字理解上已接近人類水平,但讓它們聽懂語音仍面臨巨大挑戰。
現有方法通常依賴於大規模訓練資料數十萬甚至百萬小時實現先進效能。儘管語音大模型可以透過擴大資料量和模型引數的方式解決,但是文字和語音之間的核心問題尚未被充分探討。
  • 表示空間差異語音使用額外的語音編碼端進行建模,而文字表示由大模型產生,兩者在表示空間上並不一致。
  • 序列長度差異語音以幀為單位表示,而大模型以子詞為單位進行建模,這造成語音序列通常幾十倍長於文字序列。
▲ 圖一:Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表現
在這樣的背景下,香港中文大學(深圳)聯合是石科技提出了 Soundwave模型,透過解耦語音大模型的模態對齊訓練,針對表示空間差異和長度差異這兩個核心問題分別設計出針對性的解決方案和任務資料。僅用 10k 小時的資料,Soundwave 便展現出卓越的效能(參考圖一)。
論文連結
https://arxiv.org/pdf/2502.12900
Github連結: 
https://github.com/FreedomIntelligence/Soundwave
Huggingface連結: 
https://huggingface.co/FreedomIntelligence/Soundwave
技術團隊
香港中文大學(深圳)和是石科技
整體架構概覽
▲ 圖二:Soundwave 的訓練過程。其中灰色模組被凍結,橙色模組被訓練。
如圖二,Soundwave 的訓練分為三個階段:語音與文字對齊、語音特徵壓縮、監督微調。
1. 第一階段:語音與文字對齊
  • 該階段主要解決語音和文字表示空間的差異,透過設計對齊介面卡(Alignment adapter)和使用 CTC 損失實現對齊。對齊介面卡包含線性層與單層 Transformer encoder 層,它將音訊序列轉換到大模型能理解的表示空間,確保音訊和文字能夠在表示空間中找到共同語言
2. 第二階段:語音特徵壓縮
  • 這一階段主要透過壓縮介面卡(Shrinking adapter),動態壓縮調整語音序列長度,使其與文字匹配,並透過注意力機制提取聲學資訊。該方法首先根據 CTC 預測的峰值來選擇語義特徵,然後利用這些特徵從原始序列中查詢並收集輔助資訊(如副語言資訊等)。最後,將這兩類特徵進行融合以實現序列長度的縮減。此過程可以參考圖三。
▲ 圖三:動態壓縮方法示例
3. 第三階段:監督微調
  • 在微調階段,模型僅調整 LoRA 引數,利用文字和語音指令資料來提升任務處理能力。模型透過三種不同的問答格式、十餘種不同的語音任務以及多樣化的指令格式進行學習,增強其指令遵循和語音理解能力。
除此之外,該團隊還設計了基於溫度的取樣方法,對資料進行標註與深度清洗,以及針對語音任務的 Chain-of-Thought 等多種策略提升學習效率。
2.1 實驗設定
在實驗中,Soundwave採用了 Whisper Large 作為音訊編碼器,基礎模型選擇了 Llama-3.1-8B-Instruct語音與文字對齊語音特徵壓縮兩個階段各自包含 6000 個訓練步驟,監督微調階段約為 4000 步。
2.2 實驗結果
從表一中可以發現,Soundwave 在多個音訊任務中表現卓越,尤其在語音翻譯(Speech Translation任務上,超越了 Qwen2-Audio,展現了強大的翻譯能力。
語音情緒識別(Speech Emotion Recognition任務中,它同樣展現出色的能力,精準識別語音中的情感。對於 Zero-shot 任務,如在訓練過程中未曾見過語言對翻譯,Soundwave 也表現強勁,能夠高效進行語言間轉換。
▲ 表一:在基礎任務上的效能表現,這些任務包括自動語音識別(ASR)、語音翻譯(ST)、語音情感識別(SER)、發聲分類(VSC)。其中*表示 zero-shot 任務。
▲ 表二:不同語音大模型在 AIR-Bench 上的表現
▲ 表三:不同語音大模型在 AIR-Bench Sound Foundation 任務中的表現
如表二,在AIR-Bench 測試中,Soundwave 的表現也令人矚目。在 Speech Foundation任務中,Soundwave 以平均得分 75.5 超越其他模型,顯示出其在語音理解上的領先優勢。
儘管只使用了約 244 小時的 Sound 任務資料,Soundwave 在 Sound Foundation任務中依然表現優異,僅次於使用 10k 小時資料的 Qwen2-Audio
此外,Soundwave 的單編碼器架構比雙編碼器模型在處理語音時表現更佳,展現了更高的效率。如表三,在 AIR-BenchSound Foundation任務中,Soundwave僅憑 244小時的 Sound 資料便躍居第二,僅次於Qwen2-Audio,充分證明了其卓越的聲音感知能力。
▲ 圖五:不同音訊特徵壓縮方法下,(a)語音、文字特徵相似度對比(b)訓練速度對比
該團隊從 Librispeech-clean 測試集中隨機抽取了 200 個樣本,並提取了文字和語音的特徵表示。經過平均池化後,將語音和文字的相似性進行比較。如圖五(a)所示,該團隊發現,帶有對齊介面卡的 Soundwave 表示顯著優於其他方法。
此外,該團隊還比較了在相同批次條件下的平均訓練速度。如圖五(b),在語音文字對齊階段,訓練速度幾乎是其他方法的三倍。無論是對齊效果還是訓練方法,對齊介面卡都表現出明顯的優勢。
▲ 表四:不同方法壓縮率與首字元響應速度比較
不僅如此,該團隊在 ASR 任務上對不同壓縮策略進行了對比,發現壓縮介面卡能夠在僅 2.5% 壓縮率的情況下保持穩定效能,同時顯著加快推理速度。
相比 Adapter(×3) Adapter(×4)Adapter×N)採用與Qwen2-Audio 相同的架構,但具有不同的壓縮率),該團隊的方法分別提升了約 15% 和 25% 的首 Token 延遲(TTFTTime to First Token),並且幾乎不增加計算開銷,證明其輕量且高效。
然而,在缺少輔助資訊的情況下,壓縮會導致效能下降,這表明輔助資訊在補充缺失特徵、確保大模型完整理解方面起到了關鍵作用。
▲ 圖六:QA問答示例
Soundwave 同時具備強大的問答(QA)功能,能精準理解語音輸入,並迅速生成合理答案。如圖六所示,使用者提出經濟市場相關問題,模型準確把握因果關係並作出恰當回應,展現出卓越的分析與推理能力。無論是財經、科技還是日常生活領域,Soundwave都能提供高效、精準的智慧問答支援。
總結
該團隊提出了Soundwave模型,其藉助高效的語音文字對齊解決方案,突破了傳統語音大模型對大規模標註資料的依賴。該團隊透過創新性的三階段訓練策略,分別解決了語音與文字的表示空間差距序列長度不一致性問題,使得模型能夠更高效地學習語音理解和對齊能力。
實驗結果表明,Soundwave 在一萬小時訓練資料的情況下,在多個語音任務上的表現超越了使用大規模資料訓練的 Qwen2-Audio ,並在多個 zero-shot 任務上展現了良好的泛化能力。
Soundwave 作為高效的語音大模型,在醫療可用於語音病歷轉錄和遠端會診記錄,在教育賦能課堂字幕、語言學習輔助,在智慧互動促進語音助手、智慧家居和客服系統最佳化。未來,Soundwave 將持續最佳化語音理解能力,推動語音 AI 在更多場景落地。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章