
在人機互動日益普及的背景下,語音以其自然、便捷的優勢正成為主流互動方式。雖然已有多款語音模型支援流式音訊輸出,有效降低了體感延遲,但在生成首個音訊片段時仍存在較高的等待時間,成為制約即時部署的關鍵瓶頸。
針對這一挑戰,VITA 團隊最新推出了突破性成果—VITA-Audio。作為一款端到端的語音模型,VITA-Audio 能在第一次前向傳播中直接生成可解碼的 Audio Token Chunk,大幅提升響應速度。
在 7B 引數規模下,VITA-Audio-7B 從接收文字到輸出首個包含 8 個 Audio Token 的可解碼片段僅需 92 ms;若不計入 Audio Encoder 時間,延遲進一步縮短至 53 ms。整體推理速度相比同規模模型提升 3–5 倍,充分滿足即時互動對低延遲的嚴格要求。
同時,VITA-Audio 支援中英雙語,且訓練過程中僅使用開源資料,卻在同等引數量級中穩居效能第一梯隊。專案訓練和推理程式碼以及模型權重完全開源,為構建高效、低延遲的即時語音互動系統樹立了全新標杆。

論文地址:
https://arxiv.org/pdf/2505.03739
程式碼倉庫:
https://github.com/VITA-MLLM/VITA-Audio

如何高效生成Audio Token?
在端到端語音模型中,生成音訊往往要經歷以下流程:首先,語音 Token 隨著語言模型(LLM)前向傳播被逐步自迴歸地生成;隨後,多個已生成的語音 Token 會被收集並送入解碼器,最終合成為可播放的音訊。
由於每一步都依賴上一步的輸出,這種多次迴圈推理的方式在生成首個音訊片段前會消耗大量時間,且隨著模型規模的擴大,延遲問題愈發嚴重。

為深入理解這一瓶頸,VITA-Audio 團隊對模型最後一層解碼器的 Hidden States 進行了視覺化分析。結果表明,語音模型在預測某個音訊 Token 時,對應的文字 Token Hidden States 所承載的注意力權重顯著高於其他位置。

更進一步的實驗發現:
-
當遮蔽所有文字位置的 Hidden States 時,模型無法生成正常的音訊; -
但如果僅保留與當前音訊 Token 對應的那一位置的文字 Hidden States,模型依然能夠輸出準確、連貫的語音,且這些 Hidden States 已隱含了足夠的上下文資訊(例如,區分多音字“行”讀作“xíng”還是“háng”)。
這一發現表明,語音生成並不需要對整個文字—音訊序列的全域性語義空間進行復雜建模;相反,只需利用對應位置的文字 Hidden States,透過相對簡單的對映模組即可完成高質量的音訊 Token 預測。
基於此,VITA-Audio 提出了一種輕量級的多重跨模態標記預測(Multiple Cross-modal Token Prediction,MCTP)模組。該模組直接在單次前向傳播中預測多個音訊 Token,大幅減少自迴歸迴圈次數,不僅加速了整體推理流程,更顯著降低了流式場景下首個音訊片段的生成延遲。

方法概述
模型結構

VITA-Audio 的核心元件包括音訊編碼器、音訊解碼器、LLM、十個輕量級 MCTP 模組。其推理流程如下:
1. 文字與音訊特徵分別經編碼後輸入 LLM,LLM 在單次前向傳播中生成文字 Token 或音訊 Token。
2. 將 LLM 最後一層的隱藏態和輸出先輸入第一個 MCTP 模組,其輸出再依次傳遞給後續的 9 個 MCTP 模組;每個模組各自預測一個音訊 Token,累計得到 10 個 Token,並由音訊解碼器合成為音訊片段。
3. 在下一次前向傳播中,LLM 生成的 Token 會與 MCTP 模組生成的音訊 Token 一併作為 LLM 輸入,進行下一次前向傳播。
由於每個 MCTP 子模組的引數量遠小於 LLM,單次預測耗時僅需約 2.4 ms(約為 LLM 推理時間的 11%),顯著降低了首個音訊片段的生成延遲,並大幅提升整體推理速度。
訓練策略

為了解決同時從頭訓練10個 MCTP 模組帶來的不穩定性,VITA-Audio 採用瞭如下四階段漸進式訓練策略:
1. 第一階段-音訊–文字對齊:利用大規模語音預訓練任務,將音訊建模能力融入 LLM,使其 Hidden states 同時承載文字和音訊資訊。
2. 第二階段-單 MCTP 模組訓練:訓練初始 MCTP 模組,使其能夠基於 LLM 的輸出 Token 和 Hidden States 預測下一個標記。
3. 第三階段-多 MCTP 模組訓練:將首個 MCTP 模組的能力擴充套件到多個 MCTP 模組,每個模組根據前一個 MCTP 模組的輸出標記和 Hidden States 預測其對應位置的標記。
4. 第四階段-監督微調:以語音問答資料集為主進行監督微調,同時穿插 TTS、ASR 及純文字資料,確保模型在各類任務上的泛化能力與訓練收斂的平衡。
推理模式

VITA-Audio 提供四種推理正規化,以滿足不同應用場景對速度與質量的平衡需求:
VITA-Audio-Turbo:最高效的方式,每次前向傳播 LLM 生成一個標記,MCTP 模組生成 10 個標記,但因 MCTP 模組也參與文字預測,效能會略有下降,常用於 ASR 和 TTS 任務中。
VITA-Audio-Boost:LLM 專注生成文字 Token,MCTP 模組生成 Audio Token,並且第一次前向中就使用全部的 MCTP 模組,可以在第一次前向中就生成可以用於解碼的 Audio Token Chunk。
VITA-Audio-Balance:在前兩次前向中僅啟用部分 MCTP 模組,保以維持文字與音訊 Token 的合理配比(1:2),隨後逐步啟用部模組,透過動態調節文字/音訊 Token 輸出比例,實現生成速度與質量的最優平衡。
VITA-Audio-Vanilla:完全依賴 LLM 自迴歸生成所有 Token,不呼叫 MCTP 加速模組,推理速度最慢,但可獲得最高的音訊細節與一致性。

效能評估
模型能力
作為一款完全基於開源資料訓練的模型,VITA-Audio 在 TTS、ASR 及 Speech QA(涵蓋 Llama Question、Seed-TTS 與 WenetSpeech)等任務中表現卓越,在同等引數規模的開源模型中表現位列第一梯隊。

並且 S→T(語音輸入文字輸出)和 S→S(語音輸入語音輸出)之間的效能下降僅有 4 個點,表明 VITA-Audio 在文字和語音模態之間實現了高質量對齊。
推理加速
高效的文字–語音對映是 VITA-Audio 的核心優勢。在不同規模的模型中,VITA-Audio 均展現了顯著的推理加速效果:Turbo 模式下,從 0.5B 到 72B 引數規模均可實現約 5 倍的吞吐量提升;Speed 模式下,各尺寸模型亦獲得約 3 倍加速,為即時語音對話系統提供了理想效能。
且隨著模型規模的增大,加速效果愈加顯著—即便在 72B 引數級別,VITA-Audio 也能達到每秒約 50 個 Token 的生成速度,配合 12.5 Hz 音訊解碼器即可合成約 3 秒的音訊及對應文字,其效能完全能夠滿足高流暢度的人機互動需求。

延遲評估
在人機互動中,響應延遲是一項關鍵效能指標。
整體實驗表明,VITA-Audio 能將首個 Audio Token Chunk 的生成時間從 236 ms 縮短至 53 ms,顯著提升了系統的即時互動能力。

不同推理模式下的實際表現
VITA-Audio-7B 在 Boost 模式下生成速度約為 Vanilla 的 3 倍。

VITA-Audio-7B 在 Turbo 模式下生成速度約為 Vanilla 的 5 倍。


總結
本文介紹了 VITA-Audio,這是一個輕量級框架,其核心在於引入獨立高效的多重跨模態令牌預測(MCTP)模組,能夠直接從文字 Token 與 LLM Hidden States 中生成音訊響應,無需依賴 LLM 的全域性語義建模,僅透過簡單對映即可完成文字隱藏態到音訊令牌的轉換。
實驗表明,VITA-Audio 在僅僅使用開源資料的情況下,在 ASR、TTS 和 SQA 任務的多個基準測試中均躋身同參數量級開源模型的第一梯隊;同時,其推理速度與響應延遲也取得了顯著突破。由此,VITA-Audio 為即時語音到語音生成樹立了全新的正規化。
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
