百度全新語音語言大模型釋出！即時通話延遲卷至1秒，還公開了技術細節

大家好，我是小瑤，今天是你們的 AI 前排吃瓜 + 技術解讀博主。

昨天人在百度科技園，參加了百度 AI DAY 活動，不僅吃到了「文小言」的一手大瓜，還非常榮幸的採訪到了語音技術大牛——百度語音首席架構師賈磊老師！

在現場時，我感覺腦子 CPU 都要乾燒了，給你們看一張現場 PPT——

技術大牛賈磊老師，現場硬核拆解語音大模型，更重要的是，拆的是這次文小言全新升級的語音語言大模型背後的核心技術。

這讓我的技術基因止不住的躁動起來了，瞬間有一種參加 ICASSP 語音學術頂會的錯覺。

先帶你們一手感受下文小言最新的即時語音通話——

從測試一開始，我就在無情的、瘋狂的打斷文小言的講話，我試圖讓整個對話變得支離破碎，但在這個情況下，文小言都能在我插嘴 1 秒左右反應過來，流暢轉變，聰明如人。不過，這要換成真人，被我這樣打斷，對方早就炸毛了。

要知道，市面上的語音通話產品，普遍 3~5 秒的反應延遲，文小言這反應速度 + 對話的順暢程度，真的爽到我了。

而且實測下來，我發現更新後的文小言不止即時打斷 + 反應速度非常牛逼，其在情感、方言、記憶、知識方面也都可圈可點。

但，今天這篇文章，我不準備寫產品評測，大家可以升級「文小言 APP」到最新版後自行感受。

因為，這次百度 AI DAY 上，賈磊老師公開並深入拆解了這個驚豔的語音大模型背後的技術實現，這對於推動業界的語音技術進步，有非常重要的參考意義。

延遲：語音對話模型的第一技術命題

語音對話這個賽道，與文字對話相比有根本性的不同。

在文字對話的場景，使用者對於等待回覆的容忍度比較高。但，你跟一個人說話的時候，如果對方總是先卡頓個 3、5 秒才說話，你肯定心裡不願意再說了。

還有人類看東西，往往一目十行，但聽東西，是一個字一個字的接收。

所以，看一家廠商的語音對話技術牛不牛，第一個要關注的指標，就是看對方多快吐出第一個字。

業界普遍能做到的水平是 3~5 秒，而能做到 1 秒左右的，一隻手就能數得過來，包括這次百度釋出的全新語音大模型。

百度的端到端語音語言建模方案

對於語音對話來說，最簡單的建模方案就是——

ASR： 先把你的語音識別成文字。
LLM： 把文字交給大語言模型去理解，生成回答的文字。
TTS： 再把回答的文字轉換成語音播放出來。

這種工程化的模組級聯方案，不僅會導致資訊在傳遞中多級損耗，導致效果差，而且多環節積累起來的延遲、成本也會爆炸。市面上仍然有不少語音對話產品，走的是這種傳統的技術方案。所以你能感受到的就是對方“又慢又笨”。

百度這裡則是訓出了一個端到端的語音語言大模型，把原本獨立的語音識別、LLM 理解生成、語音合成給直接編碼到了一個模型裡——

這個端到端的語音語言大模型採用了 MoE 架構，是基於成熟的文心一言預訓練模型冷啟，採用自蒸餾、多模資料混合的方式 post-train 訓練出來的。

這裡非常關鍵的是，百度這裡竟然用了 Cross-Attention 這個我本以為已經被歷史遺忘的注意力機制。

透過它，巧妙的將大模型的 Encoder 與語音識別進行融合，然後將 Decoder 與語音合成進行融合，優雅的把文字和語音兩個模態，整合進了一個模型中。

這樣做的好處非常直接——從接收使用者語音到吐出第一個字，只需要一次模型推理，直接把第一個 token 的延遲給打了下來。

看到這個模型結構圖，我突然懂了為什麼這個模型叫“端到端語音語言大模型”了。

同時，從上圖可以看出，這裡 Cross Attention 的效率，極大的決定了延遲高低。

1 秒延遲黑科技：EALLQA 技術改進 Cross-Attention 建模

賈磊老師在現場提到，現有的 Attention 技術，比如 DeepSeek 中使用的MLA（Multi-Head Latent Attention），用在 Cross-Attention 的時候，容易出現不穩定的情況。

於是，百度探索出了一個成為 EALLQA（Efficient All Query Attention，高效全查詢注意力）的“黑科技”，也就是專門為 Cross-Attention 場景設計的全新 Attention 機制。

這個 EALLQA，可以總結成以下幾點：

更合理的“位置編碼”：創新的採用了“隱式 RNN 的兩級位置編碼”，讓模型在處理語音這種時序資訊流時，對前後位置關係的理解更穩、更準了，解決了之前容易不穩定的問題。
訓練和推理“雙管齊下”的效率：EALLQA 在訓練時用的是 MHA（Multi-Head Attention，在 128 維度空間），這相對“節省資源”；而到了推理階段，它又巧妙地切換到 MQA（Multi-Query Attention，在 512 維度空間，並且這個關鍵的 K 和 V 值是各層共享的）。這波操作，既保證了訓練效果和效率，又極大降低了實際執行時的計算成本。
KV Cache 瘦身：這是關鍵！大模型運算慢、成本高，很大一部分“鍋”要甩給 KV Cache（鍵值快取）。它就像是大模型處理資訊時需要臨時存放的“草稿”，資料量一大就特別佔地方、拖慢速度。而 EALLQA 這個技術，根據賈磊老師的介紹，能把 KV Cache 降低幾十倍。
KV 計算量也銳減：不僅 Cache 小了，連計算量也少了。結合前面提到的語音識別與 LLM Encoder 的融合，KV 計算量也節省了 10 倍以上。

EALLQA 加上 Encoder 的融合設計，直接把 Cross Attention 這個環節的計算量和快取需求給打了下來。這對於降低延遲，尤其是讓我們能在 1 秒左右聽到文小言回應的第一個字，起到了決定性的作用。

可以說，EALLQA 就是百度這次為了攻克語音對話低延遲難題，專門打磨出的核心技術突破。

MoE+ 流式逐字處理：最高 90% 降本，L20 顯示卡高達數百併發

透過 EALLQA 技術，解決了“慢”的問題。與此同時，百度這波還巧妙的透過“流式逐字處理 +MoE 架構”來解決了即時語音對話“成本高”和“併發低”的問題，相比行業平均水平，成本能降低 50% ，甚至達到驚人的 90%。

先說一下「流式逐字處理」的機制。

我們平時聽別人說話，是不是一個字一個字聽進去

的？我們並不需要等對方說完一整段話，才開始理解和反應。百度這個語音大模型就模擬了這一點。它不是先生成一整句完整的文字，再去合成語音；而是一邊聽 + 思考，一邊一個字、一個詞地往外“說”。

正因為是“一個字一個字”地聽和說，對於系統來說，同一時間處理一個使用者的計算壓力相對分散。這使得系統可以非常從容地同時服務大量使用者（也就是高併發）。

而且，百度這裡用了 MoE 架構，在處理語音時，可能每個使用者（每個 token）只需要啟用 5 億或 10 億引數的“專家小分隊”。在高併發下，這個模型就能被極大地共享，成本自然就攤薄了。

根據百度 AI DAY 上公佈的資訊，這個模型可以部署在 L20 這樣廉價的顯示卡上，並且在滿足低延遲要求的同時，實現超過數百的併發處理能力。

這波操作，直接把即時語音大模型的使用門檻和成本極大的打下來了，讓以前可能覺得“用不起”大模型的語音應用場景，一下子變得觸手可及。

要我說，對於推動語音通話技術的普及來說，這些技術點的公開，要比釋出新產品有更大的社會意義。

多達 17 種情感的超自然語音對話

光快、光便宜還不夠，如果聲音聽起來像個沒有感情的機器人，那再快也是沒人用的。

還記得前面我們說的那個「端到端語音語言大模型」和「流式逐字處理」嗎？它們不僅解決了延遲和成本問題，也恰恰是讓聲音更自然的關鍵。

前面提過，傳統的語音助手通常是“三段式”：先識別成文字 (ASR)，再讓大模型思考文字 (LLM)，最後把文字交給語音合成模組 (TTS) 念出來。這個過程中，TTS 模組往往只知道要念什麼字，但對這句話背後的情感、上下文語境可能一無所知，念出來的聲音自然就容易平淡、生硬。

但百度這次，是端到端的。

端到端 + 流式逐字之後，便可以：

大模型直接“指揮”發聲：大模型在思考生成回答內容的同時，就已經把“該用什麼語氣”、“哪裡該停頓”、“這句話應該帶有什麼情感”這些資訊一起考慮進去了。它不是簡單地輸出文字，而是直接輸出帶有豐富韻律和情感指令的“準語音訊號”。
基於資料訓練情感、韻律：透過在大規模的文字-語音資料上進行訓練，端到端的模型可以很自然的學會人說話的各種腔調和情感。它可以根據對話的上下文，即時生成帶有飽滿情感、自然停頓和語調韻律的語音。從上面的技術圖看，其設計了專門的機制（比如雙層 GPT-like Transformer 和 Prompt ）來控制這些，據稱能覆蓋多達 17 種情感。

更新後的文小言，給我的感覺就是，它不是在“念”答案，更像是在用帶有情緒和理解的語氣和你“聊”。這讓整個對話體驗變得親切、舒服了許多。

賈磊：不應該將技術創新捂在手裡

一個語音模型，能同時做到超低延遲 + 超高併發 + 超低成本 + 效果提升，是一個相當難的事情，足以反映百度這個工作的含金量。

但，我想用我在專訪時，被賈磊老師深深打動到的一個點，來結束本文。

我：

為何要把這個技術突破公開傳播出去？

賈磊老師：

科學可能有國界，但沒有公司邊界。大家就應該積極去分享，推動這個學科的進步。我們拿出來，告訴你語音領域有重大突破，它有重大進展，你想想做大模型的人是不是就更關注語音領域的研究？語音領域高速發展，手機就會更智慧，有利於整個行業和生態，你應該這樣想這個問題，不應該將技術創新捂在手裡，這不是做科研甚至技術進步的途徑。

我們百度也是一直秉承開放、自由的學術理念，我們做百度 AI Day 就是把核心技術分享出去，告訴大家我們是怎麼做的。就想要這個領域爆發出來，不單單百度語音人工智慧發展起來，我希望騰訊、阿里、頭條、華為都發展起來，整個行業都發展起來，大模型才能真正推動社會進步，做大模型的所有人才能夠有好的發展，好的收益，我是這樣一個理念，百度公司也跟我一樣的理念。