百度全新語音語言大模型釋出!即時通話延遲卷至1秒,還公開了技術細節

大家好,我是小瑤,今天是你們的 AI 前排吃瓜 + 技術解讀博主。
昨天人在百度科技園,參加了百度 AI DAY 活動,不僅吃到了「文小言」的一手大瓜,還非常榮幸的採訪到了語音技術大牛——百度語音首席架構師賈磊老師!
在現場時,我感覺腦子 CPU 都要乾燒了,給你們看一張現場 PPT——
技術大牛賈磊老師,現場硬核拆解語音大模型,更重要的是,拆的是這次文小言全新升級的語音語言大模型背後的核心技術。
這讓我的技術基因止不住的躁動起來了,瞬間有一種參加 ICASSP 語音學術頂會的錯覺。
先帶你們一手感受下文小言最新的即時語音通話——
從測試一開始,我就在無情的、瘋狂的打斷文小言的講話,我試圖讓整個對話變得支離破碎,但在這個情況下,文小言都能在我插嘴 1 秒左右反應過來,流暢轉變,聰明如人。不過,這要換成真人,被我這樣打斷,對方早就炸毛了。
要知道,市面上的語音通話產品,普遍 3~5 秒的反應延遲,文小言這反應速度 + 對話的順暢程度,真的爽到我了。
而且實測下來,我發現更新後的文小言不止即時打斷 + 反應速度非常牛逼,其在情感、方言、記憶、知識方面也都可圈可點。
但,今天這篇文章,我不準備寫產品評測,大家可以升級「文小言 APP」到最新版後自行感受。
因為,這次百度 AI DAY 上,賈磊老師公開並深入拆解了這個驚豔的語音大模型背後的技術實現,這對於推動業界的語音技術進步,有非常重要的參考意義。

延遲:語音對話模型的第一技術命題

語音對話這個賽道,與文字對話相比有根本性的不同。
在文字對話的場景,使用者對於等待回覆的容忍度比較高。但,你跟一個人說話的時候,如果對方總是先卡頓個 3、5 秒才說話,你肯定心裡不願意再說了。
還有人類看東西,往往一目十行,但聽東西,是一個字一個字的接收。
所以,看一家廠商的語音對話技術牛不牛,第一個要關注的指標,就是看對方多快吐出第一個字。
業界普遍能做到的水平是 3~5 秒,而能做到 1 秒左右的,一隻手就能數得過來,包括這次百度釋出的全新語音大模型。

百度的端到端語音語言建模方案

對於語音對話來說,最簡單的建模方案就是——
  1. ASR: 先把你的語音識別成文字。
  2. LLM: 把文字交給大語言模型去理解,生成回答的文字。
  3. TTS: 再把回答的文字轉換成語音播放出來。
這種工程化的模組級聯方案,不僅會導致資訊在傳遞中多級損耗,導致效果差,而且多環節積累起來的延遲、成本也會爆炸。市面上仍然有不少語音對話產品,走的是這種傳統的技術方案。所以你能感受到的就是對方“又慢又笨”。
百度這裡則是訓出了一個端到端的語音語言大模型,把原本獨立的語音識別、LLM 理解生成、語音合成給直接編碼到了一個模型裡——
這個端到端的語音語言大模型採用了 MoE 架構,是基於成熟的文心一言預訓練模型冷啟,採用自蒸餾、多模資料混合的方式 post-train 訓練出來的。
這裡非常關鍵的是,百度這裡竟然用了 Cross-Attention 這個我本以為已經被歷史遺忘的注意力機制。
透過它,巧妙的將大模型的 Encoder 與語音識別進行融合,然後將 Decoder 與語音合成進行融合,優雅的把文字和語音兩個模態,整合進了一個模型中。
這樣做的好處非常直接——從接收使用者語音到吐出第一個字,只需要一次模型推理,直接把第一個 token 的延遲給打了下來。
看到這個模型結構圖,我突然懂了為什麼這個模型叫“端到端語音語言大模型”了。
同時,從上圖可以看出,這裡 Cross Attention 的效率,極大的決定了延遲高低。

1 秒延遲黑科技:EALLQA 技術改進 Cross-Attention 建模

賈磊老師在現場提到,現有的 Attention 技術,比如 DeepSeek 中使用的MLA(Multi-Head Latent Attention),用在 Cross-Attention 的時候,容易出現不穩定的情況。
於是,百度探索出了一個成為 EALLQA(Efficient All Query Attention,高效全查詢注意力)的“黑科技”,也就是專門為 Cross-Attention 場景設計的全新 Attention 機制
這個 EALLQA,可以總結成以下幾點:
  1. 更合理的“位置編碼”:創新的採用了“隱式 RNN 的兩級位置編碼”,讓模型在處理語音這種時序資訊流時,對前後位置關係的理解更穩、更準了,解決了之前容易不穩定的問題。
  2. 訓練和推理“雙管齊下”的效率:EALLQA 在訓練時用的是 MHA(Multi-Head Attention,在 128 維度空間),這相對“節省資源”;而到了推理階段,它又巧妙地切換到 MQA(Multi-Query Attention,在 512 維度空間,並且這個關鍵的 K 和 V 值是各層共享的)。這波操作,既保證了訓練效果和效率,又極大降低了實際執行時的計算成本。
  3. KV Cache 瘦身:這是關鍵!大模型運算慢、成本高,很大一部分“鍋”要甩給 KV Cache(鍵值快取)。它就像是大模型處理資訊時需要臨時存放的“草稿”,資料量一大就特別佔地方、拖慢速度。而 EALLQA 這個技術,根據賈磊老師的介紹,能把 KV Cache 降低幾十倍。
  4. KV 計算量也銳減:不僅 Cache 小了,連計算量也少了。結合前面提到的語音識別與 LLM Encoder 的融合,KV 計算量也節省了 10 倍以上
EALLQA 加上 Encoder 的融合設計,直接把 Cross Attention 這個環節的計算量和快取需求給打了下來。這對於降低延遲,尤其是讓我們能在 1 秒左右聽到文小言回應的第一個字,起到了決定性的作用。
可以說,EALLQA 就是百度這次為了攻克語音對話低延遲難題,專門打磨出的核心技術突破。

MoE+ 流式逐字處理:最高 90% 降本,L20 顯示卡高達數百併發

透過 EALLQA 技術,解決了“慢”的問題。與此同時,百度這波還巧妙的透過“流式逐字處理 +MoE 架構”來解決了即時語音對話“成本高”和“併發低”的問題,相比行業平均水平,成本能降低 50% ,甚至達到驚人的 90%。
  先說一下「流式逐字處理」的機制。
我們平時聽別人說話,是不是一個字一個字聽進去
的?我們並不需要等對方說完一整段話,才開始理解和反應。百度這個語音大模型就模擬了這一點。它不是先生成一整句完整的文字,再去合成語音;而是一邊聽 + 思考,一邊一個字、一個詞地往外“說”
正因為是“一個字一個字”地聽和說,對於系統來說,同一時間處理一個使用者的計算壓力相對分散。這使得系統可以非常從容地同時服務大量使用者(也就是高併發)。
而且,百度這裡用了 MoE 架構,在處理語音時,可能每個使用者(每個 token)只需要啟用 5 億或 10 億引數的“專家小分隊”。在高併發下,這個模型就能被極大地共享,成本自然就攤薄了。
根據百度 AI DAY 上公佈的資訊,這個模型可以部署在 L20 這樣廉價的顯示卡上,並且在滿足低延遲要求的同時,實現超過數百的併發處理能力。
這波操作,直接把即時語音大模型的使用門檻和成本極大的打下來了,讓以前可能覺得“用不起”大模型的語音應用場景,一下子變得觸手可及。
要我說,對於推動語音通話技術的普及來說,這些技術點的公開,要比釋出新產品有更大的社會意義。

多達 17 種情感的超自然語音對話

光快、光便宜還不夠,如果聲音聽起來像個沒有感情的機器人,那再快也是沒人用的。
還記得前面我們說的那個「端到端語音語言大模型」和「流式逐字處理」嗎?它們不僅解決了延遲和成本問題,也恰恰是讓聲音更自然的關鍵。
前面提過,傳統的語音助手通常是“三段式”:先識別成文字 (ASR),再讓大模型思考文字 (LLM),最後把文字交給語音合成模組 (TTS) 念出來。這個過程中,TTS 模組往往只知道要念什麼字,但對這句話背後的情感、上下文語境可能一無所知,念出來的聲音自然就容易平淡、生硬。
但百度這次,是端到端的。
端到端 + 流式逐字之後,便可以:
  1. 大模型直接“指揮”發聲:大模型在思考生成回答內容的同時,就已經把“該用什麼語氣”、“哪裡該停頓”、“這句話應該帶有什麼情感”這些資訊一起考慮進去了。它不是簡單地輸出文字,而是直接輸出帶有豐富韻律和情感指令的“準語音訊號”。
  2. 基於資料訓練情感、韻律:透過在大規模的文字-語音資料上進行訓練,端到端的模型可以很自然的學會人說話的各種腔調和情感。它可以根據對話的上下文,即時生成帶有飽滿情感自然停頓語調韻律的語音。從上面的技術圖看,其設計了專門的機制(比如雙層 GPT-like Transformer 和 Prompt )來控制這些,據稱能覆蓋多達 17 種情感
更新後的文小言,給我的感覺就是,它不是在“念”答案,更像是在用帶有情緒和理解的語氣和你“聊”。這讓整個對話體驗變得親切、舒服了許多。

賈磊:不應該將技術創新捂在手裡

一個語音模型,能同時做到超低延遲 + 超高併發 + 超低成本 + 效果提升,是一個相當難的事情,足以反映百度這個工作的含金量。
但,我想用我在專訪時,被賈磊老師深深打動到的一個點,來結束本文。
我:
為何要把這個技術突破公開傳播出去?
賈磊老師:
科學可能有國界,但沒有公司邊界。大家就應該積極去分享,推動這個學科的進步。我們拿出來,告訴你語音領域有重大突破,它有重大進展,你想想做大模型的人是不是就更關注語音領域的研究?語音領域高速發展,手機就會更智慧,有利於整個行業和生態,你應該這樣想這個問題,不應該將技術創新捂在手裡,這不是做科研甚至技術進步的途徑。
我們百度也是一直秉承開放、自由的學術理念,我們做百度 AI Day 就是把核心技術分享出去,告訴大家我們是怎麼做的。就想要這個領域爆發出來,不單單百度語音人工智慧發展起來,我希望騰訊、阿里、頭條、華為都發展起來,整個行業都發展起來,大模型才能真正推動社會進步,做大模型的所有人才能夠有好的發展,好的收益,我是這樣一個理念,百度公司也跟我一樣的理念。


相關文章