語音界Deepseek！百度最新跨模態端到端語音互動，成本最高降90％

魚羊發自凹非寺量子位 | 公眾號 QbitAI

沒想到，文小言接入推理模型的大更新背後，百度還藏了一手“質變”級技術大招？？？

Talk is cheap，直接來看Demo：

士別三日，文小言不僅能講重慶話了，還是成了哄娃的一把好手，被花式打斷照樣應對如流：

實測下來，Demo不虛。這個全新語音對話功能，確實更有人味兒了，還是能緊貼當下實事的那種——

只是讓Ta推薦週末放鬆去處，Ta自己就能主動結合當前4、5月份的現即時間，給出更加合理的建議。

劃重點，這是免費的。現在你也一樣可以開啟手機裡的文小言，直接體驗這一全新升級的即時語音對話功能。

但！是！

如果單說語音體驗，那還真不是這個“大招”的重點。關鍵是，這回百度還透露了更多技術細節。

我們仔細一看，還真是有意思了。

首先，上來就是一個行業首創：以上即時語音對話效果，由百度全新推出的端到端語音語言大模型實現，這是行業首個基於Cross-Attention的跨模態語音語言大模型。

有何不同？站在使用者體驗的角度來說，就是語音合成延遲更低，對話更真實有情感。

而更重要的一點是，這麼個新模上線，文小言在語音問答場景中的呼叫成本，最高能降低90%！直接打掉了工業級落地的門檻。

~~（再也不怕模型廠流量大到掛我服務.jpg）~~

我們注意到，百度語音首席架構師賈磊，其實用到了“質變”這個詞：

百度端到端語音語言大模型是有質變的，不是單純把文字大模型用到語音領域。

語音場景有其獨特之處。此前，大家沒有充分挖掘這個應用場景的不同，還是按照把文字大模型用到語音場景的路線，把速度加快一下，工程最佳化一下。

我們的創新架構，讓大模型在語音場景中的應用實現了極低成本，更有利於大模型普及。

就是說，這一次語音技術的更新，不僅僅是工程上的技巧，百度正在透過技術創新，打通大模型落地語音場景的工業級應用新正規化。

行業首個基於Cross-Attention的端到端語音語言模型

話說到這了，咱們就來一起仔細扒一扒背後技術方案，看看究竟是怎麼一回事。

先給大家劃個重點：

熟悉大模型的小夥伴都知道，KV cache能夠加速自迴歸推理，但其在儲存和訪問上的開銷，也會隨著序列長度和模型規模增大而爆炸式增長。

因此在保證模型效能的前提下，降低KV cache，對於大模型應用來說，是提升推理效率、降低成本的一大關鍵。

百度此次推出的基於Cross-Attention的端到端語音語言模型，重點就在於此。

具體來說，百度做了以下創新：

業內首創的基於Cross-Attention的跨模態語音語言大模型
Encoder和語音識別過程融合，降低KV計算
Decoder和語音合成模型融合
創新提出基於Cross-Attention的高效全查詢注意力技術（EALLQA），降低KV cache

我們一項一項展開來看。

基於Cross-Attention的跨模態語音語言大模型

整體上，這個端到端語音語言大模型是基於Self-Attention的文心預訓練大模型，採用自蒸餾的方式進行後訓練得到。訓練資料為文字和語音合成資料的混合。整個模型採用MoE結構。

關鍵點在於，在端到端語音識別中，聲學模型也是語言模型，因此在整合語音識別和大語言模型的過程中，能夠透過將大語言模型中的Encoder和語音識別的過程融合共享，達到降低語音互動硬延遲的目的。

而在語音領域，Cross-Attention天然具有跨模態優勢：Decoder會顯式地將Encoder輸出納入注意力計算，使得Decoder在每一個解碼步驟都能動態訪問最相關的輸入向量，從而充分地對齊和利用跨模態資訊。

基於Cross-Attention的高效全查詢注意力技術（EALLQA）

不過，Cross-Attention的引入帶來了另一個問題：MLA的位置編碼技術，在Cross-Attention中容易出現不穩定的現象。

為此，百度語音團隊提出了高效全查詢注意力技術（EALLQA）：

採用創新的隱式RNN兩級位置編碼，訓練時是在128空間上的MHA，推理時是在模型各層共享的512空間上的MQA（AllQA）。既充分利用了有限的訓練資源，也極大地降低了推理成本。

從具體效果上來說，EALLQA技術能使KV cache降至原來的幾十分之一，並將Cross-Attention的最近上一個問題的KV計算降至原來的十分之一，極大降低了語音互動時使用者的等待時間和模型推理成本。

降低成本的另一個關鍵，則是Encoder和語音識別系統的融合：對Query理解的模型較小，能極大減少KV計算。

流式逐字的LLM驅動的多情感語音合成

訓練、推理成本的降低之外，端到端語音語言大模型還透過語音模型和語言模型的融合，實現了文體恰當、情感契合、自然流暢的合成音訊的生成。

一方面，研發團隊透過大規模文字-語音資料自監督預訓練，構建語義+韻律的離散化特徵空間，透過雙層GPT-like Transformer，實現了韻律、音色雙Prompt控制機制。

另一方面，在此基礎之上，研發團隊推出了語音語言大模型與合成一體化流式逐字合成。

有別於傳統語音合成的整句輸出，流式逐字相當於一個字一個字地合成。在這個過程中，語言大模型能夠指導語音模型去生成情感、停頓，識別多音字等等，實現更為擬人、自然的語音合成效果。

需要注意的是，人耳接收資訊實際上是一個字一個字地接收，但對於AI而言，如果1個token接1個token的輸出，就需要解決併發的問題，以使MoE架構最大程度發揮作用。

流式逐字合成要解決的核心問題，就是在適配人聽力的基礎上，實現高併發。

透過引入流式逐字合成，百度端到端語音語言大模型有效提升了語音互動的響應速度，同時降低了語音互動領域使用大模型成本。與大模型融合的TTS文體風格情緒控制，還可以根據文字輸出自適配的情況，情感覆蓋達到17種。

簡單總結一下，百度的端到端語音語言大模型，一方面是重點解決了大模型應用於語音互動場景成本高、速度慢的問題。

另一方面，大語言模型帶來的語義理解等能力，也解決了傳統語音互動中，同音字識別、打斷、真實情感等痛點。

賈磊透露，目前，整個端到端語音語言大模型在L20卡上即可部署，在滿足語音互動硬延遲要求的情況下，雙L20卡併發可以做到數百以上。

極低成本是關鍵

說了這麼多，最主要的關鍵詞其實就是：低成本。

在與賈磊的進一步交流中，他向我們強調了降低成本的重要性：

極低成本就意味著大規模工業化變得非常容易。

2025年，大模型的核心並不在於展示什麼新功能，而是能以多快速度真正應用到國計民生中去。

在不考慮計算資源的情況下，即時語音互動有其他路徑可以實現，但“我們今天是第一個做到跨模態端到端極低成本解決語音問題的”。

賈磊還表示，希望語音領域的這一突破創新能被行業更多地關注到。

我們想要把核心技術分享出去，告訴大家我們是怎麼做的，以此推動整個領域的爆發。

事實上，不僅是百度，在包含語音的大模型能力對外輸出上，國內外廠商都將價格視作突破口。

OpenAI就專門從價效比出發，推出了GPT-4o mini audio，希望以更低廉的價格打入語音應用市場。

2025年，基礎模型方面，模型廠商在推理模型上爭相競逐，而其帶來的最直接的影響之一，是人們對於大模型應用加速爆發預期的持續升溫。在這個過程中，我們可以看到，站在模型廠商的角度，更多的模型在被開源，更多的服務在免費開放，使用者認知、關注的爭奪之中，成本本身正在變得更加敏感。

更不用提成本即是大規模應用的關鍵：不僅是在模型廠商們的APP上，還要進一步走進手機、汽車……

正如DeepSeek在基礎模型領域攪動池水，現在，百度也在語音領域邁出關鍵一步。

成本，正在成為當前階段模型廠商獲得主動權的重要突破口。

One More Thing

從文小言的語音互動架構圖中還可以看到，它像是個語音版百度搜索。

正如文章開篇我們體驗到的，文小言能結合當前的季節對使用者問題給出更合理的回答。實際上，在語音功能中，文小言已經支援多垂類助手能力，包括天氣、日曆查詢、單位換算、股價股票等資訊查詢內容，共計38個垂類。

還支援DeepQA RAG問答，包含百度查詢等時效性問答內容，能結合檢索結果，做到更精準的指令跟隨；支援DeepQA非RAG問答，包含常識問答等非時效性問答內容。

“有問題，問小言”的這個“問”字，確實是越來越接近人類原本的互動習慣了。

這實際也是產業趨勢的一種對映——

之前都是大模型技術探索，需要不斷適配才能落地產品、形成應用，最後被使用者感知。

現在這是大模型技術和產品應用，幾乎在同時對齊，技術推進的時候就瞄準了應用場景，應用場景也能催生更適合的技術，不是錘子找釘子，而是錘子釘子同時對齊。

大模型依然是AI世界的核心，但天下卻正在變成應用為王的天下。

百度，或者說中國AI玩家，開始找到自己的節奏了。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見

dignews.cc

語音界Deepseek！百度最新跨模態端到端語音互動，成本最高降90％

魚羊發自凹非寺量子位 | 公眾號 QbitAI

行業首個基於Cross-Attention的端到端語音語言模型

基於Cross-Attention的跨模態語音語言大模型

基於Cross-Attention的高效全查詢注意力技術（EALLQA）

流式逐字的LLM驅動的多情感語音合成

極低成本是關鍵

One More Thing

相關文章

百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90％，1秒極速響應

Allin大模型！智慧座艙語音互動決勝2025

OpenAI語音智慧體誕生，懟臉實拍語氣狂到飛起！API降到每分鐘0.3美分

幾十個測試後，發現海螺語音與ElevenLabs掰手腕的能力不是蓋的

透過文字生成個性化語音會定製在你的“心趴”上嗎？

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造

端側GPT-4o來了！面壁釋出全新端側模型，全模態、端到端，支援即時流式音視訊通話！

AI湧現人類情感！希臘「樂之神」Orpheus開源，單卡可跑語音流式推理

AI說書媲美真人！豆包語音大模型升級長上下文理解

跨越模態邊界，探索原生多模態大語言模型

魚羊 發自 凹非寺量子位 | 公眾號 QbitAI

行業首個基於Cross-Attention的端到端語音語言模型

基於Cross-Attention的跨模態語音語言大模型

基於Cross-Attention的高效全查詢注意力技術（EALLQA）

流式逐字的LLM驅動的多情感語音合成

極低成本是關鍵

One More Thing

相關文章

魚羊發自凹非寺量子位 | 公眾號 QbitAI