百度端到端語音語言大模型破局出圈,對話超逼真、成本最高降90%,1秒極速響應

懂方言、能帶情感對話的文小言來了,可免費體驗。
作者 |  程茜
編輯 |  漠影

語音互動又被玩出新花樣?!

智東西4月2日報道,本週一,百度釋出業界首個基於全新互相關注意力(Cross-Attention)的端到端語音語言大模型,已首發上線文小言,可免費體驗。

用幾個關鍵詞概括新升級的文小言就是:語音互動超逼真、超低時延、超低成本

超逼真指的是,搭載語音語言大模型的文小言,既能聽得懂重慶、廣西、河南、廣東、山東等特色方言,還能實現情感飽滿對話;超低時延是其對話中可將使用者等待時長從行業常見的3-5秒降低至1秒左右,幾乎與真人對話無異;超低成本指在電話語音訊道的語音問答場景中,呼叫成本較行業均值下降約50%-90%。

百度語音首席架構師賈磊透露,該模型可以部署到L20卡上,在滿足語音互動延遲要求的情況下,雙L20卡的併發可以做到幾百以上。目前,語音語言大模型的訓練流程便捷,基本上基於文心大模型幾百片卡最佳化一週就可以實現,且本身的最佳化工作也並不複雜。

相比於大模型在語音互動場景的應用,這一語音語言大模型的獨特之處是什麼?又是如何做到最高降低90%的呼叫成本?其背後的創新點該如何解讀?智東西與百度語音首席架構師賈磊進行了深入交流,試圖找到這些問題的答案。

01.
真人對話體驗
升級版文小言語音互動更絲滑

大模型在語音互動場景的發展,正朝著更自然、低延遲、高擬真的語音互動體驗演進。而這一更為擬人化的互動體驗,我們在新升級的文小言上窺到了雛形,搭載了端到端語音語言大模型的文小言,已經化身情感陪伴、全能助手。

首先,文小言已經集成了包含天氣查詢、日曆查詢、單位換算、股票股價等資訊查詢的38個垂類助手,可以看出這些特殊場景下,語音互動的效率要遠高於文字互動。
其次,文小言對於時效性和非時效性問題均能應對,百科查詢、時政知識類時效性問答內容,文小言可以進行即時檢索,並做到精準的指令跟隨,降低幻覺;常識問答等非時效性問題也不在話下。
最後,也是語音互動與文字最大的區別所在,文小言可以與使用者進行情感自然充沛的交流,並能做到快速響應反饋,實現逼真擬人的互動效果。
話不多說,來看看文小言的實際效果。
語音識別的一大難點莫過於方言識別。方言的發音特點豐富多樣,同一方言在不同地區可能存在發音差異,甚至同一個字在不同語境下發音也有所不同。這使得語音識別系統難以準確捕捉和解析所有的發音變體,增加了識別的難度。當下的文小言,已經可以應對重慶、廣西、河南、廣東、山東各地特色方言,其不僅聽得懂,還能使用對應的方言進行回覆。
語音交流還有一大特點就是需要多輪互動,例如下面的例子中,文小言既從成年、幼年不同維度給出了分辨虎皮鸚鵡的方法,還在使用者打斷提出新問題時,及時給予正確的反饋。
即使回覆中包含分辨虎皮鸚鵡性別、需要從某一固定特徵辨別等諸多要素,文小言也給出了簡明扼要的答案,並且在最後還提醒使用者可以邊觀察邊記錄。
此外,人機互動往往伴隨著中途打斷的情況,如使用者獲得了自己想要的核心資訊或者對其目前輸出的內容不滿意等等,當用戶打斷語音播放進行輸入時,語音識別系統可能會因為環境噪音、使用者發音不清晰或與之前的語音內容混淆等原因,出現誤識別的情況。
在面對小朋友多次打斷的情況下,文小言可以準確識別出其“換一個故事”的需求,並且當小朋友說出“媽媽已經講過”時,並不是機械選擇更換故事,而是適時給出有情感的回覆,營造出自然對話的氛圍。

文小言這一情感飽滿的互動形式,也使得其在知識問答等助手場景下,向著陪伴場景下的應用外延。當用戶提到“我的心情有點不好”,文小言的語音帶有擔心等,並引導使用者說出自己心情不好的原因,進一步進行開導。

02.
全新互相關注意力
打造極低訓推成本優勢

不同於語言模型,語音語言大模型的核心差異點就是可以產生情感。

賈磊談道,文字大模型只產生文字,而語音語言大模型可以有情感,其關鍵就是語音語言大模型架構圖中的兩個特殊環節,TN韻律和人設、風格情感控制,這是為語音合成而準備,可以讓大模型在生成答案的同時擁有適配內容的情感,這也是百度此次端到端語音語音大模型的關鍵創新點所在。

具體來看,其關鍵創新點有4個。

首先,這是百度釋出的業界首個基於Cross-Attention跨模態的語音語言大模型;其二是該模型將Encoder和語音識別結合,使得KV計算節省到1/10;第三是Encoder和語音合成結合,輸出內容可進行情感控制;最後是高效的全查詢注意力EALLQA,使得KV cache降低到幾十分之一。

在此基礎上,該模型實現了識別文字一體化、文字合成一體化,這些相互耦合的技術在系統性端到端打通之上,使得模型在快速問答、快速理解的基礎上,能實現自然、逼真、情感豐富的互動體驗。

賈磊解釋說,聲學模型也是語音模型,只是通常大語言模型都是文字連線。因此在整合語音識別和大語言模型的過程中,研究人員將大語言模型中的Encoder和語音識別的過程融合共享,達到降低語音互動硬延遲的目的,其創新性引入跨模態建模,從Self-Attention切換到Cross-Attention,完成了語音識別和大語言模型的融合。

百度提出用Cross-Attention來解決語音、語言跨模態的難題。這一過程中,由於現存Attention技術在Cross-Attention的語音語言建模中存在速度方面的侷限性,百度研發了適合Cross-Attention的EALLQA技術,採用隱式RNN兩級位置編碼,訓練時在128空間上的MHA,推理在模型各層共享的512空間上的MQA,以達到充分利用有限訓練資源,降低推理成本的目的

模型基礎訓練中,百度基於Self-Attention的成熟的文心語言的預訓練模型,採用自蒸餾方式進行post-train來訓練Cross-Attention端到端語音語言大模型。

事實上,在語音模型中,KV cache和KV計算的壓力遠大於文字模型。賈磊解釋說,語音識別相對於文字大模型的本質差異就是,句首第一個token決定了語音識別的延遲。對於文字大模型,其可以在使用者輸入一段文字後等待2~3秒鐘給出答案,而語音語言大模型中,使用者對於回覆延遲的可容忍度更低,他們希望在0.5~1秒內聽到答案。

在此基礎上,端到端語音語言大模型實現了低成本訓練、低成本高速推理。除此以外,語音語言大模型還需要快速響應、有情感的回應,這就是其另一項關鍵技術發力的場景——流式逐字的LLM驅動的多情感語音合成。賈磊談道,多輪有情感地持續溝通才能讓人有慾望繼續交流。

基於流式逐字的方式,其語音合成是看到一個字蹦一個字,大模型可以幫助語音合成輸出其需要的文字歸一化輸出、韻律停頓輸出、情感輸出,使得語音合成的過程像人說話時一樣流動起來,其根據文字輸出自適配的情感覆蓋可達17種。

此外,語音識別中還有一大痛點是,其無法判斷使用者說話的起點和終點,而大模型加持可以使其基於語義分析使用者說的話是否已經結束,語義不完整需繼續等待。

賈磊進一步解釋道,語音場景被啟用需要極地互動成本、極快交付速度、聰明富有情感的人性化的問答。百度將語音識別和大模型一體化,解決了預存預取、猶豫、內容理解和快速問答的問題,將文字合成一體化與大模型融合,輸出語音和中所需的韻律情感,解決了合成中的上下文理解和情感控制問題。這就使得語音場景的應用潛力大幅提升。

03.
直擊語音互動難點
百度端到端語音語言大模型放大招

大模型不斷最佳化在語音的穩健性、自然度和說話人相似度方面顯著提升,但此前的技術路徑仍有許多痛點,這也是百度聚焦於端到端語音語言大模型的原因。

相比於人和人之間的交流,大語言模型響應速度慢,使用者需要等待一段時間才能得到回覆。此外,語音交流往往伴隨著多輪對話互動,而模型完成口語化多輪互動的難度極大,且相比於文字,使用者使用語音互動的場景更多,其互動量激增會導致大模型應用成本上升,大規模應用普及的難度也會隨之增高。

而在傳統語音互動路線上,又會受限於上下文記憶、噪音場合、猶豫發問和打斷之間的準確響應。

因此這成為語音互動領域的一個核心矛盾點,語音互動的便捷性決定了其有大規模應用的潛力,而這些痛點又正在阻礙其普及。賈磊認為,語音和文字兩個跨模態之間相互關聯的化學反應,就是未來大模型在特定領域找到突破口的關鍵

語音語言模型的出現是質變,其創新合成技術使得模型不需要看到一句話的整個文字,而是看到一個字的文字就可以合成一個字,在此基礎上,百度挖掘到了獨特的應用場景。他舉了一個例子,如詢問天氣時,使用者獲得了天氣的溫度區間就可以快速打斷問下一個問題,其好處就是大幅降低了模型的使用成本,而文字模型想要實現如此高效應用就需要強大的硬體,但語音語言模型可以使用低成本的硬體就能實現高效併發。

與此同時,從整個語音互動領域來看,大模型語音識別部分的準確度已經大幅提升,賈磊認為更多在於速度、成本、回答準確度的一種比拼,當下成本降低,就是大規模使用跨模態語音互動的關鍵

賈磊說:“成本降低是技術進步的必然方式。” 百度語音語言大模型的極低成本也就意味著大規模工業化的可能,AI落地應用是2025大模型產業發展的核心,而該模型就是解決語音問題的關鍵。

百度在語音識別領域的積累由來已久。

2018年,百度語音釋出的Deep Peak 2模型突破了沿用十幾年的傳統模型,大幅提升各場景下識別準確率。2019年初,百度語音技術團隊公佈線上語音領域全球首創的流式多級的截斷注意力模型SMLTA, 相對準確率提升15%。2021年,百度釋出基於歷史資訊抽象的流式截斷conformer建模技術——SMLTA2,解決了Transformer模型應用於線上語音識別任務時面臨的問題。

這些技術創新已經應用於汽車、消費電子、手機等諸多領域。此次,為了推動語音語言模型的規模化應用,目前,百度已經將其上線文小言並免費開放,並且計劃4月上線到開放平臺,後續將接入呼叫中心、音箱等業務線上

賈磊提到:“科學可能有國界,但沒有公司邊界。”後續,百度將端到端語音語言大模型開放出來,就是想推動大語言模型在語音領域的應用,有利於整個行業和生態的發展。

04.
結語:百度語音語言大模型出鞘
開啟低本高效新篇

便捷高效、自然友好、廣泛應用於多場景的語音互動在數字化時代地位至關重要,但從目前的實際效果來看,語音互動在識別的準確度等方面已經有了很大提升,現在業界的競爭焦點集中於其識別的速度、成本以及回答的準確度。

這樣的背景下,百度端到端語音語言大模型的釋出進一步突破了成本,且提出了全新技術路徑,將語音互動的行業競爭推上了新的高度。與此同時,百度將其上線到開放平臺,將加速大模型在語音互動場景的應用與普及。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章