Allin大模型!智慧座艙語音互動決勝2025

大模型加速上車,AI智慧座艙競爭更顯白熱化。
誠然,在語言大模型為核心的多模態能力加持下,智慧語音助理能夠理解複雜的語言指令,實現知識問答、文字生成等,以及根據上下文進行邏輯推理,提供更智慧、準確的回答,其水平成為了各OEM座艙差異化競爭的關鍵要素。
2024年開始,車載語音助手的核心技術路徑,已經慢慢轉成大模型了;相對傳統技術,大模型的核心優勢之一就是理解能力、上下文關聯的能力特別強。雲知聲聯合創始人、副總裁李霄寒表示。
很明顯,座艙語音作為座艙娛樂和互動功能的重要入口,與大模型有著極高的契合度。尤其是自2022年底以ChatGPT為代表的大語言模型釋出,國內外諸多玩家也在積極探索以大模型為基礎的智慧體(Agent)。
其中,雲知聲在2023年5月就釋出了自研的山海大模型,交出了在AGI領域的第一張答卷。
彼時,其山海大模型的語言生成、語言理解、知識問答、邏輯推理、程式碼能力、數學能力、安全合規能力七項通用能力,及外掛擴充套件、領域增強、企業定製三項行業落地能力已經處於業界前列。
在此基礎上,雲知聲透過快速整合具體業務場景的相關知識與規範,已經打造了醫療病例生成Agent、交通客服Agent、智慧座艙Agent等典型的行業Agent應用。
具體到智慧座艙領域,雲知聲依託山海大模型重構了語音識別、語義理解、語音合成的全鏈路語音方案。基於大模型的理解與生成能力,其方案深度賦能用車、出遊、主動關懷、健康、通用聊天等多個細分場景。
而自去年5月中旬,OpenAI推出GPT-4o,憑藉突破性的智慧互動能力,掀起了新一輪的多模態大模型新浪潮。與此同時,雲知聲也在突破更深層次的自然語言理解和多模態互動。
同年8月,雲知聲順勢推出了山海多模態大模型,透過整合跨模態資訊,山海多模態大模型能夠接收文字、音訊、影像等多種形式作為輸入,並即時生成文字、音訊和影像的任意組合輸出,帶來即時多模態擬人互動體驗,開啟AGI新正規化。
得益於過去幾年不斷補強的語音技術棧和大模型能力,搭載雲知聲語音解決方案的車型已經陸續量產,其客戶包括吉利、上汽等。
這也意味著,雲知聲作為國產大模型的一道縮影,已經初步跑通了座艙語音大模型的技術、產品和商業化路徑。
展望2025年,座艙語音的競爭焦點在哪裡?大模型將如何重塑座艙語音互動?近日,高工智慧汽車獨家專訪雲知聲聯合創始人、副總裁李霄寒,找到了答案。
01
座艙語音加速邁向真人工智慧
作為車內使用頻率最高的互動方式,座艙語音既To B也To C。
於使用者而言,影響其座艙語音使用頻率和體驗感的因素包括兩點:一是使用門檻要足夠低,二是語音互動能做到真正的人工智慧。
而站在語音供應商的角度,要想做到以上幾點,技術層面的衡量標準,一定是“聽得清”、“聽得懂”並且“答得好”
其中,“聽得清”是整個座艙語音的基建。畢竟所有座艙語音互動功能的實現,前提條件一定是“聽得清”。
但要想做好這一點,並非易事,必須做好座艙語音整體硬體結構設計、軟體演算法等,這非常考驗語音技術棧基礎能力,包括降噪、回聲消除、音區分離等。
這也恰恰是雲知聲的強項所在。
例如,雲知聲打造的降噪解決方案實際降噪後語音信噪比可達20db以上,實現了音區精確分離,可確保車內對話清晰;回聲消除後的語音信回比提升達到 35dB以上;降噪後的藍牙通話方案,MOS分可以達到4.0以上(最高5分)
值得一提的是,目前雲知聲在降噪層面的技術邏輯,已經全部基於資料驅動的神經網路實現。在此基礎上,其語音喚醒、語音識別等能力也明顯更強。
據統計,在端到端喚醒時延數百次測試中,搭載雲知聲語音技術的語音助理,最快可達220ms以內;離線識別首字上屏速度小於600ms,線上識別首字上屏速度小於700ms
另外,“聽得懂”作為迄今為止語音座艙最大的挑戰之一,有望在大模型的加持下,賦能整個座艙語音做到真正的人工智慧
即在語音技術棧基礎之上,結合大模型,語音助理可以做到更快的語義響應速度、更準確的意圖理解和上下文跨越理解等,是現階段座艙語音互相角力的重點。
比如,在山海大模型的加持下,雲知聲的語音助理的語義平均響應時延達300ms,意圖理解準確率達95%,可實現複雜上下文跨域理解、語義糾錯等。
而在“聽得清”和“聽得懂”的技術前提下,“答得好”是使用者衡量座艙語音智慧化程度最重要的指標之一,其關鍵點在於以語音助理為互動入口,整合更多的服務,包括多媒體播放、即時導航、車控,以及故障燈釋義、維修手冊等。
語音助理什麼都能聽得懂,即便能做到這一點,假如座艙互動提供的服務只有有限的幾類,那使用者問到第N +1類服務的時候,再聰明的助理也只能說‘對不起不支援’,在使用者看來這個助理就是不智慧的。”李霄寒介紹道。
因此,在現有的服務能力上,與主機廠合力配齊更多的服務,亦是雲知聲在2025年的重點規劃之一。
02
All in大模型,賦能主機廠座艙語音產品領先
2025雲知聲將All in大模型,所有的車載語音技術方案都用大模型來做,旨在透過新的技術路線,帶來新的體驗和價值,賦能客戶的座艙語音產品上市釋出時,在行業內是具備領先性的,這是我們的目標。”李霄寒談到。
不難發現,佔領新一輪座艙語音大模型的技術高地,是接下來OEM在智慧座艙差異化方面的技術競爭焦點。
畢竟,現階段的座艙語音互動,大多還是由語音、文字兩套大模型系統組成。其整體互動鏈路和流程,首先由使用者發起語音請求,車機麥克風拾音之後,再呼叫語音增強能力介面,對音訊做回聲消除、噪音抑制等預處理。
此後,預處理後的音訊需進行識別轉寫,轉寫後的文字再透過文字大模型進行語義理解,並給出語義理解的結果,輸出文本回復再轉化為語音回覆。
從應用層面來看,這也極大地影響著使用者體驗。
一方面,人機對話過程由語音轉成文字,再做理解並輸出結果,在時間上存在一定的延遲。
另外,語音轉變成文字後,會丟失較多的資訊,比如情緒資訊。即使用者分別用憤怒和心平氣和的態度說同樣的話,得到的回覆可能是完全一樣的,顯然與語音助手追求“擬人”相悖。
只有把語音和文字兩個大模型合併,語音助手才能變成真正聽得懂人話的助理,尤其是在做意圖理解時,不光能理解文字,還能讀懂聲音裡蘊含的情緒等其它資訊,並做出差異化的回覆,因此2025年語音大模型會成為主流。”李霄寒表示。
而藉助山海大模型,雲知聲在語音識別、語義理解、語音合成等方面,均已採用大模型技術,實現了語境理解、情緒感知、反饋學習等核心互動能力的增強,賦能座艙體驗在不斷最佳化與提升。
比如,在語義理解方面,意圖理解大模型徹底解決了過往在意圖分類、深度語義理解、多輪互動時的人機對話痛點,在影視問答、旅遊推薦、娛樂閒聊、用車問答等高頻6大領域準確率超過95%,且大模型語義平均響應時間為300ms
另外,在語音合成方面,語音大模型支援情感化語音合成,使用者可以選擇自己喜愛的聲音和人設,或者專屬聲音定製語音包,並支援多語種TTS合成,極大地提升了互動趣味性。
以語音大模型為主的多模態大模型上車,到底要向用戶提供哪些有價值的功能?這是值得供應商和OEM深思的問題,因為大模型上車一定要有價值,能夠讓使用者容易使用,並且願意使用。”李霄寒向高工智慧汽車提到。
站在使用者和OEM的角度思考座艙語音產品定位,堅定All in大模型的雲知聲,在業務層面也有了更清晰的規劃。
據介紹,一方面雲知聲將提供完整的語音座艙解決方案,覆蓋降噪、喚醒、識別、理解、語音合成,以及各類開發平臺,雲端、端側的功能等;另一方面,針對語音座艙設計比較完善的客戶,將以元件的方式提供服務,比如降噪、語音合成等可單獨提供模組。
另外,雲知聲還將繼續貼近OEM客戶,包括駐廠提供更好、更快的座艙語音服務等,旨在成就客戶座艙語音產品具備至少三個月的領先性。
決勝2025年座艙語音互動,雲知聲及其大模型的實際表現值得期待。

相關文章