你給豆包打的這通影片背後,藏著AI即時互動的體驗密碼

能接電話、打影片的豆包背後,藏著什麼黑科技?
作者 |  陳駿達
編輯 |  漠影
今年,字節跳動旗下AI應用豆包的互動方式迎來多次升級,從春節期間的即時語音通話,再到5月份新增的視訊通話功能,如今,豆包已經能像真人一樣透過多模態互動實現無縫溝通。
我們先來看幾個例子:
開啟視訊通話功能,隨手對準一個歐洲小國的國旗,豆包便能結合音影片資訊,瞬間給出正確答案。
通話過程中,使用者可以隨意地停頓、思考、改變話題,豆包能準確地把握回覆的時機;而在豆包說話時,可以隨時打斷,向它提出新的要求。
在地鐵站、電梯、地下車庫等較為複雜的網路環境下,豆包的即時互動能力也不會大打折扣。下方案例中,豆包的響應速度沒有出現明顯的問題,給出的回答也正確、清晰。
要實現這種近乎直覺性的體驗,並在一款國民級AI應用中穩定提供即時音影片互動,豆包需要攻克不少挑戰。
除了提升模型能力之外,即時音影片互動要如何將攝像頭捕捉的畫面高畫質呈現,如何將AI的視覺推理和搜尋反饋同步,又如何在瘋狂丟包的弱網環境中依舊維持高質量通訊?
豆包最終選擇的方案,是火山引擎的RTC(Real Time Communication,即時音影片)技術。目前,真人使用者間的音視訊通話幾乎都依賴RTC技術,火山引擎智慧互動產品負責人楊若揚向智東西透露,他認為,未來的人機音視訊通話也必將全面進入RTC時代。
01.
即時互動技術路徑分野
RTC憑藉什麼勝出?
RTC是一項專門為低延遲互動設計的技術,能降低通訊延遲、確保即時性和質量,讓使用者與使用者、使用者與系統間實現近乎“面對面”般的無縫音影片互動體驗。
這項技術涉及多個模組,比如音影片的採集與編解碼、網路傳輸、網路自適應等,這些模組協同工作,保證了使用者從攝像頭、麥克風採集的資料能清晰流暢的傳送至接收方,而使用者也能及時收到對方的音影片反饋。
雖然RTC並不是目前業內唯一的即時互動方案,但與基於TCP協議實現的另一大主流方案WebSocket相比,RTC擁有顯著的優勢。
協議方面,RTC底層採用UDP傳輸,避免了傳統TCP必須完整接收再傳給應用層的機制。RTC允許一定程度丟包但保證速度,因此延遲非常低,特別適合即時音視訊通話和互動
理想情況下,RTC和WebSocket的語音延遲差異不大。但現實世界的網路情況複雜多變,WebSocket對丟包比較敏感,網路波動時延遲明顯升高,不如RTC流暢。
RTC技術具有較強的抗弱網能力。線上實測資料清晰印證,在20%丟包環境下,WebSocket方案已出現嚴重卡頓、斷連,並且線上已有高達15%的使用者不可用;而RTC即使在80%極端丟包下,不可用率也僅為1%,體驗稍有滯後(延時4.6s)。
在影片場景,RTC技術還可以利用其頻寬估計、前向糾錯(FEC)和丟包重傳等抗擁塞能力與端到端傳輸最佳化,有效降低行動網路或擁擠WiFi下畫面破圖與卡頓的風險。
火山引擎的RTC技術於2021年隨品牌釋出上線,但其研發始於2017年,用於滿足抖音直播連麥等需求。此後,這一技術陸續在位元組內部的音視訊通話、社交娛樂、遊戲、線上會議等場景落地。
2021年火山引擎成立後,其RTC技術逐漸產品化,承載能力也不斷提升。而生成式AI的爆發,給RTC技術帶來了新的發展機遇,2024年初,火山引擎推出了基於RTC的對話式AI技術方案,這便是豆包互動體驗升級背後的重要支撐。
02.
豆包互動體驗再升級
揭秘背後核心技術棧
我們已在文章開頭的案例中,看到了RTC支援下豆包語音互動、影片電話的流暢、即時性體驗。在智東西與火山引擎智慧互動產品負責人楊若揚的溝通中,我們瞭解到了這一效果背後的具體實現。
豆包首先充分利用了火山引擎RTC方案的既有優勢,實現了低延遲、高質量和抗弱網的音影片互動體驗。
在網路層面,火山引擎擁有覆蓋全球的邊緣節點和骨幹網路,這能有效縮短資料傳輸物理路徑,減少中間節點,降低延遲和丟包風險。同時,智慧路由技術可即時感知鏈路狀態和擁塞情況,動態選擇最優路徑,確保資料傳輸高效流暢。
在演算法層面,火山引擎RTC技術擁有網路、音訊和影片多類演算法。網路側透過動態頻寬、自適應傳輸、前向糾錯、智慧重傳等機制提升弱網適應能力;音影片側結合神經網路編解碼、分層和感知內容編碼等技術,動態最佳化編碼引數,有效緩解“最後一公里”網路不確定性,保障使用者端音影片傳輸的清晰度與穩定性。
楊若揚認為,在豆包這樣的“對話式AI”場景,RTC技術所服務的物件已從人和人之間的交流,轉變為人與機器的交流。火山引擎RTC技術針對新場景的特點,在音影片處理層面做了針對性的升級和最佳化
影片流與大模型在輸入輸出形式上存在明顯差異:影片由一幀幀圖片組成,而當前的多模態大模型以理解單張圖片為主,這要求模型能分析幀間聯絡與時序,保證語義連續,因此必須不斷最佳化影片理解與關鍵幀提取演算法,以提升模型對動態場景的感知與處理能力。
在人與AI的對話中,AI如何準確斷句,選擇接話、插話的時機也是一大挑戰。人類能憑語境判斷對方話語結束時間,並憑音色識別說話者、濾除無關噪聲,而大部分AI系統僅依賴停頓時長判斷,往往不夠準確,這就需要引入智慧語義判停與聲紋降噪演算法。
智慧語義判停技術可以根據語義判斷使用者話語是否完整,讓模型不會過早回覆。下方案例中,使用者可以停頓,思考,而不會被豆包插話。
聲紋降噪演算法能在嘈雜環境中聚焦目標說話者,遮蔽環境人聲及噪聲干擾,將誤打斷率降低15%-20%。
這些改進讓AI在音視訊通話中展現出更接近人類的特徵,也讓使用者在與豆包對話時能獲得更加流暢、自然、貼近真實互動的使用感受。
03.
智慧音影片互動需求井噴
RTC有望提供堅實底座
隨著大模型與AI應用的日漸成熟音影片已成為新一代AI互動中不可或缺的一部分,這些模態所提供的沉浸式體驗對使用者天然有吸引力和親近性。
在虛擬陪伴、智慧玩具、智慧家居、智慧教育等廣闊場景中,使用者對於低延時、高質量、自然流暢的人機對話需求與日俱增,而火山引擎RTC這樣能夠支撐複雜場景即時音影片互動的底層傳輸技術正是保障使用者體驗的關鍵。
在多Agent、多人場景中,RTC技術還展現出較好的可擴充套件性,相較傳統WebSocket實現語音方案,RTC在網路層和演算法層都更為成熟,原生支援房間管理、多流控制、音影片混音與優先順序策略,可應用於多人娛樂、企業辦公等場景。
火山引擎基於RTC的對話式AI技術,不僅僅是“豆包專屬”,而是能為所有AI時代的產品提供重要價值。作為火山引擎的核心音影片技術之一,RTC 已廣泛應用於位元組各大業務場景,在真實使用者環境中反覆打磨與最佳化。
同時,火山引擎提供的RTC服務與其內部業務完全同源,換句話說,企業透過火山引擎接入RTC,使用的就是與抖音、飛書、豆包同款的演算法、架構與策略。
當然,RTC技術也存在行業共性難題:一方面,自建整合方案門檻較高,需要專門的網路傳輸與音影片處理能力,另一方面,雲服務資源消耗也不可小覷,此外深度音訊演算法調優也需大量投入。
楊若揚觀察到,上述難題導致許多企業不得不選擇實現成本相對低廉、門檻較低的WebSocket,一定程度上犧牲使用者體驗,等待使用者規模擴充套件後再考慮換用更成熟方案,這無形中限制了產品的成長與競爭力。
針對這些痛點,火山引擎對話式AI一站式方案提供了低門檻、高質量的接入途徑。開發者無需從零開始搭建複雜架構,即可實現使用者與AI的即時音影片互動,構建契合業務場景的AI即時對話能力。
▲火山引擎對話式AI官網:
https://www.volcengine.com/product/veRTC/ConversationalAI
火山引擎還為開發者提供了每月10000分鐘的免費額度,進一步降低了開發者的前期驗證與迭代成本。
04.
結語:從難點到標配
RTC成對話式AI首選項
在對話式AI場景中,RTC正在成為企業的優選方案,這種整合方案讓企業能更加專注業務創新,以更低成本、更快速度落地語音與音影片能力,從一開始就為使用者帶來高品質的互動體驗,為下一代智慧應用贏得先機與口碑。
火山引擎的對話式AI一站式方案,讓即時音影片從“難點”變成“標配”,為各類AI應用與智慧體生態拓展廣闊空間,讓未來的人機互動更加順暢、高效、有溫度。
楊若揚稱,在多模態音影片技術上,火山引擎希望讓人和AI之間的對話越來越接近人與人之間的真實溝通,這也是他們未來持續努力的方向。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章