夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
起猛了,DeepSeek開口說話了。
而且是超低延遲即時秒回,還可以隨時打斷的那種,先來看一段VCR:
DeepSeek以及其他任意大模型接入這樣的高質量對話引擎,全程只需要兩行程式碼。

開發一款語音互動的AI應用,門檻低到如此令人髮指了嗎?
這不算完,價格方面還有驚喜:每分鐘0.098元,不到一毛錢,單次還贈送1000分鐘。
這就是來自聲網的對話式AI引擎了。

聲網AI RTE產品線負責人姚光華在3月6日對話式AI引擎釋出會上提到,“經過一段時間與客戶的打磨及實際使用場景調研,我們統計出,使用者與AI 每產生1次對話中,平均會有約3輪問答,計算下來平均對話時長約為21.1s,單次成本僅需3分錢。如果每月對話次數15次,那麼月成本不到5毛錢,年成本也只需5元。”
聲網在價格上做到了極致,按用量付費的模式更是不設上限,讓多模態AI互動應用服務百萬級使用者規模成為可能。
這樣便宜又好用,聲網是怎麼做到的呢?
揭秘AI對話流暢體驗關鍵
AI對話要想體驗絲滑,低延遲是必不可少的。
這裡有一個關鍵資料:延遲是否低於1.7秒。
如果低於這個值,人們會覺得與AI交流很自然;當延遲達到2秒-3秒,使用體驗上感覺到有些卡頓,反應稍顯遲緩。
而聲網對話式AI引擎,經過在中、美、歐、東南亞主要城市實測,能夠做到響應延遲中位數650毫秒。這樣的反應速度就能做到與人類對話體驗相仿,消除使用者等待的焦慮感。
響應延遲只是保障流暢對話體驗的基礎,進入實際應用後,還有更多關鍵技術。
真實人類對話的一個重要特徵是可以自然地打斷對方,而大多數AI對話系統在這方面表現不佳。聲網對話式AI引擎支援使用者隨時打斷AI的回應,打斷響應低至340ms,真正模擬人與人之間的自然對話節奏。
在嘈雜環境下,普通語音識別往往難以準確捕捉使用者意圖。聲網的對話式AI引擎能遮蔽95%的環境人聲和噪聲干擾,精準識別對話人聲,即使在人聲嘈雜的公共場所,也能保持對話質量。
在地鐵、地下車庫等
網路訊號不佳的環境
下,普通語音互動應用往往卡頓或斷連。
聲網之所以能解決這個問題,是因為聲網的軟體定義即時網SD-RTN在全球建設了200多個數據中心,建立連線時選址也都是選在離終端使用者最近的地方。
再結合獨家智慧路由+抗弱網演算法,可以做到各種複雜網路環境下的跨區域絲滑互動,在面臨80%丟包的情況下人與Agent也能穩定交流,即使斷網3-5s依舊可以流暢對話。
最後,該引擎不侷限於特定大模型,能實現DeepSeek、ChatGPT等全模型適配,同時其音影片SDK支援30000+終端機型,徹底解決多裝置相容性的後顧之憂。
15分鐘任何應用加裝AI語音互動
對於開發者而言,聲網對話式AI引擎最大的魅力在於其極簡的開發接入流程和強大的靈活性:
極簡接入:
透過聲網Console後臺,開發者可以自行開通服務、在Playground中調參測試並生成程式碼,僅需2行核心程式碼,15分鐘即可完成從零到部署一個基於大模型的對話式AI Agent的全過程。

這一”傻瓜式”接入方式極大降低了技術門檻,讓更多開發者能夠快速進入AI語音互動領域。
靈活切換:
開發者可以根據應用場景需求,自由選擇和切換底層大模型,而無需改變前端互動邏輯。支援全球幾乎所有大模型廠商,只要和OpenAI介面協議相容的模型廠商,自3月6日起,全部原生支援。
同時也支援全球主流語音合成供應商任意切換,支援開發者透過語音合成供應商定製的自定義音色接入。

比如在應用中不同的功能接入不同的模型,都只需簡單配置即可完成切換,真正實現一次開發,全模型適配。
廣泛相容:
一方面是支援第三方雲端大模型服務、企業私有化模型及本地化部署的開源模型無縫接入。
另一方面則是對硬體的相容。現實場景中不同的裝置可能對於語音處理效果產生影響,效能相對差一些的裝置可能會產生更高的延時,需要音影片SDK做到海量裝置的相容性,提供統一的低延時傳輸。聲網的RTC SDK支援30+平臺開發框架,30000+終端機型適配,即使是中低端機型也適用。
語音互動即服務模式誕生
聲網對話式AI引擎不僅為開發者提供了一個優質選擇,更意味著一種新模式的誕生:語音互動即服務。
讓RTC(即時音影片)技術與大模型技術解耦,每個部分都可以交給專業的團隊去做,大模型廠商無需再花時間精力自建語音互動體系。
在這個趨勢之中,聲網透過統一API介面廣泛相容模型,站穩了“AI語音互動中介軟體”這個的新生態位。
作為生成式AI行業一種全新的基礎設施供應商,聲網營運長劉斌也在去年底參加了量子位舉辦的MEET2025智慧未來大會。
在演講中,劉斌曾強調:
任何涉及大模型多模態即時互動的應用,無論是語音還是影片,只要存在多模態互動,這類Agent應用的落地都離不開RTC技術的支援。
幾個月後,聲網對話式AI引擎正在“讓所有AI都能開口說話”,把RTC技術落地到各類AI應用,進一步推進整個生成式AI行業變革。
最後再來欣賞一段對話式AI引擎的一手實測表現:
掃碼諮詢聲網對話時AI引擎,獲取專業服務人員解答。

— 完 —
一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!