
Voice agent 是與人類進行對話溝通的 AI,是下一代人機互動介面。
和文字相比,聲音互動的優勢主要體現在:
• 語音互動以其與人類自然溝通方式的高度一致性,提供了一種更為直觀和低能耗的互動體驗,而打字文字互動的使用門檻更高;
• 語音互動非常適合於簡短、即時的資訊交流;
• Text copilot 往往需要人機協作,最後一公里由人類完成,voice agent 一旦落地將徹底替代人類,獨立完成交流任務。
以上差異使 voice agent 能產生不同於其他模態的價值,所以我們選擇 voice agent 作為獨立市場進行研究。
GPT-4o 是第一個實現端到端 voice-in, voice-out 的大模型,低延遲、高智慧使下一代互動成為可能。傳統語音中 ASR + NLP(即使被替換為 LLM) + TTS 的延遲是使用者難以接受的,且很難沿著 scaling law 產生足夠智慧的對話體驗。GPT-4o 的出現讓新的互動形態成為可能,帶來了更多應用場景的想象。
本篇研究中,我們根據不同場景對於即時性、準確性、創造性的不同要求搭建了分析 voice agent 能力稟賦框架,識別出了值得高度關注的創業及投資機會:短期內,我們較看好開發者工具和麵向垂直領域的 voice agent workflow,長期則更期待消費者端“Killer app”的出現。
01.
Voice Agent 全景圖
為了快速框定出端到端模型出現後什麼領域會有劇烈變化、什麼領域不會,我們搭建了以下框架來分析聲音領域的不同場景需求。
象限分類標準:1)縱軸是該場景是否對即時性敏感,上方的需要即時線上的回答,下方的可以離線完成聲音製作。2)橫軸是區分該場景準確度還是創造力更重要,左側的要求 voice agent 能精準的解決問題或念出文稿,右側的需要 voice agent 更有創造力和表現力,能給出隨機應變的回答。

• 第一象限(右上):是端到端模型帶來最大積極影響的。需要即時回答,但對 AI 交流內容的容錯率和自由度比較高,典型的場景有:陪伴、心理療愈。
• 第二象限(左上):同時要求即時回答和高準確度,目前是落地難度最大的場景,需要像真人一樣可靠。這需要透過對 latency 和 RAG workflow 的極致最佳化,常見場景有:call center、銷售、客服、教育。
• 第三象限(左下):可以離線完成,但要求 voice agent 能按臺本發揮,因此是 TTS 技術最好的使用場景。常見場景:有聲書、短影片配音、模板化外呼電話。
•第四象限(右下):這是一個想象空間比較大的領域,對創意要求高,但同時可以離線生成。目前比較常見的用例是:音樂生成、npc 語音生成。
根據以上分析框架,我們認為有以下幾個值得高度關注的創業和投資機會。類比開發軟體時,前端和後端必然是分離的。聲音領域前端的機會在於 TTS,後端的機會在於 enterprise workflow,同時也存在端到端的應用機會:
1)療愈/陪伴類 voice agent(第一象限):端到端模型解鎖下一代互動形態,在教育、陪伴等領域出現 killer app。
2)Enterprise workflow(第二象限):企業使用時最大的痛點在於如何解決 corner case(邊緣場景) 的準確性,planning & RAG workflow 在這裡就非常重要。同時,加入了 RAG 之後如何最佳化 latency 提升使用者體驗也很關鍵
3)TTS(第三象限):LLM 是大腦,但開發者仍需要 interface 的可控性。11 Labs 這樣公司的價值持續存在。
前面我們提到 4o 這樣的端到端模型取代的是 ASR + LLM + TTS 的鏈路,那這幾個創業方向在整個工作流中處在什麼位置?
我們根據目標客戶將其分為開發者(To Developer),企業使用者( To Enterprise), 消費級(To Customer) 三個不同型別進行梳理,這三個領域的成熟度和壁壘、價值各不相同。以下為結論,我們會在第二部分進行詳細分析說明。

02.
具體環節分析
To Developer:
機會來自搭建 voice agent 的核心要素
AI voice agent 的搭建鏈路很長,把這些工具組合起來讓 voice agent work 並不容易。這個領域創業公司的核心價值就是使開發者更快地開發出一個高質量的 voice agent,而其中最重要的變數是端到端模型。
1. 端到端多模態模型
GPT-4o 作為多模態端到端模型有著很驚豔的效果:低延遲、真實情感表達、很強的語義理解能力。未來可以同時用於 entertainment & productivity 場景,作為每個人的朋友和工作助理,想象空間巨大。同時,對 voice agent 的落地還有幾個關鍵問題:
關鍵問題1:voice agent 是否真的能在企業用例上落地?
端到端模型降低 latency 的同時也降低了可控性,這是企業端落地的重要阻礙:enterprise 使用時需要精確的內容輸出,此時就需要 decompose 和 RAG 的加入。這對端到端模型並不友好,因為其延遲優勢會被 RAG 弱化,這時可控性、精確度和低延遲成了不可能三角。
在強領域知識的場景,可能需要端到端、易於微調的開源模型(可能是 Llama 3 8b 的語音版),才能讓 voice agent 真正落地。這時 Workflow 搭建很重要,用於解決 corner case 的精確性。
關鍵問題2:GPT-4o 以什麼形式、什麼時間開放 API ?
對於 to developer 的公司其 API 的開放時間和形式可能是最大的變數。目前端到端 model 推理成本相比傳統方法明顯更貴,這讓 API 甚至今年內可能都不會開放。如果 OpenAI 將語音輸入輸出的介面也開放了,Full stack 的平臺價值會降低,voice agent 的技術棧會變成 LLM (+emotion engine/ TTS) + streaming service。
如果 API 能開放多模態輸出的 API,語音+文字雙重輸出可以解決問題 1 中的 RAG 問題。先輸出一部分文字開始對話的前半部分,在說話的過程中完成一次 RAG,這樣可以基本避免 latency 問題。
關鍵問題3:端到端模型如何改變 voice agent 工作流?
GPT-4o 的出現把工作流中的很多步驟給簡化了。在端到端模型出現前,要搭建一個好的 voice agent 鏈條很長:

• VAD 識別發言時機:
voice agent 需要判斷何時使用者說完了內容、合適插入對話,以確保足夠互動自然。這一領域的演算法稱為 VAD,voice automatic detection,在 LLM 出現前就有相關技術。
從官方 demo 中,我們能感受到 GPT-4o 的湧現能力對之前的技術降維打擊,尚不清楚 4o 中這一模組是外接模組(可能是類似 speculative encoding 那樣的 oracle model )還是 LLM 自身的能力。
• ASR 音訊轉文字:
這一領域的技術供給一直比較穩定,但端到端 LLM 會對這一類模型的能力產生降維打擊:以更快的即時性做到高質量的語義理解。
這個領域的代表公司包括:Assembly AI,OpenAI(Whisper 是開源SOTA)
•LLM 生成回答:
即使用 LLM 理解使用者意圖,生成自然的回答文字。這個過程中需要對回答推理步驟進行 planning 拆解問題,再用 RAG 從專有資料庫中檢索回答中的相關概念。要實現這一點就要求 LLM 要了解對解決問題需要執行的操作,比如下單退貨指令,並用 function call 能力分發至對應任務上等。
• TTS 文字轉聲音:
TTS 將文字轉換為自然的語音輸出。這裡可以加入更有感情和表現力的聲音,也可以加入固定的音色。
TTS 公司的業務主要替代傳統配音市場(有聲書、翻譯等),離線的個人創作者內容生產。而 voice agent 則對即時性要求非常高,因此當前 TTS 和 voice agent 相關度還比較低。兩者對 voice 評估的目標不同,11labs 客戶要求的是高質量的聲音,而 voice agent 使用者要求的是高質量的語義回答和 low latency。需求的不同讓 11labs 相對難被衝擊到,interface 層不會直接被 LLM 大腦衝擊到。
關於 GPT-4o 的影響,使用 4o 不一定必須用其自帶的 TTS。TTS 位於大模型內,對開發者不太友好。客戶可能需要更多樣化的聲音模式,如定製化或卡通化風格。未來最值得關注的是 4o API 是否同時支援Voice 和 Text 雙頭輸出。
代表公司:11labs,Wellsaid,play.ht
• 讓對話更加生動的情感引擎(Emotion engine):
Voice agent 在客服、陪伴等場景中都非常需要理解人類的情感表達,並儘可能模擬出人類表達時的情感,支援這樣能力的技術便被稱為 emotion engine。
代表公司 Hume AI 是目前唯一效果不錯的 emotion engine。Hume AI 的 API 介面背後是一個“共情大模型”(eLLM)驅動,它能夠完成情感理解、共情回應、透過個性化建議和干預幫助使用者管理情感。Hume AI 不是端到端模型,可以結合其他 LLM一起使用
但 emotional engine 方向最大的風險在於被湧現能力顛覆。GPT-4o 向我們證明了學習足夠多對話資料的端到端多模態模型自己能湧現出對人類情感的模仿能力,Hume 的能力很可能被降維打擊。
代表公司:Hume AI
• 用RTC 降低 streaming latency:
這類技術介面的價值是降低 LLM 互動的速度,讓其互動對使用者更絲滑無感。Voice agent 需要選用合適的 streaming service 來降低 voice agent 對話的延遲,例如 OpenAI 選擇 livekit 來降低 latency,Bland 選擇 Twillo 來接入各類語音電話。
LLM 需要即時接收使用者的音訊。由於人和 AI 都無法加速產生內容,為了減少 100-200 毫秒的延遲,RTC是必須的解決方案。對於使用者的溝通文字,decoder-only transformer 無法提前讀入內容,但 RTC 可以保證其在讀入內容和輸入內容時的 latency 被降到足夠低,且不同人物之間可以有並行處理和加速。
考慮到 RTC 是一個已經發展了十年的技術,其能力已經相對 commoditize了。對於 OpenAI 這樣的團隊,未來更有可能的是選擇招聘團隊自建更完備的系統。這類玩家更可能的客戶是受到 OpenAI 名聲影響到的 voice agent applications。
代表公司:LiveKit
總的來說,在整個 vocie agent 的 workflow 中,每一個模組,都出現了一些重要公司:

Source: a16z
2. Full stack 平臺
除了圍繞 voice agent 的技術鏈條提供服務外,還有一類公司是將以上各個環節打通的 Full stack 平臺。值得一提的是,這是在 GPT-4o 前就出現的產品形態,幫開發者快速把 ASR + LLM + TTS 的鏈路打通。可以細分為以下兩類,核心區別在於是否自己訓練模型:
• End2end infra:自己訓練模型,端到端完成所有任務的公司,從轉錄、推理、文字到語音,到構建決策圖和可配置的函式呼叫和 API 請求。
這個板塊的代表公司 Bland AI 是一家專注於託管客戶微調模型棧並提供低延遲通話解決方案的公司,為開發者和企業定製化語音代理以適應特定用例。其核心產品是一個多功能的 AI Phone API,能夠自動化和管理各類電話呼叫,包括出站和入站呼叫、對話能力、合規工具、可擴充套件性以及與現有系統的無縫整合。Bland AI致力於構建 AI 呼叫中心,透過將語音轉換為文字並快速生成回應,同時在 LLM 中構建防護措施以降低風險。該公司採用訂閱模式,提供從每分鐘 0.07 美元起的定價,已獲得Acacia Venture Capital Partners、Team Ignite Ventures和Y Combinator的投資。
• Middleware router:中介軟體層,不自己訓練模型而是將不同元件串聯起來。幫助企業提高了靈活性,能以最快的方式選擇自己合適的模型並將其開發為 voice agent。
在11labs 客服訪談中,我們看到有不少客戶選用 11labs 作為tts,和其他 API 一起使用,往往就採用了中介軟體或自建基站,而不是上文的 Full stack 平臺一體化基建。
例如, Verizon Communications 利用 11labs 為在野外工作的工程師建立 AI agent,使得工程師可以透過手機應用程式與聊天機器人交流,透過語音來接收資訊。
作為中介軟體的代表公司,Retell AI 提供用於構建對話式語音 AI 代理的中介軟體解決方案。API 主要功能包括語音穩定性控制、即時自動語音識別(ASR)轉錄、自定義語音以及即將推出的情感分析和環境噪聲新增等,團隊由前字節跳動/TikTok 產品經理,Google 軟體工程師,Meta 專案經理和技術主管組成。包括 Y Combinator 在內的投資者已經為 Retell 投資了總計453 萬美元的資金。
To B: 新一代 Saas 入口
語音是進入核心客戶行為(如預訂、續約、報價等)的自然入口。如果下一代SaaS解決方案能夠充分利用voice agent技術,那麼在2B領域,它們將擁有較大的增長潛力和市場優勢。
大部分語音對話不需要很高的智慧程度,相反,它們更依賴於對上下文的理解、隨時 on call 以及對客戶需求的快速響應。有了可靠的 voice agent,企業就不再需要人工接線員來工具式地打電話,可以節省大量時間和成本。由於 To B voice agent 就是與客戶溝通的電子員工,需要了解很多相關領域的背景知識,因此這一個領域是垂直公司的機會。
以下是一些關鍵因素,解釋了為什麼垂直領域存在市場機會:
•呼叫型別、語氣和內容結構:不同行業的客戶互動具有特定的模式和風格。語音代理需要根據行業特點調整其溝通方式。比如語調、內容結構;
•資料整合和工作流:每個垂直領域都有其獨特的資料管理和工作流程;
•GTM 策略(GTM)和 killer feature:需要具備能夠解決特定行業痛點的能力。
• 邊緣場景難度:將電話交給AI的質量標準非常高。這些公司最關鍵的任務就是去解決垂直領域裡的邊緣場景,例如通用模型可能會誤解的獨特詞彙。
• 法規和許可:一些語音代理公司面臨特殊的限制和認證需求。例如,醫療保健領域需要遵守 HIPAA 合規性,銷售領域也出現了針對 AI 冷呼叫的國家級別的法規。
為什麼 To B 場景下的垂直解決方案相對難被端到端模型顛覆?
在垂直場景中真正解決問題,需要做嚴謹的 RAG 和任務規劃,因此並不適合端到端模型一次生成。通常的過程是先透過文字內容 retrieve 相關資訊,再次生成文字和進行 TTS。這時端到端模型的 latency 優勢就不再了,關鍵難點在於領域資料和 workflow 的推理。

1. 企業工作流
企業工作流領域的公司不侷限於特定行業、特定場景,而是跨行業提供服務,但目前主要應用場景仍為 sales/support。他們以 low code 平臺或 SaaS 的形式提供服務。
我們根據銷售工作流,可以將 AI 客服分為幾類:
1)營銷類外呼:售前場景因為對於模型的理解和智慧能力要求較低,是目前比較好的落地場景。Voice agent可以帶來更自然的對話體驗,同時能夠結合分析歷史通話資料,實現營銷轉化的提高。如果遇到太難的問題,LLM 也可以檢測後發給普通的客服。
2)銷售中:目前LLM還比較少的被應用到直面leads,因為受能力限制,失敗了損失過大。但被充分應用於客服培訓中,一方面節省了因為電銷頻繁離職導致的過多培訓時間成本;另一方面可以做到知識庫即時對齊,成為電銷的語音 copilot。
3)投訴/售後服務、客戶回訪:AI 可以幫助客服收集客戶投訴,解決簡單的售後服務問題。同時可以進行大規模的客戶回訪,也開始被企業廣泛的採用。
代表公司:傳統公司以 Parloa、Kore AI 為代表;新興公司則包括 Sierra,Sema4.ai
Sierra 專注於為企業打造 AI Phone Agent,提供基於 autonomous agents 理念的軟體,結合多個模型生成響應。由 Salesforce 前高管 Bret Taylor 和 Google 前VR負責人Clay Bavor創立,已獲得Sequoia和Benchmark 等投資方 1.1 億美元融資。公司採用基於結果的定價策略,客戶僅在問題解決時付費。WeightWatchers 利用 Sierra AI 提高了客戶服務效率和質量,實現了高客戶滿意度和問題解決率。
2. Training and Recruiting
Training and Recruiting 是值得關注的另一大模組。
GPT-4o 可能預示著新一代解決方案的到來。引入 voice agent 技術有助於企業降低成本並提高效率。值得注意的是,該領域的專業性非常強,因為不同行業的培訓內容和麵試測試有不同的需求。企業培訓市場覆蓋了技術培訓、軟技能開發、質量培訓、合規培訓等多個細分領域,服務於零售、醫療保健、金融服務、IT 等多個垂直行業。
根據 Global Industry Research 研究,Corporate Training Market 市場規模在2024年估計為 1331 億美元,並預計在預測期內以 9.47% 的複合年增長率增長。而 Polaris 調研 Recruitment Process Outsourcing (RPO) 市場在2023年的市場規模為 87.5 億美元,預計到 2032 年將達到 333.4 億美元。在這一市場中,頭部培訓公司包括 Skillsoft、LinkedIn Learning(微軟)、Pluralsight、Cornerstone OnDemand、Udemy for Business等。同時,頭部RPO公司有Cielo、Randstad Sourceright、Korn Ferry、Alexander Mann Solutions (AMS)。儘管市場存在一些頭部企業,但並沒有形成壟斷,為創新公司提供了機會。招聘方向的創業公司如 HeyMilo、Interviewer.AI;在培訓方向的Hyperbound和moctalk 等公司值得關注。
如 Hyperbound 是一個利用 AI 和 voice agent 的 AI 銷售角色扮演平臺,透過模擬真實買家對話來提升銷售團隊的電話銷售技巧。該平臺透過 AI 買家模擬、角色扮演練習,快速提升銷售代表的熟練程度,加速新員工入職,提高轉化率,並減少練習過程中對潛在客戶的負面影響。Hyperbound 還提供分析和反饋工具,幫助管理者評估和提升銷售團隊表現。團隊由銷售教練、AI 工程師以及前 Salesforce Einstein 工程師組成。






2)Ello:
面向兒童的閱讀伴侶應用程式,為幼兒園到三年級的孩子設計,提供與孩子閱讀水平和興趣相匹配的電子書籍和紙質書籍,幫助孩子培養閱讀習慣。Adaptive Learn™ 是 Ello 的 AI 引擎,能夠像一對一的教師一樣理解、適應並響應每個孩子的需求。

3)Sonia:
開發了 AI 驅動的認知行為治療師(CBT),提供語音和文字會話的心理健康治療服務。為使用者提供了成本效益高、可訪問性強、隨時可用的心理健康治療解決方案,改善心理健康服務的可及性。
Sonia 透過手機應用來提供完整的會話治療服務,使用者可以選擇語音或文字與 AI 治療師進行交流,這一服務收費為200 美元/年,和傳統的每次 200 美元的治療費用,成本極低。

2. Hardware
To C 的另一個機會是基於 voice agent 的消費級硬體,即時收集記錄使用者資訊,即時互動反饋,成為更為具象的 personal assistant。但目前出現的出現的 humane、rabbit 的可用性、使用價值仍較差。
儘管尚未出現被廣泛認可的“下一代硬體”,但該領域正積極嘗試開發新產品。主要有兩種嘗試方向:首先是創造全新的、以語音互動為核心的硬體裝置,如 Humane 和 rabbit ,這些產品旨在提供更加自然和直觀的使用者體驗,但目前可用性、使用價值仍較差。市場上也出現了小型陪伴玩具,它們透過搭載 voice 互動能力,提供互動性和娛樂性,例如 curio和 moxie 這樣的產品,不僅能夠吸引兒童的注意力,還能在一定程度上輔助教育和情感陪伴。
與 Gen-AI結合的具體案例:
因為大家對 Humane 和 rabbit 已經比較熟悉了,下面主要介紹兩款以 voice 為核心的遊戲和陪伴類機器人:
1)Curio:
Curio Interactive Inc. 推出了 Grok、Grem和Gabbo 等 AI 玩具系列,這些玩具配備 WiFi、藍牙、揚聲器和麥克風,支援與兒童進行語音或文字互動,透過遊戲和對話提升孩子的聽力和交流技能,同時減少他們對螢幕的依賴。

2)Moxie
Moxie 是由 Embodied 公司開發的一款具有情感智慧的 AI 機器人,專為 5 至 10 歲兒童設計,幫助他們克服社交焦慮和孤獨感。它能夠理解語音和麵部表情,維持眼神接觸,並以肢體動作響應互動。Moxie 還能記住過去的對話,運用特定療法如認知行為療法,並適應不同學習階段。
此外,Moxie 集成了先進的對話 AI 技術,能夠為多達四名兒童提供個性化互動,且在不使用客戶資料的前提下,根據使用者反饋持續更新,從而提升智慧和同情心。

請點選文章末尾處閱讀原文檢視參考文獻。


排版:Doro

延伸閱讀