a16z:語音AI創造更多金融服務新可能

日報
專欄
熱點
國際
活動
我們相信,語音人工智慧未來將成為金融服務領域一個重要的組成部分,並以額外工作流程和新的人工智慧原生記錄系統等形式取代下游傳統軟體。(首圖來自圖蟲創意)
譯者|高旭 原文來源|A16Z <<<<
原作|James da Costa and Angela Strange <<<<
當Waymo於2023年8月在舊金山推出時,很少有人認為它會在共享出行市場佔據重要份額。然而15個月後,Waymo在舊金山所有共享乘車服務中的佔比達到22%,與成立13年的Lyft相當。
同樣,許多業內人士起初並不指望自主代理能在銀行業獲得青睞,更不用說自主語音代理。然而,就像Waymo一樣,我們預計不久後,我們將迎來一個企業和消費者可以“高枕無憂”地讓金融服務自動執行的世界。
金融服務佔全球所有聯絡中心總支出的25%,每年的業務流程外包(BPO)支出超過1000億美元,覆蓋的應用包括透過語音生物識別驗證消費者身份,以及透過呼叫中心管理複雜的客戶問題等多個方面。即使在ChatGPT推出之前,許多銀行也在嘗試語音自動化:例如美國銀行的語音代理Erica在2022年前實現了10億次互動。
語音人工智慧不僅達到了與人類同等的水平,在某些情況下,它甚至更勝一籌
如今,語音人工智慧的發展正處於一個激動人心的時代拐點。語音代理可以滿足高峰期的需求,全天候為客戶提供服務,使用客戶喜歡的語言進行溝通,而且運營成本僅為人工的幾分之一。例如,一位來自菲律賓的移民需要辦理汽車貸款,她每個工作日從上午9點工作到下午5點。現在,她不需要請假來回答問題,而是可以在週末用她的母語塔加拉族語與無限耐心的人工智慧代理交談。早期的資料表明,與人工客服相比,一些客戶更喜歡與人工智慧對話:想象一下,每次你打電話時,總是會有同一個客服人員為你提供服務,而且對你的每次互動都有完美的記憶。
2024年,人工智慧語音模型層的一系列技術進步為模型達到延遲和情感方面的最低閾值鋪平了道路,從而得到了更廣泛的應用。例如,ChatGPT高階語音模式增加了網際網路搜尋功能,而谷歌推出了帶有原生音訊的Gemini 2.0。
在這些核心模型改進的基礎上出現了幾家公司,它們將基礎架構要求抽象化,並提供工具讓語音代理快速可靠地啟動和執行,例如ElevenLab的對話式人工智慧,而Vapi、Retell和Bland等平臺則可以管理第三方語音到文字(STT)模型、LLM和文字到語音(TTS)模型的協調。然而,隨著初創公司和企業用例達到一定規模,越來越多的公司開始使用自己的基礎設施堆疊,包括模型協調(如Pipecat)、電話(如 telynx)、評估和測試(如Coval)以及用於知識檢索的定製資料庫(如Pinecone)。
表1 金融服務中的新興語音用例
資訊來源:美國勞工統計局
語音代理要在金融服務領域取得成功需要具備哪些條件?
金融業的語音代理要想取得成功,就必須掌握行業特有的細微差別,例如:
  • 合規性和監管要求:與人工客服一樣,金融領域的語音客服也需要遵守嚴格的監管要求,包括對投資建議的限制。由於存在金融犯罪和欺詐的可能性,語音代理還需要建立額外的或多步驟的客戶驗證流程,尤其是在語音克隆變得越來越容易的情況下。
  • 自定義整合和部署:在金融領域構建代理的團隊可能需要瀏覽內部部署,並從一系列需要自定義整合的傳統記錄系統中訪問資料。
  • 特定領域的知識:代理需要在特定行業術語和行話的語料庫中接受培訓,並廣泛涉獵各種金融產品(如支票、儲蓄、投資、信貸和抵押貸款)。
我們相信,語音人工智慧未來將成為金融服務領域一個重要的組成部分,並以額外工作流程和新的人工智慧原生記錄系統等形式取代下游傳統軟體。
*本文版權歸“未央網”所有,未經授權禁止轉載。如需開通白名單請在評論留言,轉載時在文首註明來源及作者。
REVIEW
推薦閱讀

在看”點這裡

相關文章