真不再需要螢幕?語音竟然成手機殺手?但AI眼鏡才是真入口!

抓住風口
本期要點:未來新介面

你好,我是王煜全,這裡是王煜全要聞評論。
最近,AI語音賽道以前所未有的速度成為全球科技投資和創新的核心。
7月初,AI語音領域的獨角獸公司ElevenLabs推出了“11ai”。這個看似波瀾不驚的訊息卻具有不小的戰略意義。
11ai定位主動型對話助手,能在Slack、Notion等工具中接收指令並執行操作。
例如它能結合使用者的日程安排,提前15分鐘語音提示會議即將開始,並詢問是否共享Notion議程給參會者。
此外,11ai還能透過模型上下文協議(Model Context Protocol,MCP)與Salesforce、Perplexity等工具整合,讓使用者可以透過指令實現實際操作。
如透過一句“把Salesforce裡客戶的需求同步到Notion”,11ai就能自動提取資料,並更新具體內容。
這無疑標誌著ElevenLabs從純語音生成邁向語音互動平臺。
ElevenLabs的聯合創始人Mati Staniszewski在一次對談中指出,語音將成為下一代通用互動介面。
他們不僅最佳化語音自然度,還構建從語音識別到任務執行的閉環系統,讓語音不僅是資訊載體,更成為驅動行為的介面。
同時,矽谷頂級風投機構a16z也多次透過深度報告和合夥人訪談闡述了對“AI語音Agent”賽道的看好。知名創業孵化器Y Combinator(YC)也有高達22%的初創公司專案涉及語音AI。
5月份,被譽為“網際網路女皇”的Mary Meeker在她的《人工智慧趨勢報告》中,更是把AI語音看做連結全球尚未接入網際網路的那26億人的核心介面。
那麼,AI語音真的那麼重要嗎?
沒錯,我同意,語音會取代鍵盤和觸控式螢幕,成為下一代人機互動的核心入口。ElevenLabs用對話驅動行動的做法,確實代表著未來的發展趨勢。但是,我認為,集成了影像識別的語音助手,才更加能夠實現對世界的完整識別,並推動效率的大幅提升。

AI語音=新入口
首先,我想指出的是,AI語音之所以是互動方式的未來趨勢,是因為從滑鼠到觸屏再到語音,正是人類本能的體現。
回顧人機互動的歷史,就是技術不斷向人類本能靠攏的過程。
1980年代起,鍵盤和滑鼠一直是主要的人機互動工具。這種方式雖然是一個偉大的發明,但本質上是人去適應機器,需要學習才能掌握。
2007年,iPhone正式推出,讓多點觸控螢幕成為了主流互動裝置,使互動變得更加直觀和自然。拖動、捏合、點選等動作,已經非常接近人類與物理世界互動的本能反應。更關鍵的是,互動方式的變化降低了使用門檻,催生了全民上網的浪潮。

2023年以來,隨著AI時代來臨,語音這種最古老、最熟練、能耗最低的溝通方式,終於成為了人機互動的重要組成部分。它解放了雙手和眼睛,使得互動可以在任何場景下發生。
你可以在開車時導航,做飯時播放音樂,修理裝置時查詢手冊。
而且語音幾乎沒有學習成本,即使不認字或不習慣使用智慧手機,只要會說話就能接入數字世界。
所以,雖然現在AI語音仍然有較高延遲,同時容易出現識別錯誤,導致只有不足10%的應用將AI語音作為主要的互動方式,但這些問題註定會隨著技術的提升而得到解決,語音互動終將成為主流。

不止於語音
但是,我想強調的是,AI語音互動的核心並不在於擬人化或響應快,而是在於能“說到做到”。
目前很多公司還在花大力氣打磨語音合成技術,力圖生成幾乎無法分辨真偽、富有情感的聲音。
但能聽懂人話和說出人話,只是讓AI形成了問答的資訊閉環。這並不是AI語音的護城河,更不是它未來的核心價值所在。
別忘了,我們大多數提問的背後,往往對應著具體的需求和任務。
比如詢問上海的天氣和航班,可能意味著要到上海旅遊或出差,需要預訂機票和酒店。若AI只是完成了回答,訂票、預訂酒店等後續操作仍需使用者手動完成,那AI語音的意義就非常有限了。
因此,ElevenLabs將AI語音作為驅動行為的介面,確實具有戰略意義,也值得大家關注和學習。他們本質上是將語音定義為下一代作業系統的滑鼠、鍵盤和觸控式螢幕。
可以推斷,很快基於AI語音的Agent也將隨之出現。
它們具有理解自然語言的AI大模型大腦,能拆解複雜任務,並能透過MCP等協議自主呼叫各種第三方服務來完成任務,直接給使用者交付結果。
不過最後,我還想指出的是,僅有語音必然是不夠的,因為語音缺乏指向性,而且輸入輸出效率都太低了。
就像在機場,站在滾動大屏面前要對比十幾個航班時,完全透過語音來互動無疑是一場災難,非常低效且難以操作。
此時,如果再加上攝像頭的視覺輸入,AI就可以像人一樣快速瀏覽航班列表,總結出關鍵資訊,並結合語音指令給出最佳答案。
所以,未來更符合人性且更高效的互動形態,將是語音與視覺的融合。語音作為便捷的指令輸入方式,視覺則承擔高效的資訊輸入和反饋功能。
看到這裡,你可能已經想到,集成了攝像頭、耳機和麥克風的AI眼鏡,不就可以即時看到東西並進行對話了嘛。而且,AI眼鏡還能透過使用者的注視時間、頭部動作等獲得額外資訊,從而更準確地理解使用者。
當你戴著AI眼鏡面對滿螢幕的航班資訊,就能透過簡單的語音指令,再結合點頭或搖頭的動作,就能很快跟AI眼鏡進行互動了。
當然,未來隨著AR眼鏡的成熟,眼鏡裡還可以開啟一個小螢幕,實現資訊輸出,能針對我們的語音指令,給我們提供更大量的針對性的即時資訊,結果呈現方式必然更加高效,我們和世界的互動也必然更加精彩。
因此,我們判斷,AI眼鏡很可能會成為未來AI手機的殺手級配件。文章篇幅有限,具體有關AI眼鏡的分析可以掃碼加粉絲群,我們將為你推送以往文章。


以上就是今天的內容,最後做個產品預告,我們的前哨AI少年營開始報名了,9月開始到12月結束,這4個月間,孩子們將親手開發AI動畫、遊戲和小程式,從使用者變身創造者。在AI時代,為他們打造真正的硬實力和自信心!具體介紹見下方海報,歡迎掃碼報名!
王煜全要聞評論,我們明天見。

↓長按圖片掃碼報名先人一步,領先一路
推薦閱讀:
↓¥399,掌握王煜全AI產業預測精華(iOS使用者請在電腦端開啟)
此外,我們還為您準備了一個獨家思維導圖,掃描加群即可領取
AI眼鏡熱潮的冷思考


相關文章