真不再需要螢幕？語音竟然成手機殺手？但AI眼鏡才是真入口！

2025-07-13 14:31 全球風口

抓住風口

本期要點：未來新介面

你好，我是王煜全，這裡是王煜全要聞評論。

最近，AI語音賽道以前所未有的速度成為全球科技投資和創新的核心。

7月初，AI語音領域的獨角獸公司ElevenLabs推出了“11ai”。這個看似波瀾不驚的訊息卻具有不小的戰略意義。

11ai定位主動型對話助手，能在Slack、Notion等工具中接收指令並執行操作。

例如它能結合使用者的日程安排，提前15分鐘語音提示會議即將開始，並詢問是否共享Notion議程給參會者。

此外，11ai還能透過模型上下文協議（Model Context Protocol，MCP）與Salesforce、Perplexity等工具整合，讓使用者可以透過指令實現實際操作。

如透過一句“把Salesforce裡客戶的需求同步到Notion”，11ai就能自動提取資料，並更新具體內容。

這無疑標誌著ElevenLabs從純語音生成邁向語音互動平臺。

ElevenLabs的聯合創始人Mati Staniszewski在一次對談中指出，語音將成為下一代通用互動介面。

他們不僅最佳化語音自然度，還構建從語音識別到任務執行的閉環系統，讓語音不僅是資訊載體，更成為驅動行為的介面。

同時，矽谷頂級風投機構a16z也多次透過深度報告和合夥人訪談闡述了對“AI語音Agent”賽道的看好。知名創業孵化器Y Combinator（YC）也有高達22%的初創公司專案涉及語音AI。

5月份，被譽為“網際網路女皇”的Mary Meeker在她的《人工智慧趨勢報告》中，更是把AI語音看做連結全球尚未接入網際網路的那26億人的核心介面。

那麼，AI語音真的那麼重要嗎？

沒錯，我同意，語音會取代鍵盤和觸控式螢幕，成為下一代人機互動的核心入口。ElevenLabs用對話驅動行動的做法，確實代表著未來的發展趨勢。但是，我認為，集成了影像識別的語音助手，才更加能夠實現對世界的完整識別，並推動效率的大幅提升。

AI語音=新入口

首先，我想指出的是，AI語音之所以是互動方式的未來趨勢，是因為從滑鼠到觸屏再到語音，正是人類本能的體現。

回顧人機互動的歷史，就是技術不斷向人類本能靠攏的過程。

1980年代起，鍵盤和滑鼠一直是主要的人機互動工具。這種方式雖然是一個偉大的發明，但本質上是人去適應機器，需要學習才能掌握。

2007年，iPhone正式推出，讓多點觸控螢幕成為了主流互動裝置，使互動變得更加直觀和自然。拖動、捏合、點選等動作，已經非常接近人類與物理世界互動的本能反應。更關鍵的是，互動方式的變化降低了使用門檻，催生了全民上網的浪潮。

2023年以來，隨著AI時代來臨，語音這種最古老、最熟練、能耗最低的溝通方式，終於成為了人機互動的重要組成部分。它解放了雙手和眼睛，使得互動可以在任何場景下發生。

你可以在開車時導航，做飯時播放音樂，修理裝置時查詢手冊。

而且語音幾乎沒有學習成本，即使不認字或不習慣使用智慧手機，只要會說話就能接入數字世界。

所以，雖然現在AI語音仍然有較高延遲，同時容易出現識別錯誤，導致只有不足10%的應用將AI語音作為主要的互動方式，但這些問題註定會隨著技術的提升而得到解決，語音互動終將成為主流。

不止於語音

但是，我想強調的是，AI語音互動的核心並不在於擬人化或響應快，而是在於能“說到做到”。

目前很多公司還在花大力氣打磨語音合成技術，力圖生成幾乎無法分辨真偽、富有情感的聲音。

但能聽懂人話和說出人話，只是讓AI形成了問答的資訊閉環。這並不是AI語音的護城河，更不是它未來的核心價值所在。

別忘了，我們大多數提問的背後，往往對應著具體的需求和任務。

比如詢問上海的天氣和航班，可能意味著要到上海旅遊或出差，需要預訂機票和酒店。若AI只是完成了回答，訂票、預訂酒店等後續操作仍需使用者手動完成，那AI語音的意義就非常有限了。

因此，ElevenLabs將AI語音作為驅動行為的介面，確實具有戰略意義，也值得大家關注和學習。他們本質上是將語音定義為下一代作業系統的滑鼠、鍵盤和觸控式螢幕。

可以推斷，很快基於AI語音的Agent也將隨之出現。

它們具有理解自然語言的AI大模型大腦，能拆解複雜任務，並能透過MCP等協議自主呼叫各種第三方服務來完成任務，直接給使用者交付結果。

不過最後，我還想指出的是，僅有語音必然是不夠的，因為語音缺乏指向性，而且輸入輸出效率都太低了。

就像在機場，站在滾動大屏面前要對比十幾個航班時，完全透過語音來互動無疑是一場災難，非常低效且難以操作。

此時，如果再加上攝像頭的視覺輸入，AI就可以像人一樣快速瀏覽航班列表，總結出關鍵資訊，並結合語音指令給出最佳答案。

所以，未來更符合人性且更高效的互動形態，將是語音與視覺的融合。語音作為便捷的指令輸入方式，視覺則承擔高效的資訊輸入和反饋功能。

看到這裡，你可能已經想到，集成了攝像頭、耳機和麥克風的AI眼鏡，不就可以即時看到東西並進行對話了嘛。而且，AI眼鏡還能透過使用者的注視時間、頭部動作等獲得額外資訊，從而更準確地理解使用者。

當你戴著AI眼鏡面對滿螢幕的航班資訊，就能透過簡單的語音指令，再結合點頭或搖頭的動作，就能很快跟AI眼鏡進行互動了。

當然，未來隨著AR眼鏡的成熟，眼鏡裡還可以開啟一個小螢幕，實現資訊輸出，能針對我們的語音指令，給我們提供更大量的針對性的即時資訊，結果呈現方式必然更加高效，我們和世界的互動也必然更加精彩。

因此，我們判斷，AI眼鏡很可能會成為未來AI手機的殺手級配件。文章篇幅有限，具體有關AI眼鏡的分析可以掃碼加粉絲群，我們將為你推送以往文章。

以上就是今天的內容，最後做個產品預告，我們的前哨AI少年營開始報名了，9月開始到12月結束，這4個月間，孩子們將親手開發AI動畫、遊戲和小程式，從使用者變身創造者。在AI時代，為他們打造真正的硬實力和自信心！具體介紹見下方海報，歡迎掃碼報名！

王煜全要聞評論，我們明天見。

↓長按圖片掃碼報名，先人一步，領先一路

推薦閱讀：

Meta搶先發布萬元超強智慧眼鏡！但這些AI硬體也真心值得關注！

6大看點，助你讀懂未來！一年一度CES盛會來了！【深度】

蛇年機會解讀，這將是你未來十年裡機會最多的一年！【獨家分析】

↓¥399，掌握王煜全AI產業預測精華（iOS使用者請在電腦端開啟）

此外，我們還為您準備了一個獨家思維導圖，掃描加群即可領取

“AI眼鏡熱潮的冷思考”

相關文章

斬獲全球SOTA，競技場雙榜登頂！這款國產語音模型憑什麼？

斬獲全球SOTA，競技場雙榜登頂！這款國產語音模型憑什麼？

VoiceAgentCamp招募：GPT-4o一週年，我們決定發起一個創業營丨超音速計劃2025

VoiceAgentCamp招募：GPT-4o一週年，我們決定發起一個創業營丨超音速計劃2025

2行程式碼與DeepSeek語音對話，1分鐘不到一毛錢，所有大模型都能開口說話

2行程式碼與DeepSeek語音對話，1分鐘不到一毛錢，所有大模型都能開口說話

智慧體驗：用AI重構使用者全感官互動

智慧體驗：用AI重構使用者全感官互動

騰訊GDC演講：“對話式AI”的遊戲解決方案是什麼？

騰訊GDC演講：“對話式AI”的遊戲解決方案是什麼？

DeepSeek會說話了！只要2行程式碼，這家公司讓任意大模型秒開口

DeepSeek會說話了！只要2行程式碼，這家公司讓任意大模型秒開口

豆包App灰度最新語音模式，實現了GPT-4o不會的唱歌

豆包App灰度最新語音模式，實現了GPT-4o不會的唱歌

連Siri都熬了14年，語音智慧難在哪，AI硬體為什麼突然火了？|對話聲智科技陳孝良

連Siri都熬了14年，語音智慧難在哪，AI硬體為什麼突然火了？|對話聲智科技陳孝良

防不勝防！成年人更容易「AI成癮」，為什麼？！

防不勝防！成年人更容易「AI成癮」，為什麼？！

你給豆包打的這通影片背後，藏著AI即時互動的體驗密碼

你給豆包打的這通影片背後，藏著AI即時互動的體驗密碼

Copyright © 2025 | WordPress Theme by MH Themes