去年 11 月。榮耀為了新機 Magic 7 Pro 的釋出,策劃了一次堪稱行為藝術的事件營銷。時任榮耀 CEO 的趙明現場指揮 AI Agent YOYO 開啟美團,下單了約 2000 杯瑞幸飲料。這一通操作過後,深圳釋出會場地周邊的瑞幸門店紛紛「爆單」,門店咖啡師忙到崩潰,接到訂單的騎手更是在門店排起長隊。這次效果顯著卻略帶荒誕意味的事件營銷,一定程度上讓公眾忽略了榮耀試圖展示的核心技術:「基於 GUI 的個人 AI 智慧體」。時至今日,AI Agent 功能確實已經不新鮮了。而這個技術的關鍵點,在「GUI」這三個字上。GUI 全稱 Graphical User Interface,圖形使用者介面。作為一個基於 GUI 的 AI Agent,YOYO 不再依賴傳統的 API 介面,而是有了一隻虛擬的「手」,直接在代替使用者進行圖形介面操作。整個代行操作不在「後臺」,而是直接在「前臺」,在使用者的眼皮底下即時發生。
需要澄清的是:Magic 7 Pro 市售機型使用者的體驗可能會與釋出會演示存在差異。據財聯社報道,當時現場演示用的測試機許可權更高,能夠自動免密支付和迴圈點單,這才不停地點出了 2000 杯飲料。至少在目前,市售機型需要使用者明確告知點單細節(例如品牌、品名、杯型、溫度等),並且在支付環節需要使用者接管確認。這個細節確實重要,但也不至於抹殺這項技術的存在意義。正相反,我們認為,「基於 GUI」是個很另類,很有趣,頗具試驗性的 AI Agent 實現路徑。AI Agent 互動的「前臺」新路榮耀 YOYO 的核心是多模態模型,GUI 互動的本質是語言+視覺的理解。
這最後一步並不是什麼難事,甚至比前面幾步都簡單得多。但除了此前智譜的 AutoGLM 等極少數之外,確實很少有其它第三方開發者和終端廠商在走 GUI 互動的路徑。在過去,虛擬助理控制軟體和智慧硬體的方式主要是透過 API 呼叫以及物聯網協議。這可以理解為一種純數字 (digital) 的通訊方式。今年一月,谷歌在三星的指定機型上激活了基於 Gemini 2.0 的 AI Agent 功能。這次合作也是透過 API 或類似方式實現的(谷歌稱之為 Gemini 擴充套件),初期僅支援 Gmail、谷歌地圖、三星日曆、三星時鐘等第一方應用,以及 Spotify 等極少量第三方應用。想要做到規模化,擴充支援的應用,需要開發者做一定量的 API 接入工作,同時也需要使用者許可使用 Gemini 擴充套件。
Gemini 控制手機演示 圖源:Google谷歌依賴 API 呼叫後臺介面,而榮耀透過 GUI 模擬前臺操作,二者在實現邏輯上形成了明顯區別。後者的好處,在於可以規避 API 呼叫這一常規方式,繞過了其背後的商業博弈和資料成本,也可以更快、更容易地擴充支援的應用,實現規模化並改善使用者體驗。成本是個關鍵問題。一方面是雲服務費用,因為無論是 API 提供方還是呼叫方都需要執行伺服器來進行操作。另一方面,透過 API 交換的資料也具有價值,因此具有更高資料價值的 API,往往收費也更高。以美團舉例,其訂單服務在內的基礎 API 收費標準為每百次呼叫 0.15 元(前百萬次免費)。這還只是基礎類 API,如果涉及價值更高的管理類 API,呼叫收費提高到每百次 0.3 元,且無免費額度。另外,API 的使用也暗含著一些隱性的商業競爭要素。呼叫方獲得了資料,同時也在向提供方傳送資料,而不排除在特定條件下,雙方都不希望肥水流向外人田。而在基於 GUI 的方案下,至少就目前的演示效果來看,榮耀既不需要向美團支付 API 費用,雙方也無需擔心資料的歸屬,包括與之關聯的隱私安全等問題。AI Agent 只是在「模仿人類」點選螢幕,多麼原始卻有效的互動方式。迴歸模擬,返璞歸真這種「返祖」式技術路徑,讓人聯想到谷歌在 2018 年推出的 AI 電話助手 Duplex。Duplex 的思路在當時同樣有點腦洞清奇:谷歌合成了一個 AI 語音,替使用者給餐館打電話訂位。這個 AI 語音聽起來並不生硬,甚至能夠模模擬人的口音、語速、語調,以及加入「嗯」、「you know」 之類的填充詞。
Duplex 技術演示 圖源:Google今時今日,AI 生成語音已經徹底「汙染」了電銷和客服行業,讓人感到厭煩。但至少在當時,用頂尖的 NLP 和語音合成技術,透過「打電話」這種模擬人類的方式訂餐,這種另類的,從數字到模擬 (analog) 的互動方式,確實令人耳目一新。目前榮耀正在推進的基於 GUI 的 AI Agent,在我看來同樣屬於一種從數字到模擬的實現方式,用原始與先進相結合的思路,帶來了全新的可能性。基於 GUI 不一定是實現手機 AI Agent 的最佳路徑,但不可否認它確實很有趣,甚至有點「硬來」的意思。對於使用者來說,使喚這樣的 AI Agent 沒有學習成本,不需要研究提示語法;而對於第三方應用和服務平臺來說,也幾乎不需要額外的開發成本就可以接入。甚至反過來看,它們也無法拒絕被「接入」,因為壓根就沒有發生真正意義上的「接入」行為。至少以 Android 目前的沙箱機制來看,應用層不太能夠「抵抗」系統底層的行為。基於 GUI 的 AI Agent,既是一種對傳統人機互動的致敬,也為 AI Agent 的落地和體驗提升,提供了一種降低門檻、提高相容性的路徑。有時候,最趁手的工具,真就只是一根乾淨簡潔的大棒。
大模型與人機互動結合,「笨」AI 也有未來在今天使用者的主要需求場景上,有兩種 AI Agent。一種是高智商型,能夠解答覆雜問題,完成困難的工作,比如 DeepSeek、Claude、以及前幾天大熱門的 Manus。這也是現在最流行最受關注的 AI Agent/Chatbot種類。但我們同樣需要另一種懂事能幹的 AI Agent,它對使用者的使用技巧沒有很高的門檻,使用者只要輸入一兩句簡單直白的命令,它就能理解,並且把各種並不複雜的事給辦好。今天可以點外賣,將來它還能夠幫你掛機放置類遊戲,給指定好友的朋友圈點贊,甚至自動把剛拍下的一張照片修改一下發到社交網路。只要是使用者能做的,基於 GUI 的 AI agent 一樣能做。門檻低,上限高,適應性強,用起來更順手,可能是這一類 AI Agent 的主要特色。這類選手不需要成為理解世界的大學者,只當好執行任務的工具人就足矣。2013 年的電影《雲端情人》(Her),曾經賦予人們展開無限的遐想。當時也正值 NLP 技術大爆發,許多優秀的語音場景產品和技術湧現出來。一些研究者和從業者篤信,自然語言對話將會成為 AI 交流的最主流方式。然而去年曇花一現的硬體產品 AI Pin,以及開發它的 Humane 公司越走越黑的路,不禁令人懷疑《雲端情人》設想的烏托邦是否那般美好,語音究竟是不是 Chatbot/Agent的終極答案。
Humane AI Pin 圖源:Humane進入觸屏時代,互動的門檻顯著降低,以至於幼兒也能輕鬆地掌握。按照 AI 開發者們經常採用的比喻,大模型們的「智力」也恰如兒童。那麼讓 AI 透過觸屏介面學習人類行為,聽上去上還是很有希望的。畢竟,你的伴侶不一定需要一首 AI 寫的詩,卻可能需要你按爛螢幕去搶一張周杰倫的演唱會門票。前幾天 Manus 刷屏,再次佐證了我們曾做出的一個預測:大模型將成為智慧手機新的作業系統,自然使用者介面 (Natural user interface, NUI) 將逐步替代現有的 GUI。至少在目前看來,歷經半個世紀發展的 GUI 仍會是人機互動的絕對主流。不過,大模型與 UI 結合,對人機互動進行一次前所未有的重新定義,甚至成為新的作業系統 —— 這樣的未來,的確越來越清晰了。