小紀有話說:
本文經授權轉載自公眾號「窄播」
作者 | 李威(北京)

OpenAI和Google的釋出內容中,多模態都是一個重要的組成部分。即便不從AGI的角度去理解,一個具備看、聽、說等多種感知能力的大模型,也能被看作具備了更接近人的自然互動習慣的能力,就像人形機器人被認為是能夠最大程度適應人類社會的工作環境一樣。
o1大模型引入多模態處理能力的同時,OpenAI終於釋出了GPT-4o的高階語音模式。在這個模式下,一場更順暢自然的人機互動成為了現實。在高階語音模式下,四位OpenAI的工作人員流暢地與AI交談,AI能夠透過攝像頭分辨出他們中誰戴著聖誕帽,並一邊「看」,一邊指導其中一位員工做手衝咖啡。

ChatGPT指導製作手衝咖啡
Google釋出的Gemini 2.0也增強了其智慧體Project Astra的多模態互動能力。Google在今年5月舉辦的I/O大會上推出了Project Astra,它能夠藉助手機攝像頭觀察理解現實環境,解答使用者的相關問題。這次升級之後,Project Astra可以在多種語言之間進行自然對話,並擁有圖形記憶能力和對話記憶能力。
其中,圖形記憶能力可以讓其記住最近10分鐘內看到的影像,對話記憶能力則可以儲存和呼叫60段歷史對話。在一個演示中,一名Google員工讓Project Astra看到一輛駛過的公交車,並向它詢問這輛公交車能否帶自己去往唐人街附近。當然也有展示Project Astra對不同口音和生僻詞彙的理解能力。
當我們看到這些能力演示的時候,一定能夠想到如果智慧眼鏡上有了這種能力,是否會帶來更棒的使用體驗?
如果說多模態大模型最終指向的是一個類人的、無處不在的精明助理,那AI硬體一定會是它的核心載體。大模型多模態能力的提升,有可能會讓擁有看、聽、說能力的智慧眼鏡站上更大的風口。
作為AI硬體的主要品類,我們在國內已經看到了眾多智慧眼鏡產品的誕生,包括百度推出了小度AI眼鏡,Rokid與BOLON推出了Rokid glasses,李未可的Meta Lens Chat,蜂巢科技的界環AI音訊眼鏡,以及被認為會做智慧眼鏡的位元組、小米、華為等大廠。

雖然不清楚OpenAI的想法,但從Ray-Ban Meta已經搭載AI能力,和Google的一些表態上,可以看到大模型與AI硬體更深度融合的時間點正在到來。Google的工作人員表示,「一小部分人將透過原型眼鏡測試 Project Astra,我們認為這是體驗此類AI最強大、最直觀的方式之一。」
在國內,大模型與硬體的結合也已經成為一門顯學。致力於端側AI發展的面壁智慧在近期完成了新一輪數億元融資,其CEO李大海在內部信中表示:「因為端側智慧發展的深刻影響,主流消費電子和新興硬體正演變成一個個在不同場景、執行特定任務的超級智慧體,成為新一輪科技創業大風口。」

執行能力的提升則是這一波大模型產品能力提升的另一個方向。大模型嚮應用方向進行拓展,必然需要具備打通不同場景、終端和應用的執行能力。而智慧體則是目前公認的能夠實現這種打通的理想載體。
在最近的大模型產品釋出中,我們明顯能夠感覺到,OpenAI和Google正在給智慧體生態打造更多建設工具。
OpenAI在GPT-4o的高階語音模式中展示了一項螢幕共享能力。在開啟螢幕共享之後,ChatGPT能夠瀏覽使用者的簡訊,並給出回覆建議。這很難不讓人聯想到智譜和Anthropic推出的AutoGLM和computer use能力。觀看和理解螢幕上顯示的內容,是讓大模型學會操作App的基礎。

ChatGPT瀏覽簡訊
也是近期,ChatGPT正式接入到蘋果的系統中。特定英語地區的蘋果使用者已經可以在iPhone、iPad和Mac上直接體驗ChatGPT的功能。這是一種混合方案,當Siri覺得使用者提出的問題更適合讓ChatGPT來回答時,系統會請求使用者同意訪問OpenAI服務。未來,OpenAI未嘗不會與Apple Intelligence做更深度的融合。
Google則直接將Gemini 2.0定義成一個面向智慧體時代的AI模型,其多模態能力和呼叫工具的能力都能夠支撐構建AI智慧體。在Google展示的一些智慧體中,有的可以根據螢幕上的畫面,即時分析遊戲情況,並向用戶提出操作建議,還有的能進行深度研究和論文撰寫。
Project Mariner也是基於Gemini 2.0的能力實現的。這也是之前大家所傳的與AutoGLM和computer use類似的產品。在Google的介紹中,這個產品能理解網頁上的複雜資訊,並呼叫Chrome瀏覽器的擴充套件程式,幫助使用者完成複雜任務。與AutoGLM和computer use一樣,該產品也能幫助使用者執行鍵入、單擊等動作。
OpenAI與Google之外,亞馬遜也在近期宣佈建立了自己的Amazon AGI SF Lab。據介紹,這個實驗室由AI初創公司Adept聯合創始人David Luan領導,其核心目標直指打造能在數字和物理世界中「採取行動」的AI智慧體,並能處理跨越計算機、網路瀏覽器和程式碼直譯器的複雜工作流程。
很明顯,對於大模型廠商來說,明年的大模型產品一定會在標配多模態能力的基礎上,讓自己擁有更多可影響物理世界的執行能力。而這些執行能力的推出,一方面會繼續帶動手機、PC、汽車等傳統硬體領域的AI化探索,另一方面,也有可能讓更多大廠和開發者找到新的思路,對原有產品的體驗進行自動化的區域性改造和升級探索。

AI原生的操作介面正在誕生
近期大模型產品釋出的第三個變化是AI原生的操作介面正在初露端倪。特別是在OpenAI已經進行的釋出中,Sora和Canvas兩天的釋出給人印象最深刻的都是對AI原生操作介面的探索。一定會有人從中得到啟發,去思考應該用一種什麼樣的操作介面,來實現原有體驗的AI化。
這會是未來一段時間內的探索方向。就像智慧手機出現之後,遊戲廠商如何去探索一個更適合觸控式螢幕互動的操作介面一樣,在大模型越來越深度地介入應用場景之後,需要有一個圍繞自然語言搭建的操作介面。我們目前看到的在生成影片時進行的引數選擇,並不是面向未來的操作介面。
對話視窗可能是一種形態,但不足以支撐多元的資訊形態。這也是為什麼,OpenAI會推出Canvas作為對話視窗的補充。Canvas事實上提供了一個人與AI交流的「桌面」,大家在聊天的同時,可以把自己手頭的文字、影片、資料放在桌面上,一同觀看和處理。

Canvas介面
OpenAI在11月推出的ChatGPT桌面應用能夠在Mac上實現與第三方應用的協作,將第三方應用中的內容引入到使用者與ChatGPT的對話中。有科技博主利用這個功能,讓ChatGPT「看」到了Terminal中開啟的字幕檔案,並生成了能夠將其轉換為純文字檔案的命令。
這種協作,形象點說,就是在將Terminal等軟體中的資料、資訊擺放到桌面上,讓AI也能看到。然後AI能夠根據自己看到的200行資訊,更精準地理解使用者在對話中表述的意圖。當然,Canvas的預覽功能,也是對這種桌面能力的補充,相當於把一個木製的桌面,變成了一個智慧的顯示屏。
OpenAI在第七天釋出的Projects功能,則是為桌面打造的檔案櫃,可以將同一個專案的聊天記錄、檔案和自定義指令集中在一起,實現更精細化的資料管理。Projects讓使用者能夠更輕鬆在ChatGPT上打造自己的工作臺。甚至,這個Projects未來可能會整合更多人和智慧體,成為一個協作空間。

Storyboard
同理,儘管大家對Sora的影片生成能力褒貶不一,但對Sora展示出的AI影片操作介面都給出了比較高的評價。Sora既提供了一些模版化的工具外掛,比如可以替換影片元素的Remix工具,可以拓展最佳幀的Re-cut工具,可以生成重複影片的Loop工具;又推出了Storyboard,一個擁有時間軸的影片編輯工具。
未來一年我們應該能看到更多類似的AI原生操作介面的嘗試。這是一種從AI生成能力向AI創作能力延伸的必然。從更大的視角來看,大模型也到了讓更多場景、更多行業、更多人感知到和使用起來的階段了。只有這樣,才能維持住大家對大模型的信心,讓大模型發揮應有的價值,抵消一部分質疑的聲音。

