當做應用成為共識，大模型公司拿出了更多彈藥｜亮馬橋小紀嚴選

小紀有話說：

最近的AI行業，就像是對明年AI應用領域的激烈競爭進行了一波預演。

OpenAI連續12個工作日的直播繼續進行，完全版的o1，跳票很久的Sora和GPT-4o的高階語音模式，最新的ChatGPT Projects功能紛紛上線，其中還夾雜著一些關於AGI的符號性植入，彷彿在暗示這場馬拉松式新品釋出的壓軸大戲會與AGI密切相關。

Google也選擇在近期釋出了自己的最新大模型Gemini 2.0，不但可以進行多模態的內容輸入和輸出，還支援對Google搜尋、程式碼執行等工具的使用。同時釋出的智慧體Project Mariner，實現了此前Google嘗試研發的代替使用者在瀏覽器內執行任務的功能。

此外，階躍星辰釋出了Step-1o千億引數端到端語音大模型，支援語音、文字等混合形式的輸入和輸出，可以實現語音理解和生成的一體化。Midjourney推出了Patchwork，幫助使用者構建更加清晰的故事，並支援與他人進行協作。人們也可以每月支付500美元，僱傭Devin完成從網站到應用程式的構建與部署。

與去年這時候各家大模型廠商重點比拼引數和基礎效能相比，今年的廠商們迫切地想要讓使用者把大模型用起來。

多模態能力、操作介面和代理執行是這一輪發布的三個重點方向。OpenAI和Google都在這三個方向上推銷著自己的技術能力，同時，國內的豆包、智譜、Kimi、通義等大模型也在朝著這些方向努力。

大模型轉向應用背後，技術路線也在發生調整。前OpenAI聯合創始人Ilya Sutskever近期在神經資訊處理系統會議（NeurIPS）上發言指出，儘管存量資料仍能進一步推動人工智慧的發展，但網際網路上的資料和石油一樣是有限的，行業正在放棄使用新資料進行大模型的預訓練，這將迫使人們改變今天訓練大模型的方式。

Google在Gemini 2.0釋出會上透露的資訊顯示，其在大模型技術發展上正在嘗試兩條腿走路：一方面，繼續擴大模型規模，提升基礎效能；另一方面，加強後期訓練最佳化和推理技術的改進，尤其關注多模態能力的提升，希望讓AI能更好地理解和處理各類資訊。

當知識性或事實性資料一時間難以大規模產生，實現「推理—應用」的閉環，能為大模型的能力進化提供一個基於應用資料的穩定訓練環境，繼續能力提升的嘗試。當然，這需要大模型的能力滲透進更多應用場景中，被更大規模的使用者更頻繁地使用。

OpenAI們正在為AI應用的普及提供更多彈藥。

本文經授權轉載自公眾號「窄播」

作者 | 李威（北京）

多模態帶來更擬人的硬體

OpenAI和Google的釋出內容中，多模態都是一個重要的組成部分。即便不從AGI的角度去理解，一個具備看、聽、說等多種感知能力的大模型，也能被看作具備了更接近人的自然互動習慣的能力，就像人形機器人被認為是能夠最大程度適應人類社會的工作環境一樣。

o1大模型引入多模態處理能力的同時，OpenAI終於釋出了GPT-4o的高階語音模式。在這個模式下，一場更順暢自然的人機互動成為了現實。在高階語音模式下，四位OpenAI的工作人員流暢地與AI交談，AI能夠透過攝像頭分辨出他們中誰戴著聖誕帽，並一邊「看」，一邊指導其中一位員工做手衝咖啡。

ChatGPT指導製作手衝咖啡

Google釋出的Gemini 2.0也增強了其智慧體Project Astra的多模態互動能力。Google在今年5月舉辦的I/O大會上推出了Project Astra，它能夠藉助手機攝像頭觀察理解現實環境，解答使用者的相關問題。這次升級之後，Project Astra可以在多種語言之間進行自然對話，並擁有圖形記憶能力和對話記憶能力。

其中，圖形記憶能力可以讓其記住最近10分鐘內看到的影像，對話記憶能力則可以儲存和呼叫60段歷史對話。在一個演示中，一名Google員工讓Project Astra看到一輛駛過的公交車，並向它詢問這輛公交車能否帶自己去往唐人街附近。當然也有展示Project Astra對不同口音和生僻詞彙的理解能力。

當我們看到這些能力演示的時候，一定能夠想到如果智慧眼鏡上有了這種能力，是否會帶來更棒的使用體驗？

如果說多模態大模型最終指向的是一個類人的、無處不在的精明助理，那AI硬體一定會是它的核心載體。大模型多模態能力的提升，有可能會讓擁有看、聽、說能力的智慧眼鏡站上更大的風口。

作為AI硬體的主要品類，我們在國內已經看到了眾多智慧眼鏡產品的誕生，包括百度推出了小度AI眼鏡，Rokid與BOLON推出了Rokid glasses，李未可的Meta Lens Chat，蜂巢科技的界環AI音訊眼鏡，以及被認為會做智慧眼鏡的位元組、小米、華為等大廠。

雖然不清楚OpenAI的想法，但從Ray-Ban Meta已經搭載AI能力，和Google的一些表態上，可以看到大模型與AI硬體更深度融合的時間點正在到來。Google的工作人員表示，「一小部分人將透過原型眼鏡測試 Project Astra，我們認為這是體驗此類AI最強大、最直觀的方式之一。」

在國內，大模型與硬體的結合也已經成為一門顯學。致力於端側AI發展的面壁智慧在近期完成了新一輪數億元融資，其CEO李大海在內部信中表示：「因為端側智慧發展的深刻影響，主流消費電子和新興硬體正演變成一個個在不同場景、執行特定任務的超級智慧體，成為新一輪科技創業大風口。」

執行能力提升催化智慧體

執行能力的提升則是這一波大模型產品能力提升的另一個方向。大模型嚮應用方向進行拓展，必然需要具備打通不同場景、終端和應用的執行能力。而智慧體則是目前公認的能夠實現這種打通的理想載體。

在最近的大模型產品釋出中，我們明顯能夠感覺到，OpenAI和Google正在給智慧體生態打造更多建設工具。

OpenAI在GPT-4o的高階語音模式中展示了一項螢幕共享能力。在開啟螢幕共享之後，ChatGPT能夠瀏覽使用者的簡訊，並給出回覆建議。這很難不讓人聯想到智譜和Anthropic推出的AutoGLM和computer use能力。觀看和理解螢幕上顯示的內容，是讓大模型學會操作App的基礎。

ChatGPT瀏覽簡訊

也是近期，ChatGPT正式接入到蘋果的系統中。特定英語地區的蘋果使用者已經可以在iPhone、iPad和Mac上直接體驗ChatGPT的功能。這是一種混合方案，當Siri覺得使用者提出的問題更適合讓ChatGPT來回答時，系統會請求使用者同意訪問OpenAI服務。未來，OpenAI未嘗不會與Apple Intelligence做更深度的融合。

Google則直接將Gemini 2.0定義成一個面向智慧體時代的AI模型，其多模態能力和呼叫工具的能力都能夠支撐構建AI智慧體。在Google展示的一些智慧體中，有的可以根據螢幕上的畫面，即時分析遊戲情況，並向用戶提出操作建議，還有的能進行深度研究和論文撰寫。

Project Mariner也是基於Gemini 2.0的能力實現的。這也是之前大家所傳的與AutoGLM和computer use類似的產品。在Google的介紹中，這個產品能理解網頁上的複雜資訊，並呼叫Chrome瀏覽器的擴充套件程式，幫助使用者完成複雜任務。與AutoGLM和computer use一樣，該產品也能幫助使用者執行鍵入、單擊等動作。

OpenAI與Google之外，亞馬遜也在近期宣佈建立了自己的Amazon AGI SF Lab。據介紹，這個實驗室由AI初創公司Adept聯合創始人David Luan領導，其核心目標直指打造能在數字和物理世界中「採取行動」的AI智慧體，並能處理跨越計算機、網路瀏覽器和程式碼直譯器的複雜工作流程。

很明顯，對於大模型廠商來說，明年的大模型產品一定會在標配多模態能力的基礎上，讓自己擁有更多可影響物理世界的執行能力。而這些執行能力的推出，一方面會繼續帶動手機、PC、汽車等傳統硬體領域的AI化探索，另一方面，也有可能讓更多大廠和開發者找到新的思路，對原有產品的體驗進行自動化的區域性改造和升級探索。

AI原生的操作介面正在誕生

近期大模型產品釋出的第三個變化是AI原生的操作介面正在初露端倪。特別是在OpenAI已經進行的釋出中，Sora和Canvas兩天的釋出給人印象最深刻的都是對AI原生操作介面的探索。一定會有人從中得到啟發，去思考應該用一種什麼樣的操作介面，來實現原有體驗的AI化。

這會是未來一段時間內的探索方向。就像智慧手機出現之後，遊戲廠商如何去探索一個更適合觸控式螢幕互動的操作介面一樣，在大模型越來越深度地介入應用場景之後，需要有一個圍繞自然語言搭建的操作介面。我們目前看到的在生成影片時進行的引數選擇，並不是面向未來的操作介面。

對話視窗可能是一種形態，但不足以支撐多元的資訊形態。這也是為什麼，OpenAI會推出Canvas作為對話視窗的補充。Canvas事實上提供了一個人與AI交流的「桌面」，大家在聊天的同時，可以把自己手頭的文字、影片、資料放在桌面上，一同觀看和處理。

Canvas介面

OpenAI在11月推出的ChatGPT桌面應用能夠在Mac上實現與第三方應用的協作，將第三方應用中的內容引入到使用者與ChatGPT的對話中。有科技博主利用這個功能，讓ChatGPT「看」到了Terminal中開啟的字幕檔案，並生成了能夠將其轉換為純文字檔案的命令。

這種協作，形象點說，就是在將Terminal等軟體中的資料、資訊擺放到桌面上，讓AI也能看到。然後AI能夠根據自己看到的200行資訊，更精準地理解使用者在對話中表述的意圖。當然，Canvas的預覽功能，也是對這種桌面能力的補充，相當於把一個木製的桌面，變成了一個智慧的顯示屏。

OpenAI在第七天釋出的Projects功能，則是為桌面打造的檔案櫃，可以將同一個專案的聊天記錄、檔案和自定義指令集中在一起，實現更精細化的資料管理。Projects讓使用者能夠更輕鬆在ChatGPT上打造自己的工作臺。甚至，這個Projects未來可能會整合更多人和智慧體，成為一個協作空間。

Storyboard

同理，儘管大家對Sora的影片生成能力褒貶不一，但對Sora展示出的AI影片操作介面都給出了比較高的評價。Sora既提供了一些模版化的工具外掛，比如可以替換影片元素的Remix工具，可以拓展最佳幀的Re-cut工具，可以生成重複影片的Loop工具；又推出了Storyboard，一個擁有時間軸的影片編輯工具。

未來一年我們應該能看到更多類似的AI原生操作介面的嘗試。這是一種從AI生成能力向AI創作能力延伸的必然。從更大的視角來看，大模型也到了讓更多場景、更多行業、更多人感知到和使用起來的階段了。只有這樣，才能維持住大家對大模型的信心，讓大模型發揮應有的價值，抵消一部分質疑的聲音。

‍‍‍‍‍‍‍‍‍

*頭圖及封面圖來源於AI。

溫馨提示：雖然我們每天都有推送，但最近有讀者表示因平臺推送規則調整，有時候看不到我們的文章~

歡迎大家進入公眾號頁面，右上角點選“設為星標”點亮⭐️，收藏我們的公眾號，新鮮內容第一時間奉上！

*文章觀點僅供參考，不代表本機構立場