谷歌丟擲王炸殺手鐧，先人一步開啟Agent新時代。

整理丨允毅

編輯丨馬曉寧

Open AI連續幾天上新，谷歌也不甘示弱。

今天谷歌深夜炸群，重磅釋出了殺手鐧——Gemini2.0，聲稱“Gemini2.0 是我們迄今為止最新、功能最強大的 AI 模型。”

其最大的亮點是Gemini2.0 是第一家實現原生多模態輸入輸出的模型。

基於強大的新模型，谷歌又推出了三個AI agent產品，通用大模型助手Project Astra、瀏覽器助手Project Mariner、程式設計助手Jules，這一套“組合拳”下來，標誌著谷歌AI已經初步做到了向“Agent”時代的轉變。

谷歌DeepMind的CEO德米斯·哈薩比斯（Demis Hassabis）對此表示非常滿意，因為Gemini 2.0 實際上達到了目前 Gemini 1.5 Pro 的水平。這意味著在保持相同成本效率、效能效率和速度的情況下，整體效能要整整提升一個檔次。

Gemini2.0，第一個實現原生多模態輸入輸出的模型

在Gemini2.0釋出前，谷歌釋出的一款名為Gemini-exp-1206的模型已經火爆全網。該模型能夠處理 200 萬個標記（相當於一個多小時的影片），擅長處理大型複雜資料集。因為高超的效能，它在 Livebench 上排名第二，超過了Claude 3.5 Sonnet，直逼Open o1-preview。

許多人猜測這可能就是Gemini2.0。

當Gemini2.0的實力真正揭開帷幕，比想象中還令人震撼。首先效能上全面升級。在速度方面，2.0 的速度是 1.5 Pro 的兩倍，這一速度提升意味著使用者將享受到更高效的處理能力和更快的響應時間。

在效能方面，Gemini2.0可以支援圖片、影片和音訊等多模態輸入與輸出。可以直接生成影像與文字混合的內容，以及原生生成可控的多語言文字轉語音(TTS)音訊。它還可以原生呼叫Google Search、程式碼執行以及第三方使用者定義的函式等工具。

基於Gemini2.0架構之上，谷歌推出了三個新的AI智慧體原型：通用大模型助手Project Astra、瀏覽器助手Project Mariner、程式設計助手Jules。

谷歌送上Agent大禮包

Agent是指無需人工干預或監督即可自主執行任務的人工智慧技術。它們允許使用者將任務委託給人工智慧，從而大大最佳化人類的工作流程，組建一支隨時待命的助手團隊，幾乎無需監督。

谷歌在2024年的末尾，送上了Agent大禮包。

Project Astra：通用大模型助手

Project Astra是谷歌最初在5月的I/O大會上首次對外發布的AI助手，對標OpenAI的GPT-4o，其主要功能包括即時語音和視覺處理，能夠透過手機或谷歌眼鏡進行跨文字、音訊、影片的多模態即時推理。

Astra產品經理Bibo Xu將認為Project Astra在整合一些當今最強大的資訊檢索系統。

此次，Project Astra全面升級了四個效能：更好的對話，能呼叫新工具，更強的記憶，更低的延遲。

更好的對話： Project Astra具備多語言對話能力，能夠更好理解不同口音和不常見詞彙。

呼叫新工具：藉助 Gemini 2.0，Project Astra 可以使用 Google 搜尋、鏡頭和地圖，使其作為您日常生活中的助手更加有用。

更強的記憶：Project Astra擁有長達 10 分鐘的會話記憶，能記住更多使用者與其過去的對話，從而提供個性化的服務。

更低的延遲：透過對新的流媒體功能和本機音訊理解，Project Astra 可以以與人類正常對話的速度來作出反饋。

Google 和 Alphabet 執行長桑達爾·皮查伊（Sundar Pichai）對這一產品尤為自豪，稱它為“展示了通用AI助手的曙光”。而谷歌方面正打算將這些功能引入 Google 產品，如Gemini應用、 AI 助手，眼鏡等。

Project Mariner：瀏覽器助手

Project Mariner是一個使用 Gemini 2.0 構建的早期研究原型，旨在從瀏覽器開始探索人機互動的未來。作為研究原型，它能夠理解和推理瀏覽器螢幕上的資訊，包括畫素和文字、程式碼、影像和表單等網路元素，然後透過實驗性的 Chrome 擴充套件程式使用這些資訊完成任務。

簡而言之，就是用AI來幫助人類操作電腦，透過控制使用者的Chrome 瀏覽器、移動螢幕上的游標、點選按鈕和填寫表格，Project Mariner 可以登入雜貨店網站購物，還可以查詢航班和酒店、購買家居用品、查詢食譜等。

根據WebVoyager 基準進行評估，該基準測試代理在端到端真實世界網路任務上的效能，Project Mariner作為單一代理設定實現了 83.5% 的最佳工作結果。

不過從安全性考慮，這一切都在使用者監督允許的範圍內，許多敏感操作會要求使用者進行最終確認。

某谷歌高管稱Project Mariner是“全新使用者體驗正規化轉變”的一部分。

Jules：程式設計助手

Jules簡而言之，就是AI幫你寫程式碼。它直接整合到 GitHub 工作流程中，檢視使用者已有的程式碼，並直接在 GitHub 中進行更改，解決開發者頭疼的改bug環節，而這一切也都在使用者的監督之下，保證安全的同時節省時間，方便使用者專注於做自己實際想構建的內容。

Gemini2.0的全面還包括在遊戲、學術研究、機器人領域做的嘗試。

谷歌正在與Supercell等遊戲開發商合作，探索智慧體在遊戲中的應用。谷歌推出的AI遊戲助手可以理解遊戲規則和程序，能夠透過使用者遊戲螢幕上的動作來給出下一步操作建議。谷歌展示了從《部落衝突》等策略遊戲到《Hay Day》等農場模擬器遊戲中，AI如何透過對話的形式為玩家提供建議。

谷歌推出的Deep Research，如同學術研究助手，透過高階推理和長上下文能力，可以直接出論文。

谷歌還想將 Gemini 2.0 的空間推理能力應用於機器人身上，幫助機器人更加智慧化。

Gemini2.0在音訊和影像生成方面展現了強大實力，系統可以生成和修改影像，處理照片和影片，回答相關問題，用不同口音和語言的聲音朗讀文字。為了防止濫用，谷歌使用SynthID技術對所有生成的音訊和影像進行水印標記。谷歌還推出了多模態即時API，幫助開發者構建具有即時音訊和影片流功能的應用程式。這個API支援來自攝像頭或螢幕的音訊和影片輸入，能夠處理自然對話模式。

Gemini2.0的強大基於谷歌定製的硬體第六代TPUTrillium構建而成。Trillium與前代產品相比全面升級，如訓練效能提高超過 4 倍，推理吞吐量提高3 倍，每個晶片的峰值計算效能提高了 4.7 倍，效提高67%，每顆晶片峰值計算效能提高4.7倍，HBM容量翻倍，單個Jupiter網路有10萬顆TPU，高至2.5倍的每美元訓練效能，1.4倍的每美元推理效能。

目前人們可以透過PC端優先體驗2.0Flash 實驗版，而Gemini2,0移動版將很快呈現。明年1月谷歌會推出Gemini 2.0 Flash 多模式版本，屆時還將推出更多 Gemini 2.0 模型尺寸。

而作為提供給開發者的體驗版模型，Gemini 2.0 Flash 現在可以透過Google AI Studio和Vertex AI中的Gemini API獲取，所有開發者均可使用多模態輸入和文字輸出。

谷歌開啟Agent時代

谷歌正在瘋狂將AI融入它所擁有的所有產品中。

Google 和 Alphabet 執行長桑達·皮採（Sundar Pichai）對這款產品寄予厚望，他說如果 Gemini 1.0 是關於組織和理解資訊的，那麼 Gemini 2.0 就是為了讓資訊更加有用。其中重要的區別就是“Agent”，這是人工智慧時代下一個大方向。

在桑達爾·皮查伊（Sundar Pichai）描述中，“Agent可以更好地瞭解你周圍的世界，提前思考多個步驟，並在你的監督下代表你採取行動”。谷歌這次秀肌肉，完整呈現了系統級 Copilot 和智慧體應用，展現了Agent可以為人們生活帶來的全方位改變。

谷歌表示他們的AI Overviews已服務超過10億使用者，幫助使用者提問全新的問題型別，成為谷歌搜尋引擎最受歡迎的功能之一。他們準備把Gemini 2.0的先進推理能力引入AI Overviews，處理更復雜的主題和多步驟問題，包括高階數學公式、多模態查詢和程式設計，探索更多功能引入產品本身。谷歌的願景是在2025年開啟真正的“AI智慧體時代”。

據彭博社報道，OpenAI 正準備釋出一款能夠控制計算機並獨立執行任務的自主 AI 代理，代號為“Operator”，計劃於 1 月份將其作為研究預覽版和開發工具首次亮相。

2025年是Agent時代的真正開始，到時又會有怎樣的廝殺呢，我們拭目以待。

更多內容，點選下方關注：