谷歌I/O超全總結：AI搜尋大變樣，AR眼鏡復活，大模型全家桶升級，史上最貴訂閱費1800元

谷歌升級全系模型，秀出通用AI助手終極形態。

作者 | 程茜陳駿達

作者 | 心緣

智東西5月21日報道，今日凌晨，在一年一度的谷歌I/O開發者大會上，谷歌的AI大戲連番上演！

時長不到2小時的主題演講上，谷歌CEO桑達爾·皮查伊攜一眾谷歌高管總共提到95次“Gemini”、92次“AI”。

模型升級方面：Gemini 2.5 Pro新支援原生音訊輸出、Project Mariner的計算機使用功能、深度思考、高安全防護；影片模型Veo 2新增原生音訊生成功能、Gemini 2.5 Flash在推理、程式設計和長上下文等關鍵指標上升級。全新發布模型包括：擴散語言模型Gemini Diffusion、影片生成模型Veo 3、影像生成模型Imagen 4。

谷歌還推出全新Gemini訂閱計劃：AI Pro使用者月付19.99美元（摺合人民幣約144元），可使用Veo 2、Gemini 2.5 Pro等入門級產品；AI Ultra使用者月付249.99美元（摺合人民幣約1804元），可擁有Veo 3的無限訪問許可權、使用Gemini 2.5 Pro深度思考模式等。

這都指向一個目標：構建通用AI助手。谷歌DeepMind創始人兼CEO戴密斯·哈薩比斯（Demis Hassabis）稱，他們將Gemini打造成一個世界模型，是開發一種新型、更通用、更有用AI助手的關鍵一步。

谷歌展示了其通用AI助手的最新研究原型。在腳踏車維修場景中，Gemini可以幫助使用者查詢維修手冊、滾動到特定頁面、搜尋影片教程、主動提供實用資訊，還可以撥打電話，查詢零件庫存情況，並幫助使用者下單。

其餘更新包括顛覆使用者搜尋體驗的AI Mode：根據使用者需求動態調整包含圖表、店鋪列表等的答案生成介面，在購物場景，AI Mode可根據使用者購買意圖定製購物介面，提供虛擬試穿、追蹤使用者預期價位、代理結賬功能，其還集成了視覺搜尋，使用者可以透過手機攝像頭即時搜尋提問。AI Mode現已面向所有美國使用者推出。

同時，谷歌此前三大研究專案獲得重大進展：Project Starline引入全新3D影片通訊體驗、Project Astra能利用Gemini和攝像頭來解決問題、Project Marina支援多工處理。

大會尾聲，谷歌還現場演示了重量級安卓XR智慧眼鏡。

翻譯能力是這款眼鏡的亮點之一，不過測試時，可以明顯感覺到工作人員減慢了語速，谷歌安卓XR智慧眼鏡僅正確翻譯了對話中的前半部分，之後出現了無法識別的問題。

據XREAL新聞稿披露，谷歌將與XREAL合作打造第二款安卓XR裝置Project Aura。

皮查伊透露，Gemini應用目前已經擁有超過4億月活使用者，超過700萬名開發者透過Gemini API進行開發。

谷歌今天放出的諸多AI大招，智東西帶你一文看盡。

01.

Gemini系列模型屠榜

谷歌產品每月處理token數一年增長50倍

Gemini時代，谷歌的模型和產品釋出速度都比以往更快。上屆I/O大會至今，谷歌已經宣佈10餘款模型重大突破、20餘款重大AI產品。

自第一代Gemini模型釋出以來，Gemini模型的Elo分數已提升300多分。程式設計方面，Gemini 2.5 Pro成為程式設計平臺Cursor上年度增長最快的模型，每分鐘產出數十萬行被採納的程式碼。

在LMArena排行榜中，Gemini系列模型包攬了每秒生成輸出token數最高的前三名，並且模型價格也在下降。

全棧基礎設施方面，谷歌第七代TPU Ironwood是首款專為大規模AI思考和推理工作負載而設計的TPU，其效能是上一代的10倍，每個Pod的計算能力達到42.5 exaFLOPS。

皮查伊提到谷歌大模型相關的幾組資料：

去年同期谷歌每月透過產品和API處理的token數量為9.7萬億，目前其每月處理的token數達到480萬億，一年內增長了約50倍；

超過700萬名開發者透過Gemini API進行開發，涵蓋谷歌AI Studio和Vertex AI兩大平臺，同比增長超過五倍，同時Vertex AI平臺上的Gemini使用率較去年增長40倍；

Gemini應用目前擁有超過4億月活使用者，在Gemini應用中使用2.5 Pro版本的使用者使用量增長了45%；

在搜尋方面，AI概覽功能的每月使用者超15億。皮查伊認為AI Mode是搜尋領域的下一個重大進展，我們正處在AI平臺轉型的新階段。

皮查伊還提到，Gemini已經通關精靈寶可夢，集齊8枚徽章獲得冠軍，“距離人工寶可夢智慧更進一步”。

02.

Gemini程式設計、語音、深度思考迎升級

DeepMind CEO揭秘終極願景

哈薩比斯提到，Gemini 2.5 Pro是谷歌迄今為止最智慧的模型，也是全球最強大的基礎模型。兩週前，谷歌釋出了Gemini 2.5 Pro的預覽版，開發者們用它實現了諸多創意：比如將草圖轉化為互動應用、模擬完整3D城市等。

新版的Gemini 2.5 Pro在WebDev Arena程式設計排行榜登頂。谷歌還將他們去年釋出的LearnLM（專為學習場景微調的模型）接入Gemini 2.5 Pro模型，這讓後者在解題等學習場景的能力進一步提升。

今天谷歌推出了輕量級模型Gemini 2.5 Flash的升級版。這款模型在推理、程式設計和長上下文等關鍵指標上實現提升，在大模型競技場的排名僅次於Gemini 2.5 Pro。升級版模型將於6月初全面開放，Pro版本隨後跟進，目前開發者已經可以在AI Studio搶先體驗。

Gemini還引入了更多的功能。增強版安全防護的可抵禦間接提示注入攻擊；思維摘要功能將模型思考過程視覺化，便於除錯；Gemini 2.5 Pro即將新增“思考預算”控制元件，開發者可控制模型思考的長度，從而平衡質量與成本。

Gemini 2.5 Pro和Gemini 2.5 Flash的文字轉語音功能支援多角色對話，能實現語氣微妙變化、切換耳語模式、跨24種語言切換。

谷歌Gemini產品負責人Tulsee Doshi展示了Gemini 2.5 Pro的程式設計能力。現場，Gemini 2.5 Pro僅參照一張草圖就生成了完整的3D互動網頁，用時37秒就在原網頁程式碼上完成修改。

Gemini 2.5 Pro現已在多款AI IDE平臺（如Cursor等）中可用。谷歌昨日開啟公測的程式設計助手Jules也接入了Gemini 2.5 Pro，能獨立處理GitHub程式碼庫的複雜任務，將原本耗時數小時的工作縮短至分鐘級。

▲谷歌Jules使用者介面

在模型架構創新方面，谷歌將擴散模型技術應用於文字生成。全新的Gemini Diffusion實驗模型（擴散語言模型）的生成速度比Gemini 2.5 Flash快5倍。這款模型不僅僅能按順序從左到右生成內容，還可以生成過程中快速迭代解決方案，並在生成過程中進行錯誤糾正。

谷歌打造了Gemini 2.5的“深度思考（Deep Think）”模式，運用類AlphaGo的並行推理技術。這一模式已經在美國數學奧林匹克2025測試和Live Codebench程式設計測試取得不錯的效果，但由於需要額外安全評估，谷歌將先向可信測試者開放API。

哈薩比斯稱，谷歌未來的重點是將Gemini模型擴充套件為一個“世界模型”。模型對物理世界的理解能力，不僅對影片、3D生成至關重要，也是機器人技術突破的關鍵。為此，谷歌還專門微調了Gemini Robotics模型，能讓機器人學習抓取物體、遵循指令等任務，並能夠即時適應新任務。

谷歌的終極願景是將Gemini打造成真正的通用AI助手（Universal AI Assistant），具備個性化、主動性和強大能力。

03.

Veo 3一次性生成超真實有聲影片

每月花1800元才能體驗

多模態模型方面，谷歌釋出了最新影像生成模型Imagen 4。Imagen 4可以逼真地刻畫出複雜的織物、水滴和動物毛皮等物體。這款模型最高支援2K解析度，圖片縱橫比和自由定製，其文字生成和排版能力也有明顯提升，給海報製作、PPT製作等生產級應用提供了更好的支援。

谷歌影片生成模型Veo 2新增了影片參考、相機控制、物件新增與刪除等功能，而最新發布的Veo 3實現了有聲影片的直接生成，能直接給城市街道場景的影片配上自然的噪音，或是直接生成人物之間的對話。此外，Veo 3在文字和影像提示、現實世界物理和口型同步方面都表現出色。

谷歌為Veo打造了配套的AI電影製作工具Flow，這一工具集成了Veo、Imagen和Gemini三款模型，可用於電影片段、場景和故事的創作。

音樂生成方面，谷歌進一步擴大了配套的音樂創作平臺Music AI Sandbox的訪問許可權，由Lyria 2音樂生成模型提供技術支援。谷歌還打造了互動式音樂生成模型Lyria Realtime，允許使用者即時互動地建立、控制音樂。

在大量AI生成內容出現之後，此類內容的識別也成為關鍵挑戰。谷歌於2023年推出了SynthID水印，迄今為止已為100億份AI生成的影像、影片、音訊和文字內容新增水印。今天，谷歌進一步釋出了SynthID檢測器，這一驗證門戶能幫助人們更方便地識別AI生成內容。

Gemini將推出Canvas功能，支援互動性的使用者協作。使用者描述需求後，Canvas可自動生成可分享的互動式內容，其他使用者也可以對這一內容進行修改。

谷歌還推出了Gemini in Chrome，這是一款Chrome瀏覽器中內嵌的個性化助手，即時理解當前網頁內容與使用者所處的上下文。例如，在購物場景中，Gemini in Chrome可以幫助使用者快速對比商品評論、輔助決策。這一功能將於本週面向美國使用者開放。

Gemini App中將內建上述一系列谷歌的媒體內容生成模型。

04.

聯手三星、高通共建安卓XR

現場演示智慧眼鏡回訊息、搜圖片

谷歌副總裁、安卓XR主管沙赫拉姆·伊扎迪（Shahram Izadi）稱，安卓平臺現在正發生許多令人興奮的變化。上週，谷歌已經發布了安卓16和Wear OS 6兩大新一代作業系統，而今天釋出的許多Gemini最新進展將很快登上安卓平臺，不僅限於手機，還包括手錶、汽車和智慧電視。

而谷歌的安卓XR是Gemini時代的首個安卓平臺，將支援從頭顯到智慧眼鏡等多種裝置型別，滿足不同使用場景的需求，如沉浸式觀影、遊戲和工作等。

目前，谷歌正與三星合作共建安卓XR，並與高通合作針對驍龍平臺進行最佳化。自去年釋出開發者預覽版以來，已有數百名開發者為該平臺構建應用。

谷歌認為，智慧眼鏡是AI的理想載體。現場，谷歌工作人員和NBA球星“字母哥”一同展示了谷歌眼鏡原型機的使用體驗。

天氣、時間、影像和訊息等資訊能以彩色形式顯示在谷歌眼鏡上，使用者可以直接透過語音指令讓安卓XR智慧眼鏡完成訊息回覆、開啟勿擾模式、影像檢索等操作。

這款眼鏡還具備一定的上下文記憶能力。在演示人員登上臺後，谷歌眼鏡能回憶起剛才在後臺看到的咖啡究竟是什麼品牌的。

谷歌稱，他們與三星的合作關係將會提升至新的高度，從頭顯拓展至智慧眼鏡領域，雙方已經在合作開發軟體和參考硬體平臺。

繼與三星合作的Project Moohan之後，谷歌的第二款安卓XR裝置是與XREAL合作的Project Aura。這款智慧眼鏡使用了安卓XR的軟體堆疊和高通驍龍XR晶片，配備光學透視（OST）和虛擬透視（VST）顯示技術，擁有70度的視野，不過仍然採用了有線的設計。

05.

AI Mode支援上傳全身照虛擬試穿

跟蹤低價代理結賬

自去年在I/O大會上推出以來，谷歌搜尋的AI Overviews月活使用者已達15億，在200多個國家和地區可用。

AI Overviews是Google Lens視覺搜尋增長的驅動力之一。Google Lens搜尋次數的年增長率為65%，今年已經完成超過1000億次視覺搜尋。

為提供更沉浸式的AI搜尋體驗，谷歌推出了全新的“AI Mode”。AI Mode以新標籤頁形式出現在搜尋介面中，其底座是谷歌基於Gemini 2.5定製的模型版本。

這一模式下，其會針對使用者需求對答案進行整合並提供方便閱讀的答案形式，如附帶評分的飯店資訊、包含地圖概覽的答案等，同時，使用者還可以透過對話形式進行後續追問。這項功能今天開始在美國推出。

AI Mode背後的關鍵技術是“查詢扇出（query fan-out）”，可跨子主題和多個數據源同時發出多個相關搜尋，然後將這些結果彙總在一起，提供易於理解的響應。

在個性化搜尋能力方面，AI Mode允許使用者引入更多偏好資訊，幫助使用者預定座位、進行所在地活動推薦等。對於使用者需要獲得更為詳盡答案的問題，AI Mode能代表使用者發起數十次甚至數百次搜尋，幾分鐘內生成一份專業級報告。

AI Mode在體育資料、金融分析中的深度應用會於今年夏天推出。如讓其展示本賽季和上賽季使用魚類球棒球員的打擊率和上壘率，這個問題包含不同賽季、使用特定球棒的球員、打擊率、上壘率等多個要素。其會動態為使用者生成如圖表等適應使用者觀看的介面。

AI Mode還重塑了使用者的購物體驗，幫助使用者定制瀏覽介面、虛擬試穿以及結賬。

AI Mode將Gemini與購物圖譜相結合，擁有超過500億個產品，並附有評論、價格、顏色選項和可用性等詳細資訊，同時會根據使用者特定需求定製產品瀏覽面板。

基於AI Mode，使用者選中衣服點選“試穿”圖示、上傳全身照，就能進行虛擬試穿。這一效果由時尚定製影像生成模型提供支援，該模型能夠理解人體結構和服裝的細微差別，例如不同面料在不同人體上的摺疊、拉伸和懸垂效果。

同時，使用者在商品詳情上點選“跟蹤價格”，然後設定合適的尺碼、顏色以及期望的支付金額，AI Mode就會自動在不同網站監控降價資訊，並向用戶傳送降價通知，將商品新增到使用者購物車並透過Google Pay完成結賬。這項視覺購物、結賬功能將在未來幾個月內陸續推出。

06.

研究專案突破：3D視訊通話、視訊通話搜尋

為Agent引入多工處理能力

皮查伊重點提到了目前正改變谷歌產品的三個例子：

第一個專案是在Project Starline之上，谷歌推出一個以AI為核心的全新視訊通話平臺Google Beam，該平臺採用新一代影片模型將2D影片流轉換為3D體驗，透過6臺攝像機組成的陣列捕捉使用者動作，藉助AI將這些影片流進行合併，即時處理呈現使用者影像，精度達毫米級，每秒60幀。谷歌與惠普合作的首批Google Beam裝置將於今年晚些時候向其測試使用者推出。

此外，谷歌致力於將Project Starline的底層技術引入Google Meet視訊會議平臺，包括即時語音翻譯功能。今天谷歌將直接在Google Meet中推出即時語音翻譯功能，訂閱使用者可以使用英語和西班牙語，未來幾周之內將會支援更多語言，今年晚些時候面向企業使用者推出。

第二個專案是即時、多模態的AI助手專案Project Astra，如今Gemini Live已具備Project Astra的攝像頭和螢幕共享功能，讓使用者可以暢聊所見的一切。