谷歌AI核爆:升級全系模型,Gemini2.5雙榜登頂!所有產品用AI重做,OpenAI如何接招?

作者|冬梅
通常情況下,在 I/O 大會前的幾周裡,外界不會聽到太多 I/O 大會的訊息,因為谷歌一般會把最好的模型留到 I/O 大會上釋出。但在 Gemini 時代,谷歌很可能會在三月的某個週二突然釋出出他們最強的人工智慧模型,或者提前一週宣佈像 AlphaEvolve 這樣的酷炫突破。
因為大模型時代,儘快將最好的模型和產品送到使用者手中,是企業技術能力的展現。
北京時間 5 月 21 日凌晨一點,隨著多個產品在 2025 谷歌 I/O 大會上釋出,現場響起了一波又一波熱烈的掌聲。
在本場釋出會上,作為主題演講嘉賓,谷歌執行長桑達爾·皮查伊在一個多小時的時間裡緊鑼密鼓地介紹著谷歌在 AI、移動作業系統、搜尋等領域的眾多更新,這一場釋出會上初步統計,Gemini 被提及 95 次,人工智慧被提及 92 次。
以下是本場釋出會的幾個重要更新,首先是模型層面。
為 Gemini 2.5 Pro 引入 Deep Think 推理模型和更好的 2.5 Flash
此次釋出會的高潮部分,是谷歌宣佈為 Gemini 2.5 Pro 引入 Deep Think 推理模型和更好的 2.5 Flash。
谷歌在大會上宣佈,已開始為 Gemini 2.5 Pro 測試名為“深度思考”(Deep Think)的推理模型。DeepMind 執行長 Demis Hassabis 表示,該模型採用“最前沿的研究成果”,使其具備在回應查詢前權衡多種假設的能力。
2.5 Pro Deep Think 在目前最難的數學基準測試之一——2025 USAMO 上取得了令人印象深刻的成績。它在 LiveCodeBench(一項針對競賽級程式設計的難度較高的基準測試)上也取得了領先,並在測試多模態推理的 MMMU 上獲得了 84.0% 的分數。”
不過谷歌表示,在廣泛釋出前仍需進行更深入的安全評估並徵求專家意見,因此將率先透過 Gemini API 向可信測試者開放。
谷歌同時釋出了效能更強的 Gemini 2.5 Flash 模型,該版本在速度與效率方面實現顯著最佳化:推理效率提升、令牌消耗減少,在多模態處理、程式碼生成及長文字理解等基準測試中均超越前代。
2.5 Flash 是谷歌最高效的主力模型,專為速度和低成本而設計——現在它在多個維度上都得到了提升。它在推理、多模態、程式碼和長上下文等關鍵基準上都得到了改進,同時效率進一步提升,在我們的評估中,使用的 token 減少了 20-30%。
正式版將於 6 月初推出,目前開發者可透過 Google AI Studio 預覽,企業使用者可透過 Vertex AI 體驗,普通使用者則可在 Gemini 應用中試用。
雖然 I/O 大會主要展示的是 2.5 Flash 的效能突破,但谷歌宣佈將把該模型的“思考預算”(Thinking Budgets)概念引入更高階的 2.5 Pro 版本。這項功能允許使用者平衡 token 消耗與輸出精度 / 速度的關係。
此外,谷歌正將"航海家計劃"(Project Mariner)整合至 Gemini API 和 Vertex AI。該專案基於 Gemini 開發,能透過瀏覽器導航完成使用者指定任務,預計今夏向開發者擴大開放。同時,谷歌還透過 Gemini API 為 2.5 Pro/Flash 模型推出文字轉語音功能預覽版,支援 24 種語言的兩種發音人聲。
值得一提的是,Gemini 2.5 系列引入了不少新功能。
首先是原生音訊輸出和 Live API 的改進。Live API 推出了音訊影片輸入和原生音訊輸出對話的預覽版,因此您可以直接構建對話體驗,使用更自然、更具表現力的 Gemini。
它還允許使用者控制其語氣、口音和說話風格。例如,使用者可以讓模型在講故事時使用戲劇性的聲音。它還支援使用工具,以便能夠代表使用者進行搜尋。
現在,可以供使用者嘗試的一系列早期功能包括:
  • 情感對話,模型可以檢測使用者聲音中的情感並做出適當的反應。
  • 主動音訊,其中模型將忽略背景對話並知道何時做出回應。
  • 在 Live API 中思考,其中模型利用 Gemini 的思考能力來支援更復雜的任務。
谷歌還將為 2.5 Pro 和 2.5 Flash 版本釋出全新的文字轉語音功能預覽版。這些功能首次支援多揚聲器,能夠透過原生音訊輸出實現雙聲道文字轉語音。
與 Native Audio 對話一樣,文字轉語音功能富有表現力,能夠捕捉到非常細微的差別,例如低語。它支援超過 24 種語言,並可在多種語言之間無縫切換。
其次是電腦操作能力提升。谷歌正將 Project Mariner 的電腦操作能力引入 Gemini API 和 Vertex AI。支援多工處理,最多可同時執行 10 個任務,並且新增 “Learn and Repeat” 功能,讓 AI 學會自動完成重複性任務。
第三是顯著增強了對安全威脅的防護,例如間接提示注入。這是指惡意指令被嵌入到 AI 模型檢索的資料中。谷歌 全新的安全方法 顯著提高了 Gemini 在工具使用過程中對間接提示注入攻擊的防護率,使 Gemini 2.5 成為我們迄今為止最安全的模型系列。
第四是增加三大實用功能,提升開發者體驗:
  • 思維摘要功能升級。Gemini API 和 Vertex AI 現為 2.5 Pro/Flash 模型新增"思維摘要"功能,可將模型原始推理過程結構化輸出為帶標題、關鍵細節及操作說明(如工具呼叫時機)的清晰格式。該設計旨在幫助開發者更直觀地理解模型決策邏輯,提升互動可解釋性與除錯效率。
  • 思考預算機制擴充套件。繼 2.5 Flash 之後,思考預算功能現已覆蓋 2.5 Pro 模型,允許開發者透過調節令牌分配來平衡響應質量與延遲成本。使用者可自由控制模型思考深度,甚至完全關閉該功能。支援全量思考預算的 Gemini 2.5 Pro 正式版將於未來數週內釋出。
  • Gemini SDK 相容 MCP 工具。Gemini API 新增對 MCP 的原生 SDK 支援,簡化與開源工具整合。谷歌正探索部署 MCP 伺服器等託管方案,加速代理應用開發。團隊將持續最佳化模型效能與開發體驗,同時加強基礎研究以拓展 Gemini 能力邊界,更多更新即將推出。
關於谷歌 Gemini 的下一步,谷歌 DeepMind CEO 哈薩比斯表示,他們正努力將其最優秀 Gemini 模型擴充套件為一個 “世界模型”,使其能像人類大腦一樣透過理解和模擬世界來制定計劃、想象新體驗。
AI  Mode 是谷歌搜尋的未來
作為谷歌最核心的業務之一,谷歌搜尋的每次迭代都會引發行業關注。
谷歌表示, Gemini 模型正在幫助谷歌搜尋變得更加智慧、代理化和個性化。
自去年推出以來,AI 概覽已覆蓋超過 15 億使用者,並覆蓋 200 個國家和地區。隨著人們使用 AI 概覽,谷歌發現他們對搜尋結果更加滿意,搜尋頻率也更高。在美國和印度等谷歌最大的市場,AI 概覽推動了查詢型別增長超過 10%,並且這種增長速度會隨著時間的推移而持續增長。
皮查伊稱,這是過去十年來搜尋領域最成功的產品之一。
如今,對於想要體驗端到端 AI 搜尋的使用者,谷歌推出了全新的 AI 模式。它徹底重塑了搜尋體驗。憑藉更先進的推理能力,使用者可以在 AI 模式下提出更長、更復雜的查詢。
事實上,早期測試人員提出的查詢長度是傳統搜尋長度的兩到三倍,並且使用者還可以通過後續問題進行更深入的探索。所有這些功能都可以在搜尋的新標籤頁中直接使用。
皮查伊稱:“我一直在頻繁使用 Google 搜尋,它徹底改變了我使用 Google 搜尋的方式。我很高興地告訴大家,AI 模式將於今天在美國面向所有使用者推出。藉助我們最新的 Gemini 模型,我們的 AI 響應不僅達到了您對 Google 搜尋所期望的質量和準確性,而且是業內最快的。從本週開始,Gemini 2.5 也將在美國 Google 搜尋中推出。”
亮相影片模型 Veo 3
在多模態方面,谷歌表示即將推出最新的先進影片模型 Veo 3,它現已具備原生音訊生成功能。谷歌還將推出 Imagen 4,這是谷歌最新、功能最強大的影像生成模型。這兩款模型均可在 Gemini 應用程式中使用,開啟一個全新的創意世界。
谷歌透過一款名為 Flow 的新工具將這些可能性帶給了電影製作人。使用者可以建立電影剪輯,並將短片擴充套件為更長的場景。
提示詞:一隻睿智的老貓頭鷹在高空翱翔,透過森林上方月光下的雲層窺視。這隻睿智的老貓頭鷹小心翼翼地繞著空地盤旋,環顧著森林的地面。片刻之後,它俯衝到月光下的小路上,停在一隻獾旁邊。音訊: 翅膀拍打聲、鳥鳴聲、響亮而悅耳的風沙聲,以及斷斷續續的嗡嗡聲、樹枝在腳下折斷的聲音和呱呱的叫聲。這是一段輕快的管絃樂,木管樂器貫穿始終,節奏歡快樂觀,充滿天真無邪的好奇心。
一隻睿智的老貓頭鷹和一隻緊張的獾坐在月光下的林間小路上。“它們今天留下了一個一個'球’。它彈得比我跳得還高。”獾結結巴巴地說道,努力想理解這句話的意思“這是什麼魔法?"貓頭鷹若有所思地鳴叫著。音訊: 貓頭鷹的鳴叫聲,獾緊張的鳴叫聲,樹葉的沙沙聲,蟋蟀的鳴叫聲。
一隻睿智的老貓頭鷹飛出了畫框,一隻緊張的小獾朝另一個方向跑了出去。背景中,一隻松鼠匆匆而過,發出刮擦乾枯秋葉的沙沙聲。音訊: 鳥鳴聲、響亮的落沙沙聲,以及斷斷續續的嗡嗡聲、樹枝在腳下折斷的聲音,還有松鼠在乾枯的落葉間穿梭的聲音。遠處傳來貓頭鷹的鳴叫聲、獾緊張的鳴叫聲、樹葉的沙沙聲、蟋蟀的鳴叫聲,這些聲音充滿了天真好奇的氣息。
編碼助手 Jules 開始公測
在釋出會上,谷歌宣佈 Jules 正式進入公測階段,全球開發者可直接進行體驗。
Jules 是一款非同步代理式編碼助手,可直接與開發者現有的程式碼庫整合。它會將開發者的程式碼庫克隆到安全的 Google Cloud 虛擬機器 (VM) 中,瞭解專案的完整上下文,並執行以下任務:編寫測試、構建新功能、提供音訊更新日誌、bug 修復、改變依賴版本。
Jules 非同步執行,讓開發者在它在後臺執行時能專注於其他任務。完成後,它會展示其計劃、推理過程以及所做更改的差異。Jules 預設為私有,它不會使用使用者的私有程式碼進行訓練,並且使用者的資料在執行環境中保持隔離。
Jules 使用 Gemini 2.5 Pro,使其能夠使用當今最先進的一些編碼推理技術。結合其雲虛擬機器系統,它可以快速、精確地處理複雜的多檔案更改和併發任務。

具體而言,Jules 能幹什麼?
  • 適用於真實程式碼庫:Jules 無需沙盒。它能夠利用現有專案的完整上下文,智慧地推斷變更。
  • 並行執行:任務在雲虛擬機器內部執行,實現併發執行。它可以同時處理多個請求。
  • 可見的工作流程: Jules 在進行更改之前向您展示其計劃和理由。
  • GitHub 整合:Jules 可直接在使用者的 GitHub 工作流程中工作。無需上下文切換,也無需額外設定。
  • 使用者可控性:在執行之前、執行期間和執行之後修改所呈現的計劃,以保持對程式碼的控制。
  • 音訊摘要: Jules 提供最近提交的音訊變更日誌,將您的專案歷史記錄轉變為您可以收聽的上下文變更日誌。
Astra 專案,谷歌通用 AI 助手的雛形
去年的谷歌 I/O 開發者大會上,最有趣的演示之一是 Project Astra,它是多模態人工智慧的早期版本,可以即時識別周圍環境並以對話方式回答相關問題。雖然該演示讓我們得以一窺谷歌打造更強大人工智慧助手的計劃,但該公司謹慎地指出,我們看到的只是“研究預覽”。
然而,一年後,谷歌卻規劃了 Astra 專案的願景,希望未來能為 Gemini 的某個版本提供動力,使其成為一個“通用 AI 助手”。為了實現這一目標,Astra 專案進行了一些重要的升級。谷歌一直在升級 Astra 的記憶體——我們去年看到的版本每次只能“記憶” 30 秒——並增加了計算機控制功能,使 Astra 現在可以執行更復雜的任務。
這款多模態、全視角的機器人並非真正的消費級產品,除了一小部分測試人員之外,短期內不會向任何人開放。Astra 代表著 Google 對未來人工智慧如何為人類服務的最宏大、最狂野、最雄心勃勃的夢想。Google DeepMind 研究總監 Greg Wayne 表示,他認為 Astra 是“通用人工智慧助手的概念車”。
最終,Astra 中可用的功能會移植到 Gemini 和其他應用中。這其中已經包含了團隊在語音輸出、記憶體以及一些基本的計算機使用功能方面的工作。隨著這些功能逐漸成為主流,Astra 團隊找到了新的工作方向。
Project Aura 智慧眼鏡又回來了
再來看看硬體方面。谷歌智慧眼鏡時代似乎又回來了。今天,谷歌和 Xreal 在大會上宣佈建立戰略合作伙伴關係,共同開發一款名為 Project Aura 的全新 Android XR 裝置。
這是自去年 12 月 Android XR 平臺釋出以來,官方正式推出的第二款裝置。第一款是 三星的 Project Moohan,但這是一款更類似於 Apple Vision Pro 的 XR 頭顯。而 Project Aura 則與 Xreal 的其他產品保持著密切聯絡。技術上準確的術語應該是“光學透視 XR”裝置。更通俗地說,它是一副沉浸式智慧眼鏡。
Xreal 的眼鏡,比如 Xreal One,就像在一副普通的太陽鏡裡嵌入了兩臺迷你電視,看起來略顯笨重。Xreal 之前的眼鏡可以連線手機或筆記型電腦,檢視螢幕上的內容,無論是正在播放的節目,還是想在飛機上編輯的機密檔案。它的優點在於,使用者可以調整不透明度來檢視(或遮擋)周圍的世界。Project Aura 也秉持著同樣的理念。
但谷歌並沒有在釋出會上透露出更多關於這款硬體的資訊。Xreal 發言人 Ralph Jodice 表示,將在下個月的增強現實世界博覽會上放出更多資訊。一些已知的資訊顯示,它將內建 Gemini,並擁有更大的視野。在產品渲染圖中,我們可以看到鉸鏈和鼻樑架上的攝像頭,以及鏡腿上的麥克風和按鈕。
這暗示著與 Xreal 現有裝置相比,硬體將迎來升級。Project Aura 將搭載針對 XR 最佳化的高通晶片組。與 Project Moohan 一樣,Project Aura 也希望開發者現在就開始構建應用程式和用例,以便在實際消費產品釋出之前完成。說到這一點,谷歌和 Xreal 在一份新聞稿中表示,為頭顯開發的 Android XR 應用程式可以輕鬆移植到像 Project Aura 這樣的其他裝置。
有趣的是,谷歌對下一個智慧眼鏡時代的策略與其最初推出 Wear OS 時類似——谷歌提供平臺,第三方負責硬體。雖然細節很少,但這將是在 Android XR 平臺上推出的第二款官方裝置。
宣告:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
Jeff Dean:一年內 AI 將取代初級工程師,網友:“Altman只會畫餅,Jeff說的話才致命”
千份簡歷零 Offer,42歲PHP程式設計師靠開網約車維生:AI時代,中年危機正在上演?
爆冷!位元組Seed 在CCPC 決賽只做出一道簽到題,而DeepSeek R1 直接掛零?
Borg排程進化了!谷歌超強AI Agent 登場:能設計算法、提效系統,陶哲軒親自助攻,網友封神理科扛把子!
 活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章