史上最強AI全家桶！谷歌Gemini2.5雙殺OpenAI，上架250美金天價VIP

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：機器之心｜編輯：編輯部 YXH

【導讀】今夜，谷歌徹底殺瘋！2小時釋出會，Gemini提及95次點亮全場。Gemini 2.5家族全系升級，Pro深度思考模型正刷榜。全新Imagen 4生成細節超逼真，Veo 3首次實現音影片融合。

谷歌一齣手，就是王炸。

剛剛，谷歌I/O 2025大會上，劈柴登場一張圖亮出了自家所有旗艦模型。一年時間跨度，可以用馬不停蹄來形容。

這一次，Gemini 2.5深夜迎來三連更：

· Gemini 2.5 Pro（新）：再次刷榜LMArena，ELO拿下1448分，所有類別第一，碾壓o3，原生文字到音訊生成

· Gemini 2.5 Pro（Deep Think）：刷榜數學、編碼、多模態榜單，

· Gemini 2.5 Flash（新）：排名僅次Gemini 2.5 Pro，ELO得分1424，原生文字到音訊生成

左右滑動檢視

備受期待的Imagen 4、Veo 3也在今天登場。Imagen 4生圖細節逆天，10倍提速；Veo 3首次支援原生音訊輸出，開啟音影片融合新時代。

Veo 3逼真地生成了老人聲音，以及背景中的海洋聲音

此外，大會上還亮相了全新文字擴散模型Gemini Diffusion、AI搜尋AI Mode、全新Flow創意平臺……

谷歌推出了史上最貴的訂閱服務——Google AI Ultra，高達250美元（比ChatGPT Pro貴50美元）。

堪稱VIP中的VIP，可無限訪問最新模型。

Pro每個月20美元，開通後可同時使用Gemini 2.5 Pro、Veo 2和NotebookLM等

更讓人沒想到的，谷歌掏出了兩款全新硬體：Project Moohan頭顯和XR眼鏡，由Gemini加持，將革新空間計算。

2小時釋出會，全程共提到Gemini 95次，AI 92次。

Gemini 2.5全繫上新

深度思考版來了

Gemini 2.5更新，必然是整場大會的重點。

Demis Hassabis一出場激動地表示，「AI正在開啟一個令人驚歎的全新未來」。

Gemini 2.5 Pro登頂，編碼能力暴漲

Gemini 2.5 Pro在3月首次亮相後，成為谷歌目前有史以來最智慧的一款旗艦模型。

兩週前，Gemini 2.5 Pro Preview版本首次更新後，便在LMArena排行榜中登頂。

其中，在WebDev Arena排行榜中拿下1415分，相較於3月版提升了142分。

在大會中，女主持人現場演示了在AI Stuido中只需要上傳一張手畫草稿，即可在幾十秒內生成和需求描述完全一致的頁面效果。

比如，生成可旋轉的3D照片牆，上述圖片描述了這個頁面的基本結構，包括照片始終朝向觀察者、可以放大和縮小。

而我們使用了I/O大會中的相同命令，只花了幾十秒就實現了和演示幾乎一模一樣的3D頁面旋轉效果。

現在，所有人皆可在AI編碼智慧體平臺Jules，體驗全新Gemini 2.5 Pro，一個提示即可幫你處理任何任務。

此外，憑藉100萬token上下文，2.5 Pro具備領先的長上下文和影片理解能力。

Gemini 2.5 Flash全面升級，立省30%

Gemini 2.5 Flash這次也得到了全面升級，生成速度更快、成本更低。

在LMArena拿下1424高分，僅次於2.5 Pro。

在推理、多模態、程式碼、長上下文的關鍵基準上，2.5 Flash效能進一步提升。評估中，使用的token減少了20%-30%。

這兩款迭代後的模型，支援更多新功能：

· 原生音訊輸出

就像原生音訊對話一樣，2.5 Flash和2.5 Pro最新文字轉語音極具豐富的表現力，可以捕捉到非常微妙的細節，比如竊竊私語。

它支援超過 24 種語言，並且可以無縫切換，已在Gemini API上線。

· 思考預算

2.5 Pro將支援思考預算功能，讓回答更加安全、高效。任何人可以開啟/關閉思考模型，設定固定的思考預算。

Deep Think制霸數學編碼多模態

這次，Gemini 2.5系列迎來了全新成員——2.5 Pro（Deep Think）。

它採用了全新的技術，能夠在響應之前考慮多個假設。

2.5 Pro深度思考版在數學、編碼、多模態榜單上，重新整理了SOTA。

具體來說，在2025 USAMO數學奧賽中（最難數學基準之一），取得了40.4%高分，比2.5 Pro高出了10%多。

在LiveCodeBench上，一舉攻克競賽級程式設計難題，拿下80.4%分。而且，在多模態推理MMMU上取得了84.0%。

Gemini Diffusion：全新文字擴散模型

此外，谷歌還帶了全新文字擴散模型Gemini Diffusion，讓模型更加擅長處理編輯任務。

與直接預測文字不同，它透過逐步最佳化噪聲來生成輸出。

這種方法，讓Gemini Diffusion能快速迭代最佳化解決方案，在程式設計和數學領域表現尤為出色。

Gemini Diffusion每秒輸出1000多個token，效能要比Gemini 2.0 Flash-Lite快5倍。

就拿如下例子來說，眨眼之間，就錯過了解題過程。

Gemini系列模型更新之後，Hassabis再次回顧了過去十年，谷歌為當前AI時代奠定基礎的技術幾點。

從Transfromer、到AlphaGo、Alpha Zero等，谷歌不斷創造通往AGI所需的下一個重大的突破。

Gemini已經成為當今最好的多模態基礎模型，未來還將不斷擴充套件其能力，最終成為一個「世界模型」。

Hassabis稱，這是我一直熱衷的事情，AI系統需要世界模型才能有效執行。

而Gemini robotics是世界模型，進入現實世界的一個載體。

此外，讓Gemini成為世界模型的另一個關鍵是，真正對人類日常生活有所幫助。

這也是谷歌Project Astra的最終願景，在現場演示中，AI助手全程保姆級指導如何組裝腳踏車，甚至被打斷也不會有所影響。

AI在加速科學發現上，谷歌也取得了引以為傲的成就，AlphaEvolve、AlphaFold、AIME、Isomorphic Labs。

在最新案例中，谷歌Astra聯手Ira公司，幫助盲人在生活中更加獨立。

Imagen 4 + Veo 3

生成終極進化

這次年度開發者大會，更少不了AI影像模型和AI影片模型的更新。

Imagen 4：超逼真生圖，完美拼寫2k畫質

歷時半年多，谷歌AI影像生成模型終於迭代到了Imagen 4。

在細節表現方面，Imagen 4能夠生成複雜的織物、水滴，甚至是動物毛髮，逼真度足以讓人驚掉下巴。

而且，解析度最高可達2k。

左右滑動檢視

此外，Imagen 4在拼寫、版式方面得到了改進，製作賀卡、海報、漫畫，全部拿捏。

左右滑動檢視

在生成速度方面，Imagen 4同樣堪稱極致——最多比上一代Imagen 3快10倍。

Veo 3：原生音影片融合，對話BGM一次搞定

谷歌AI影片模型Veo 3，也在萬眾期待中震撼登場。

用釋出會大佬的話來說，「我們正在進入一個音訊和影片相結合的創作新時代」。

Veo 3不僅在生成質量上超越了Veo 2，而且首次能夠生成帶有音訊的影片。

不論是城市街道中嘈雜音，還是公園裡的鳥鳴聲，甚至是角色之間的對話，它都能一鍵還原。

森林中，一隻貓頭鷹和一隻小獾的對話，動畫感爆棚。

全面來看，Veo 3 在文字/影像生成提示、真實物理模擬和精準口型同步等各方面都表現出色。

它的理解能力超強，只需在提示詞裡描述一個小故事，模型就能生成一段生動還原劇情的影片。

Flow：好萊塢電影，隨手即來

此外，谷歌還推出了一款專為創意人士打造的新平臺Flow，一款AI電影製作工具。

它集成了Veo、Imagen、Gemini最新模型，無縫建立電影片段、場景、故事。

自然對話描述鏡頭，Flow就能編織出令人驚歎的場景。

AI Mode + Deep Search

AI搜尋新紀元開啟

谷歌重磅推出了AI Mode搜尋功能，開啟谷歌搜尋全新紀元！

AI Mode將搜尋與AI深度整合，谷歌開發了專用於Search的Gemini 2.5模型。

AI Mode是全能的，相比過去的「傳統搜尋」，AI Mode會根據回覆自動規劃搜尋結果的展現形式，包括文字、影片，甚至地圖等等，AI Mode都可以完美展現。

AI Mode目前位於谷歌搜尋一級選單的第一位，可見谷歌對於AI Mode的重視程度。

目前該功能暫時只支援英語地區，聊天語言也要使用英語。

AI Mode的強大之處在於，你可以提問一個非常複雜，包含諸多資訊的問題，比如：

展示本賽季和上個賽季使用魚雷棒（最新款的比賽用棒球棒）的著名球員的擊球率和上壘率。

這個問題涉及到資訊的定位以及計算機率，AI Mode智慧的使用了表格和圖表來回答。

Google Lens

大會中，還提到了Google Lens，用AI的能力幫助搜尋各種圖片和資訊。

Google Lens可以框選頁面中的任何資訊，框選後答案會自動彈出。

智慧購物

劈柴這次是和奧特曼「槓上了」，前不久OpenAI剛剛推出自己的購物功能，這一次谷歌也不甘示弱。

透過上傳你自己的個人照片，谷歌可以把商店裡的衣服自動穿戴到你身上，讓你直觀的看到衣服上身的效果。

同時智慧體還能夠自動下單，自動付款，完全無需人操作。

接下的幾個月，這種視覺化購物以及智慧體自動結賬將全面上線。

Gemini應用

谷歌DeepMind的副總裁Josh Woodward上臺介紹了Gemini應用未來的三大特點。

Personal：谷歌提出了Personal context的概念，即你在谷歌中的一切，聊天、郵件、日曆以及行程安排都將成為你個人的「上下文」，有了這些個人上下文，AI能夠更好的瞭解你，並安排一切。

Proactive：Gemini應用將變得更具啟發式，幫助使用者完成日常任務，比如透過類比的方法幫助你理解物理學知識。

Powerful：Gemini應用中目前最強大的兩個工具，一個是深度研究，另一個是Canvas。

可以上傳自己的檔案來讓Gemini應用幫助進行深度分析。

使用Canvas，你可以與Gemini進行完美的互動，可以解答謎題、製作部落格，甚至還可以在Canvas中進行氛圍程式設計。

全新頭顯和XR眼鏡

殺入蘋果Meta戰場

最後，谷歌驚喜推出了兩款Android XR新硬體。

首先是和三星合作，對標蘋果推出的Project Moohan頭戴顯示裝置，預計今年內釋出。

然後，是對標Meta Rayban的XR眼鏡。

話不多說，直接上演示。

參考資料：

https://io.google/2025/

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）人數破萬！如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料，一定要掃描下方二維碼，加入CVer知識星球！最強助力你的科研和工作！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看