點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
轉載自:機器之心 |編輯:編輯部 YXH
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

【導讀】今夜,谷歌徹底殺瘋!2小時釋出會,Gemini提及95次點亮全場。Gemini 2.5家族全系升級,Pro深度思考模型正刷榜。全新Imagen 4生成細節超逼真,Veo 3首次實現音影片融合。
谷歌一齣手,就是王炸。
剛剛,谷歌I/O 2025大會上,劈柴登場一張圖亮出了自家所有旗艦模型。一年時間跨度,可以用馬不停蹄來形容。

這一次,Gemini 2.5深夜迎來三連更:
· Gemini 2.5 Pro(新):再次刷榜LMArena,ELO拿下1448分,所有類別第一,碾壓o3,原生文字到音訊生成
· Gemini 2.5 Pro(Deep Think):刷榜數學、編碼、多模態榜單,
· Gemini 2.5 Flash(新):排名僅次Gemini 2.5 Pro,ELO得分1424,原生文字到音訊生成



左右滑動檢視
備受期待的Imagen 4、Veo 3也在今天登場。Imagen 4生圖細節逆天,10倍提速;Veo 3首次支援原生音訊輸出,開啟音影片融合新時代。
Veo 3逼真地生成了老人聲音,以及背景中的海洋聲音
此外,大會上還亮相了全新文字擴散模型Gemini Diffusion、AI搜尋AI Mode、全新Flow創意平臺……
谷歌推出了史上最貴的訂閱服務——Google AI Ultra,高達250美元(比ChatGPT Pro貴50美元)。
堪稱VIP中的VIP,可無限訪問最新模型。
![]() |
![]() |
Pro每個月20美元,開通後可同時使用Gemini 2.5 Pro、Veo 2和NotebookLM等
更讓人沒想到的,谷歌掏出了兩款全新硬體:Project Moohan頭顯和XR眼鏡,由Gemini加持,將革新空間計算。

2小時釋出會,全程共提到Gemini 95次,AI 92次。


Gemini 2.5全繫上新
深度思考版來了
Gemini 2.5更新,必然是整場大會的重點。
Demis Hassabis一出場激動地表示,「AI正在開啟一個令人驚歎的全新未來」。

Gemini 2.5 Pro登頂,編碼能力暴漲
Gemini 2.5 Pro在3月首次亮相後,成為谷歌目前有史以來最智慧的一款旗艦模型。
兩週前,Gemini 2.5 Pro Preview版本首次更新後,便在LMArena排行榜中登頂。
其中,在WebDev Arena排行榜中拿下1415分,相較於3月版提升了142分。
![]() |
![]() |
在大會中,女主持人現場演示了在AI Stuido中只需要上傳一張手畫草稿,即可在幾十秒內生成和需求描述完全一致的頁面效果。

比如,生成可旋轉的3D照片牆,上述圖片描述了這個頁面的基本結構,包括照片始終朝向觀察者、可以放大和縮小。

而我們使用了I/O大會中的相同命令,只花了幾十秒就實現了和演示幾乎一模一樣的3D頁面旋轉效果。

現在,所有人皆可在AI編碼智慧體平臺Jules,體驗全新Gemini 2.5 Pro,一個提示即可幫你處理任何任務。

此外,憑藉100萬token上下文,2.5 Pro具備領先的長上下文和影片理解能力。

Gemini 2.5 Flash全面升級,立省30%
Gemini 2.5 Flash這次也得到了全面升級,生成速度更快、成本更低。
在LMArena拿下1424高分,僅次於2.5 Pro。
![]() |
![]() |
在推理、多模態、程式碼、長上下文的關鍵基準上,2.5 Flash效能進一步提升。評估中,使用的token減少了20%-30%。

這兩款迭代後的模型,支援更多新功能:
· 原生音訊輸出
就像原生音訊對話一樣,2.5 Flash和2.5 Pro最新文字轉語音極具豐富的表現力,可以捕捉到非常微妙的細節,比如竊竊私語。
它支援超過 24 種語言,並且可以無縫切換,已在Gemini API上線。
· 思考預算
2.5 Pro將支援思考預算功能,讓回答更加安全、高效。任何人可以開啟/關閉思考模型,設定固定的思考預算。


Deep Think制霸數學編碼多模態
這次,Gemini 2.5系列迎來了全新成員——2.5 Pro(Deep Think)。
它採用了全新的技術,能夠在響應之前考慮多個假設。

2.5 Pro深度思考版在數學、編碼、多模態榜單上,重新整理了SOTA。
具體來說,在2025 USAMO數學奧賽中(最難數學基準之一),取得了40.4%高分,比2.5 Pro高出了10%多。
在LiveCodeBench上,一舉攻克競賽級程式設計難題,拿下80.4%分。而且,在多模態推理MMMU上取得了84.0%。


Gemini Diffusion:全新文字擴散模型
此外,谷歌還帶了全新文字擴散模型Gemini Diffusion,讓模型更加擅長處理編輯任務。
與直接預測文字不同,它透過逐步最佳化噪聲來生成輸出。
這種方法,讓Gemini Diffusion能快速迭代最佳化解決方案,在程式設計和數學領域表現尤為出色。
![]() |
![]() |
Gemini Diffusion每秒輸出1000多個token,效能要比Gemini 2.0 Flash-Lite快5倍。
就拿如下例子來說,眨眼之間,就錯過了解題過程。

Gemini系列模型更新之後,Hassabis再次回顧了過去十年,谷歌為當前AI時代奠定基礎的技術幾點。
從Transfromer、到AlphaGo、Alpha Zero等,谷歌不斷創造通往AGI所需的下一個重大的突破。
Gemini已經成為當今最好的多模態基礎模型,未來還將不斷擴充套件其能力,最終成為一個「世界模型」。
Hassabis稱,這是我一直熱衷的事情,AI系統需要世界模型才能有效執行。

而Gemini robotics是世界模型,進入現實世界的一個載體。
此外,讓Gemini成為世界模型的另一個關鍵是,真正對人類日常生活有所幫助。
這也是谷歌Project Astra的最終願景,在現場演示中,AI助手全程保姆級指導如何組裝腳踏車,甚至被打斷也不會有所影響。
AI在加速科學發現上,谷歌也取得了引以為傲的成就,AlphaEvolve、AlphaFold、AIME、Isomorphic Labs。
在最新案例中,谷歌Astra聯手Ira公司,幫助盲人在生活中更加獨立。


Imagen 4 + Veo 3
生成終極進化
這次年度開發者大會,更少不了AI影像模型和AI影片模型的更新。

Imagen 4:超逼真生圖,完美拼寫2k畫質
歷時半年多,谷歌AI影像生成模型終於迭代到了Imagen 4。

在細節表現方面,Imagen 4能夠生成複雜的織物、水滴,甚至是動物毛髮,逼真度足以讓人驚掉下巴。
而且,解析度最高可達2k。





左右滑動檢視
此外,Imagen 4在拼寫、版式方面得到了改進,製作賀卡、海報、漫畫,全部拿捏。




左右滑動檢視
在生成速度方面,Imagen 4同樣堪稱極致——最多比上一代Imagen 3快10倍。


Veo 3:原生音影片融合,對話BGM一次搞定
谷歌AI影片模型Veo 3,也在萬眾期待中震撼登場。
用釋出會大佬的話來說,「我們正在進入一個音訊和影片相結合的創作新時代」。
Veo 3不僅在生成質量上超越了Veo 2,而且首次能夠生成帶有音訊的影片。

不論是城市街道中嘈雜音,還是公園裡的鳥鳴聲,甚至是角色之間的對話,它都能一鍵還原。
森林中,一隻貓頭鷹和一隻小獾的對話,動畫感爆棚。
全面來看,Veo 3 在文字/影像生成提示、真實物理模擬和精準口型同步等各方面都表現出色。
它的理解能力超強,只需在提示詞裡描述一個小故事,模型就能生成一段生動還原劇情的影片。

Flow:好萊塢電影,隨手即來
此外,谷歌還推出了一款專為創意人士打造的新平臺Flow,一款AI電影製作工具。
它集成了Veo、Imagen、Gemini最新模型,無縫建立電影片段、場景、故事。
自然對話描述鏡頭,Flow就能編織出令人驚歎的場景。


AI Mode + Deep Search
AI搜尋新紀元開啟
谷歌重磅推出了AI Mode搜尋功能,開啟谷歌搜尋全新紀元!
AI Mode將搜尋與AI深度整合,谷歌開發了專用於Search的Gemini 2.5模型。

AI Mode是全能的,相比過去的「傳統搜尋」,AI Mode會根據回覆自動規劃搜尋結果的展現形式,包括文字、影片,甚至地圖等等,AI Mode都可以完美展現。

AI Mode目前位於谷歌搜尋一級選單的第一位,可見谷歌對於AI Mode的重視程度。

目前該功能暫時只支援英語地區,聊天語言也要使用英語。

AI Mode的強大之處在於,你可以提問一個非常複雜,包含諸多資訊的問題,比如:
展示本賽季和上個賽季使用魚雷棒(最新款的比賽用棒球棒)的著名球員的擊球率和上壘率。

這個問題涉及到資訊的定位以及計算機率,AI Mode智慧的使用了表格和圖表來回答。
![]() |
![]() |

Google Lens
大會中,還提到了Google Lens,用AI的能力幫助搜尋各種圖片和資訊。

Google Lens可以框選頁面中的任何資訊,框選後答案會自動彈出。


智慧購物
劈柴這次是和奧特曼「槓上了」,前不久OpenAI剛剛推出自己的購物功能,這一次谷歌也不甘示弱。
透過上傳你自己的個人照片,谷歌可以把商店裡的衣服自動穿戴到你身上,讓你直觀的看到衣服上身的效果。
同時智慧體還能夠自動下單,自動付款,完全無需人操作。
接下的幾個月,這種視覺化購物以及智慧體自動結賬將全面上線。


Gemini應用
谷歌DeepMind的副總裁Josh Woodward上臺介紹了Gemini應用未來的三大特點。
Personal:谷歌提出了Personal context的概念,即你在谷歌中的一切,聊天、郵件、日曆以及行程安排都將成為你個人的「上下文」,有了這些個人上下文,AI能夠更好的瞭解你,並安排一切。

Proactive:Gemini應用將變得更具啟發式,幫助使用者完成日常任務,比如透過類比的方法幫助你理解物理學知識。

Powerful:Gemini應用中目前最強大的兩個工具,一個是深度研究,另一個是Canvas。
可以上傳自己的檔案來讓Gemini應用幫助進行深度分析。

使用Canvas,你可以與Gemini進行完美的互動,可以解答謎題、製作部落格,甚至還可以在Canvas中進行氛圍程式設計。


全新頭顯和XR眼鏡
殺入蘋果Meta戰場
最後,谷歌驚喜推出了兩款Android XR新硬體。
首先是和三星合作,對標蘋果推出的Project Moohan頭戴顯示裝置,預計今年內釋出。

然後,是對標Meta Rayban的XR眼鏡。

話不多說,直接上演示。
參考資料:
https://io.google/2025/
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
