Google又回到了它的王座!全面進入「Gemini時代」

🎈 美西時間 5.20,美國加州山景城,海岸線圓形劇場,谷歌 I/O 大會。
今天(5 月 20 日),是雙子星座(Gemini)的第一天,但這沒什麼大不了的。在 Google,每天都是 Gemini(雙子星座)的季節。
Google CEO Sundar Pichai(劈柴哥)在大會的開始玩了個英語雙關,同時也奠定了本次大會的基調——
Google 正全面進入「Gemini 時代」。
  • Gemini Ultra
  • Gemini 2.5 Pro Deep Think
  • Veo3 影片生成模型
  • Imagen 4 影像生成模型
  • Project Mariner  人工智慧代理
  • Project Astra 多模態人工智慧代理
等等。。。
這些只是本次開場 KeyNote 的一部分內容,還有:
  • Google Meet 即時語音翻譯
  • Personal Context 個性化記憶
  • Ironwood 第 7 代 TPU
東西實在是太多,有模型,有應用,有硬體,把這些串起來的,就是——
Gemini 不再是 Google 的一個 AI 模型,而是貫穿 Google 整個生態系統的核心驅動力。
如果說這次是 Google 給開發者準備的一場盛宴,那我們就直接上菜。

模型

Gemini 2.5 Pro

本次大會,最不出乎意料的,就是 Gemini 2.5 Pro。
兩週前放出的最佳化版,已經算是完成了預熱功能,大家也已經見識過它的能力。
因此,劈柴哥在最開始就非常自豪的介紹了該模型的實力:

在 LMArena 測評中,總分第一,各項子能力也全部第一,這用碾壓式領先形容不足為過。
LMArena 榜單,綜合評價模型的寫作,程式碼,數學,指令服從,多輪對話能力。

Gemini 2.5 Pro Deep Think

對於某些任務來說,Gemini 2.5 Pro 還不夠強,那咋辦?
簡單,加 Deep Think Buff。
就是讓模型花更長的時間進行“思考”,換回來更好的答案。

按照 Google 給的資料,在數學,程式設計,多模態任務上,Gemini 2.5 Pro Deep Think 要比 OpenAI 家的 o3 模型要好。
這個功能目前還用不上,只在“可信任使用者”中進行安全測試。

Gemini 2.5 Flash

不能忘了 Gemini 家族中的小老弟,Gemini  2.5 Flash。
按照 DeepMind CEO Demis Hassabis (哈爺)的介紹:那是在幾乎所有的方面都要更好,

在 LMArena 的 Elo Score 中,得分僅次於大哥 Gemini 2.5 Pro。
ELO 是一種透過模型之間兩兩匿名對比(類似下棋)的結果,來計算和更新各個模型相對實力排名的方法.

Gemini 2.5 Flash:在家裡我是弟弟,在外面要叫我喪彪。
模型就到此為止。

AI 搜尋

外面有一種說法:有了大模型之後,搜尋就不重要了。
對於這種言論,搜尋一哥的回答簡單明瞭:
我不同意。
Google 在搜尋中,引入了新功能,AI Mode

該功能透過更高階的推理,使用者可以提出更長的、更復雜的查詢。
該模式的底層, 將使用者的問題分解為子主題,並同時為發出多個查詢。這使得 Google AI Mode 搜尋能夠比傳統的 Google 搜尋更深入地探索網路,發現更多網路資源,並找到與使用者問題精準匹配的內容。
根據 Google 後臺資料顯示,當使用 AI Mode,使用者每次搜尋的時間,長度是傳統搜尋的 2~3 倍長。

AI 不但沒有代替掉搜尋,反而大大加強了使用者對於搜尋的需求。

應用

即時翻譯

語言障礙已經不再是問題。
先是文字,現在是對話。
Google Meet 中引入了一個即時翻譯的功能,可以用很低的延時,將一種語言的語音,翻譯成另一種語言的語音。

演示影片中,兩人一個說英語,一個說西班牙語,可以做到即時聊天對話。

Gemini Live

藉助模型的多模態能力,現在可以透過攝像頭,和 AI 即時聊任何被攝像頭拍到的東西。
這個功能不是期貨,目前在 Android 和 iOS 已經可以使用。

Project Mariner

這是 Google 的一個 AI 代理研究原型,可以與網頁進行互動並完成任務。

AI 代理大家已經很熟悉了,但 Google 家的優勢在於:
  • 多工並行處理能力,可以同時幹 10 件事兒。
  • 自主學習能力,你可以教它完成一個任務,學會後就會執行相似的任務。

智慧硬體

Google Beam

“一個 AI 優先的影片通訊平臺。”
這個產品採用軟體和硬體相結合的方式,包括六攝像頭陣列和定製光場顯示器,讓使用者能夠像身處同一會議室一樣與他人交談。AI 模型將攝像頭(這些攝像頭以不同角度朝向使用者)拍攝的影片轉換為 3D 渲染圖。
據介紹,該產品擁有“近乎完美”的毫米級頭部追蹤和 60fps 的影片流傳輸。與 Google Meet 配合使用時,Beam 提供 AI 驅動的即時語音翻譯功能,可保留原始說話者的聲音、語調和表情。
這個產品的初級形態,好多年前 Google 就已經有了,但一直沒有下文,還以為被砍了。
這次藉助 AI,終於要上線,不過價格,盲猜是買不起的那種。

Android XR

Android XR,是 Google Gemini Everywhere 戰略的一部分。
該戰略的核心,就是 Google 所有硬體,從手錶到汽車,只要執行 Google 的產品,那就要有 Gemini。
對於智慧眼鏡,Google 認為它們是沒有一個單一的方案。

Google 為此推出了兩種不同型別的產品。
第一款是聯合三星一起出品的智慧頭顯,Project Moohan:

這就是 Google 版的 Vision Pro(如果你還記得 Apple 的 Vision Pro),可以隨時呼叫 Gemini。
同時,還聯合 GENTLE MONSTER 和 WARBY PARKER,推出了 AR 眼鏡。
眼鏡上配備的攝像頭,麥克風,鏡片顯示器,還可以即時呼叫 Gemini 的多模態,語音能力。

我想這就是早在十幾年前,第一代 Google Glasses 的目標產品吧。

多模態能力

這一部分,就放一起說了。
Imagen 4,強化了文字能力,可以生成正確的,多種風格的文字,直接看效果:

而且生成的速度比之前快 10 倍。
Veo3,影片生成 AI,而且還可以讓生成的角色開口說話,直接看演示:
這語氣,這動作,Amazing!!
Lyria2,音樂生成 AI:
音樂我不懂,懂行的小夥伴可以評論區介紹一下。
該功能目前已經在 Vertex AI,Youtube 短影片和 Music AI Sandbox 中上線。
Flow,AI 驅動的電影製作軟體:

可以用於分鏡的設計,並且保持高度的一致性。
這次大會真的是讓人眼花繚亂。
導致寫這篇稿子的時候,犯了選擇困難症。
感覺什麼都想寫,但實在是做不到。
還有用於檢測 AI 數字水印的 synthID,Ironwood TPU,MCP, Personal Context 等(對,這裡都要放個等)。
這波大模型的浪潮,Google 從最開始被 ChatGPT 打的不知所措,到後來的碌碌無為,再到現在的井噴式爆發。
Google,還是那個 Google。

One More Thing

Google 這次還放出了一個 249.99 美元的訂閱,Google AI Ultra。
就是那種所有模型都可以使用最新,最強,限制最少的版本。

瞬間覺得手裡 19.99 美元的 Pro 訂閱不香了。
我就想問:老闆,給報銷不?

相關文章