谷歌“狙擊”OpenAI，釋出新一代大模型！主打Agent+多模態

2025-09-12 20:56 程式設計師的那些事

魚羊西風發自凹非寺

量子位 | 公眾號 QbitAI

繼量子晶片之後，谷歌又來搶“OpenAI雙12直播”的流量了！

就在剛剛，谷歌新一代大模型Gemini 2.0突然登場，再次由谷歌CEO皮猜親自官宣。

新一代模型專為AI Agent而打造，谷歌表示目前已經將2.0版本提供給了一些開發者內測，正在迅速將其整合在Gemini和搜尋等產品線中。

好訊息是，Gemini 2.0 Flash實驗版模型今天就在網頁端開放，大家都能玩，移動端即將推出。

除此之外，谷歌還推出了一項名為深度研究（Deep Research）的新功能，基於高階推理和長上下文能力，它能直接幫你幹研究助理的活兒——給個主題，自己出報告的那種。

目前這個新功能在Gemini Advanced版本中可用。

谷歌這一波出手，再結合Sora的不盡如人意，新一天的直播還沒開始，已經有人開始唱衰OpenAI了：

OpenAI的護城河是什麼？

“面向智慧體時代的新AI模型”

在谷歌CEO皮猜、Google DeepMind CEO哈薩比斯，以及Google DeepMind CTO科雷（Koray Kavukcuoglu）三人共同撰寫的部落格文章中，官方給Gemini 2.0的定位是：

面向智慧體時代的AI模型。

在多模態方面的新進展，以及原生工具的使用，使我們能夠構建新的AI智慧體，以更接近實現通用助手的願景。

具體如何體現？在Gemini 2.0 Flash實驗版第一時間上線的同時，谷歌還在Gemini Advanced中推出了一項名為深度研究（Deep Research）的智慧體新功能。

你可以把它當成以研究助理，圍繞一個複雜主題生成研究報告。有點像是個科研版AI搜尋。

另外一個Gemini 2.0的重點關鍵詞是：多模態。

2.0 Flash實驗版除了支援影像、影片、音訊多模態輸入，還支援多模態輸出。

不單單是簡單的圖文混排，可控的多語種文字到語音（TTS）輸出也行，還能直接本地呼叫工具，比如谷歌搜尋、程式碼工具、第三方使用者定義的功能。

有ChatGPT外掛那味兒了。

不過，作為實驗模型，其文字到語音和原生影像生成功能目前僅提供給早期訪問合作伙伴。谷歌透露2.0 Flash將在1月份正式推出，會提供更多不同大小的模型。

而根據谷歌釋出的基準測試結果，不論是在多模態的圖片、影片能力上，還是編碼、數學等能力上，僅是Flash實驗版的Gemini 2.0表現就已幾乎全面超越Gemini 1.5 Pro 002。

而且它的速度是1.5 Pro的兩倍。

谷歌表示，明年年初，會將Gemini 2.0擴充套件到更多旗下產品中，比如Project Astra。

就是I/O大會上谷歌推出來跟GPT-4o的語音功能打擂臺的那個。

此次，基於Gemini 2.0，Project Astra更新了以下功能：

更好的對話：現在能夠以多種語言和混合語言進行對話，更好地理解口音和不常見的單詞。
使用新工具：Project Astra會用谷歌搜尋、Lens和地圖了。
更強的記憶力：Project Astra現在擁有10分鐘的會話記憶，並且可以記住更多歷史對話，也就說，憑藉這些“記憶”，它能更懂你了。
改進延遲：Project Astra可以按正常人類對話的節奏來理解對話。

谷歌還提到，正在將Project Astra移植到眼鏡等更多移動終端中。

另外，谷歌透露，他們正在和Supercell等遊戲開發商合作，測試基於Gemini 2.0打造的遊戲智慧體們的實力。

這些智慧體可以根據螢幕上的動作對遊戲進行推理，並與玩家即時對話提供行動建議。

玩《突擊小隊》、《部落衝突》、《農場日記》，場面belike：

除了網頁端可用，Gemini 2.0 Flash實驗模型還透過Google AI Studio和Vertex AI的Gemini API向開發者提供。

從OpenAI跳槽到谷歌的Logan Kilpatrick表示，他們在Google AI Studio中建立了一個全新體驗，展示了Gemini 2.0影片理解、原生工具使用、空間理解的入門應用。

那麼，你覺得這夠Agent嗎？

參考連結：

[1]

https://x.com/GoogleDeepMind/status/1866869343570608557
[2]https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents

– EOF –

推薦閱讀點選標題可跳轉

1、位元組起訴前實習生，索賠 800 萬

2、曾經對程式設計師最好的公司，撤退了

3、Linux 版微信選了這個 90 年代的“過氣”框架

4、世界上最偉大最邪惡的軟體發明，超10億電腦安裝

5、曾硬剛小米，估值 60 億美元的獨角獸被宣佈破產

關注「程式設計師的那些事」加星標，不錯過圈內事

點贊和在看就是最大的支援❤️

相關文章

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍！

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍！

谷歌釋出Geimini2.0，開啟Agent新時代

谷歌釋出Geimini2.0，開啟Agent新時代

吊打DeepSeekR1！！！谷歌Gemini2.0“閃電思維”一齣，直接封神…

吊打DeepSeekR1！！！谷歌Gemini2.0“閃電思維”一齣，直接封神…

谷歌Gemini突襲ChatGPT，全新升級讓AI更懂你！DeepResearch人人免費用

谷歌Gemini突襲ChatGPT，全新升級讓AI更懂你！DeepResearch人人免費用

谷歌推出GeminiCodeAssist免費版，預設收集使用者程式碼來改進模型

谷歌推出GeminiCodeAssist免費版，預設收集使用者程式碼來改進模型

谷歌又發兩款全新AI模型：能指揮機器人整理桌面、摺紙，操作異常絲滑

谷歌又發兩款全新AI模型：能指揮機器人整理桌面、摺紙，操作異常絲滑

谷歌宣佈GeminiAI支援MCP協議將幫助AI模型呼叫外部資源提升實用性和靈活性

谷歌宣佈GeminiAI支援MCP協議將幫助AI模型呼叫外部資源提升實用性和靈活性

Gemini2.0霸榜，價格卷哭DeepSeekV3，價效比新王誕生！

Gemini2.0霸榜，價格卷哭DeepSeekV3，價效比新王誕生！

AI聊天機器人都能教唆人類自殺了？

AI聊天機器人都能教唆人類自殺了？

Copyright © 2025 | WordPress Theme by MH Themes