谷歌“狙擊”OpenAI,釋出新一代大模型!主打Agent+多模態

魚羊 西風 發自 凹非寺

量子位 | 公眾號 QbitAI
繼量子晶片之後,谷歌又來搶“OpenAI雙12直播”的流量了!
就在剛剛,谷歌新一代大模型Gemini 2.0突然登場,再次由谷歌CEO皮猜親自官宣。
新一代模型專為AI Agent而打造,谷歌表示目前已經將2.0版本提供給了一些開發者內測,正在迅速將其整合在Gemini和搜尋等產品線中。
好訊息是,Gemini 2.0 Flash實驗版模型今天就在網頁端開放,大家都能玩,移動端即將推出。
除此之外,谷歌還推出了一項名為深度研究(Deep Research)的新功能,基於高階推理和長上下文能力,它能直接幫你幹研究助理的活兒——給個主題,自己出報告的那種。
目前這個新功能在Gemini Advanced版本中可用。
谷歌這一波出手,再結合Sora的不盡如人意,新一天的直播還沒開始,已經有人開始唱衰OpenAI了:
OpenAI的護城河是什麼?

“面向智慧體時代的新AI模型”

在谷歌CEO皮猜、Google DeepMind CEO哈薩比斯,以及Google DeepMind CTO科雷(Koray Kavukcuoglu)三人共同撰寫的部落格文章中,官方給Gemini 2.0的定位是:
面向智慧體時代的AI模型。
在多模態方面的新進展,以及原生工具的使用,使我們能夠構建新的AI智慧體,以更接近實現通用助手的願景。
具體如何體現?在Gemini 2.0 Flash實驗版第一時間上線的同時,谷歌還在Gemini Advanced中推出了一項名為深度研究(Deep Research)的智慧體新功能。
你可以把它當成以研究助理,圍繞一個複雜主題生成研究報告。有點像是個科研版AI搜尋
另外一個Gemini 2.0的重點關鍵詞是:多模態
2.0 Flash實驗版除了支援影像、影片、音訊多模態輸入,還支援多模態輸出。
不單單是簡單的圖文混排,可控的多語種文字到語音(TTS)輸出也行,還能直接本地呼叫工具,比如谷歌搜尋、程式碼工具、第三方使用者定義的功能。
有ChatGPT外掛那味兒了。
不過,作為實驗模型,其文字到語音和原生影像生成功能目前僅提供給早期訪問合作伙伴。谷歌透露2.0 Flash將在1月份正式推出,會提供更多不同大小的模型。
而根據谷歌釋出的基準測試結果,不論是在多模態的圖片、影片能力上,還是編碼、數學等能力上,僅是Flash實驗版的Gemini 2.0表現就已幾乎全面超越Gemini 1.5 Pro 002。
而且它的速度是1.5 Pro的兩倍。
谷歌表示,明年年初,會將Gemini 2.0擴充套件到更多旗下產品中,比如Project Astra。
就是I/O大會上谷歌推出來跟GPT-4o的語音功能打擂臺的那個。
此次,基於Gemini 2.0,Project Astra更新了以下功能:
  • 更好的對話:現在能夠以多種語言和混合語言進行對話,更好地理解口音和不常見的單詞。
  • 使用新工具:Project Astra會用谷歌搜尋、Lens和地圖了。
  • 更強的記憶力:Project Astra現在擁有10分鐘的會話記憶,並且可以記住更多歷史對話,也就說,憑藉這些“記憶”,它能更懂你了。
  • 改進延遲:Project Astra可以按正常人類對話的節奏來理解對話。
谷歌還提到,正在將Project Astra移植到眼鏡等更多移動終端中。
另外,谷歌透露,他們正在和Supercell等遊戲開發商合作,測試基於Gemini 2.0打造的遊戲智慧體們的實力。
這些智慧體可以根據螢幕上的動作對遊戲進行推理,並與玩家即時對話提供行動建議。
玩《突擊小隊》、《部落衝突》、《農場日記》,場面belike:
除了網頁端可用,Gemini 2.0 Flash實驗模型還透過Google AI Studio和Vertex AI的Gemini API向開發者提供。
從OpenAI跳槽到谷歌的Logan Kilpatrick表示,他們在Google AI Studio中建立了一個全新體驗,展示了Gemini 2.0影片理解、原生工具使用、空間理解的入門應用。
那麼,你覺得這夠Agent嗎?

參考連結:

[1]

https://x.com/GoogleDeepMind/status/1866869343570608557
[2]https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents

– EOF –
關注「程式設計師的那些事」加星標,不錯過圈內事
點贊和在看就是最大的支援❤️


相關文章