大模型終於通關《寶可夢藍》！網友：Gemini2.5Pro酷爆了

2025-09-16 18:52 量子位

魚羊發自凹非寺量子位 | 公眾號 QbitAI

就在剛剛，Gemini 2.5 Pro在直播中通關了《寶可夢藍》！

谷歌CEO劈柴哥第一時間興奮官宣，放出通關時刻珍貴影像：

大模型這一小步，把網友們也整嗨了。

滿屏畫風皆是：泰！酷！辣！

這回，Gemini的自我介紹裡可以多一條了：首個成為寶可夢聯盟冠軍、登入《寶可夢藍》名人堂的大模型。（doge）

要知道，一年前的舊模Claude 3.5還只能勉強走出新手村到達常磐森林，2個月前，Claude 3.7倒是終於能擊敗道館主了，但也並未通關寶可夢。

Gemini 2.5 Pro通關寶可夢

遊戲已通關，但直播仍繼續。

畫面是醬嬸的：

有一說一，過程看上去是有那麼點無聊，因為每動一步Gemini都要深思熟慮……

左邊的文字框裡顯示了Gemini每個行動背後的詳細思考過程。

在上面這個片段中，Gemini的主要目標是探索華藍洞穴，尋找和捕獲超夢。

直播中可以看到，在完成了一長序列動，走到了目標位置之後，Gemini 2.5 Pro足足思考了40多秒，消耗76011個token，才開啟下一步的行動規劃。

（因為有點迷路，Gemini後面還想了很久很久……）

不過從這些思考過程中，可以清晰地看到大模型是怎麼理解寶可夢遊戲的。

總結起來，Gemini玩寶可夢的基本步驟如下：

擷取螢幕截圖並檢索遊戲狀態資料
用網格覆蓋處理影像，以輔助空間推理
將螢幕截圖和遊戲資訊傳送給模型
AI決定是直接響應還是呼叫專門的智慧體
解析響應內容，以確定按下哪個按鈕
執行按鈕按下操作，並等待遊戲更新
對下一幀重複該過程

如果你對Gemini的寶可夢直播感興趣，可以在twitch上搜索“gemini plays pokemon”，傳送門我們也會在文末奉上~

寶可夢難在哪兒？

儘管已經是聯盟冠軍，但可以看出的是，在寶可夢這樣一款最初主要面向兒童和青少年推出的遊戲中，大模型的表現明顯不如人類（經常一整個大迷路什麼的……）。

參照Claude Plays Pokémon專案研究人員的說法，這主要是因為大模型“視力不佳”。

以Claude為例，模型很難像人類一樣去解讀Game Boy螢幕裡展現出的低解析度、畫素化的世界。

同時，遊戲中的二維地圖看上去對未經專門訓練的大模型而言也充滿挑戰性。

我們很容易理解（遊戲中）的建築物就是建築物，是無法穿過的。

這對Claude來說卻相當有挑戰性。

△圖源：Anthropic

另外，模型上下文的限制也影響了它們在遊戲中的表現。

不過，在遊戲中偏文字的部分，此前Claude就已經有驚豔表現。

比如，在寶可夢對戰中，當遊戲提示電屬性寶可夢的攻擊對岩石屬性對手“效果不佳”時，Claude能馬上get到其中的意思，並在此後將這些知識整合到自己的戰鬥策略裡。

現在，谷歌率先實現了新的突破，並表示還將在這個有趣的挑戰中進行更多探索（直播將至少持續數天）。

或許真的像網友所說：

以後測試大模型的基準要變成誰能更快通關寶可夢了。

直播地址：https://www.twitch.tv/gemini_plays_pokemon

參考連結：[1]https://x.com/sundarpichai/status/1918455766542930004[2]https://arstechnica.com/ai/2025/03/why-anthropics-claude-still-hasnt-beaten-pokemon/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見

相關文章

小小井字棋難倒大模型？？大神卡帕西被OpenAI線上踢館了

小小井字棋難倒大模型？？大神卡帕西被OpenAI線上踢館了

Gemini2.0原生繪畫能力驚豔我了，兌現了我對GPT-4o曾經的幻想！

Gemini2.0原生繪畫能力驚豔我了，兌現了我對GPT-4o曾經的幻想！

Claude3.7硬控馬里奧90秒，GPT-4o開局暴斃！Karpathy直呼基準失效，遊戲成LLM新戰場

Claude3.7硬控馬里奧90秒，GPT-4o開局暴斃！Karpathy直呼基準失效，遊戲成LLM新戰場

谷歌曝兩款「機器人AI模型」；英特爾任命新CEO，股價大漲11％；253億！《寶可夢Go》出售|極客早知道

谷歌曝兩款「機器人AI模型」；英特爾任命新CEO，股價大漲11％；253億！《寶可夢Go》出售|極客早知道

小紅書、攜程統統靠邊站，GoogleGemini打造個性化旅遊新體驗

小紅書、攜程統統靠邊站，GoogleGemini打造個性化旅遊新體驗

英國4月超多活動等你解鎖：鬱金香季賞花，藝術節電音節，美食快閃…超好玩！！

英國4月超多活動等你解鎖：鬱金香季賞花，藝術節電音節，美食快閃…超好玩！！

人類自愧不如：DeepSeekR1、o3-mini和Gemini2.0思考過程大橫評，AI們比你腦子清楚多了

人類自愧不如：DeepSeekR1、o3-mini和Gemini2.0思考過程大橫評，AI們比你腦子清楚多了

我讓AI做了一個網站，預測了未來3個月的比特幣走勢！

我讓AI做了一個網站，預測了未來3個月的比特幣走勢！

谷歌終於登頂一次了！最強推理模型Gemini2.5Pro實測體驗，真的有點東西

谷歌終於登頂一次了！最強推理模型Gemini2.5Pro實測體驗，真的有點東西

谷歌擴充套件GeminiCodeAssist，支援Atlassian、GitHub和GitLab

谷歌擴充套件GeminiCodeAssist，支援Atlassian、GitHub和GitLab

Copyright © 2025 | WordPress Theme by MH Themes