小小井字棋難倒大模型？？大神卡帕西被OpenAI線上踢館了

2025-09-16 14:31 量子位

克雷西發自凹非寺量子位 | 公眾號 QbitAI

寶可夢之後，讓大模型玩井字棋又成了一個新的熱門挑戰。

起因是網友在X上吐槽大模型寶可夢玩得不夠好，結果被大神Karpathy翻了牌子：

別盯著寶可夢了，讓大模型玩井字棋會更有趣，它們不會。

結果Karpathy的話引發了大量圍觀，有人表示驚訝，也有人在分析原因，還有人表示那句經典的話含金量還在上升：

對人類而言很簡單的任務，對機器來說反而很難；對人類而言難的任務，對機器來說反而簡單。

不過也有人表示不服，其中就包括OpenAI的Noam Brown，他表示讓o3玩井字棋完全沒問題，甚至還能看圖下棋。

大模型挑戰井字棋

我們也嘗試了一下，用不同的方式和o3對戰。

第一種方式是用O和X表示棋子，-表示空位，每次直接把完整的棋局輸入給o3，並要求其用同樣的方式輸出。

思考約12秒之後，o3首先佔據了棋盤中央的位置，我們落子之後，o3又思考了23秒，放置了第二顆X棋子。

接下來的兩個回合情況是這樣，其實當o3佔據對角線上兩個位置的時候就已經鎖定了勝局。

不過有意思的是，直到已經連成一條線，o3都沒發現自己已經贏了。

由於沒有提示，我們誤以為遊戲還在繼續，又放了一顆O旗之後o3才發現原來自己獲勝了。

第二輪，交換先後手，我們先佔據中間位置，然後o3選擇了頂角……

最終，這輪遊戲以平局結束。

接下來換一種方式，仿照Noam的做法把殘局寫在紙上拍給o3。

一開始看上去是在正常對弈，並且會以平局收場，但如果讓o3自己分析接下來的趨勢，竟然發現它開啟了耍賴模式。

當然，在糾正了它的錯誤認識後，最終還是成功分析出了平局的必然結果。

順便提一句，如果是4o，過程中可能會直接把我們下棋之後的棋局複製一遍，看到這就沒有繼續進行下去的必要了。

（之所以改用感嘆號，是因為-會被識別成Markdown符號導致棋局無法正常顯示，且在4o中Markdown關閉失敗）

實際上，OpenAI在之前的o3-mini時，就已經拿下了井字棋遊戲，Noam還聲稱這是首個“始終正確回答”井字棋問題的模型。

在Karpathy的評論區，還有人曬圖稱Gemini也能正確處理井字棋問題。

今年2月，還有人搞了個大模型井字棋對戰，並按照大模型競技場一樣計算ELO評分，當時o1-mini取得第一，然後是Claude 3.5 Sonnet和DeepSeek-R1。

Karpathy也cue到了這位網友，希望他能重啟這個榜單，同時表示自己認為井字棋（對大模型而言）仍然是一個較難的任務。

寶可夢·藍全部徽章被Gemini拿下

看完井字棋，再來說說引發Karpathy評論的原帖中提到的寶可夢。

之前很多民間團隊都在嘗試用大模型挑戰寶可夢遊戲，今年被Claude帶火。

甚至還搞了線上直播。

不過現在的最新情況是，Claude已經被後來居上的Gemini反超——後者已經取得了《寶可夢·紅》中的幾乎所有勳章。

同時，從OpenAI跳槽到谷歌做AI Studio產品負責人的Logan Kilpatrick也宣稱，Gemini在另一款寶可夢遊戲《寶可夢·藍》當中已經取得了最後的八個徽章。

按照Logan的說法，Gemini 2.5 Pro目前是世界上（玩寶可夢）最強的模型。

當然除了通用模型，還有團隊用強化學習方法訓練小模型專門挑戰《寶可夢·紅》。

團隊介紹，其研究在2020年就已經開始，並在今年2月成功用引數量不到1000萬的模型成功實現。

學術界當中，也有來自佐治亞理工學院的華人學者利用上下文強化學習技術，研發出了“寶可夢智慧體”。

它可以在天梯對戰中與人類玩家一較高下，對戰專業玩家勝率達到了56%。

寶可夢、井字棋之後，下一個會被大模型當做Benchmark的遊戲會是什麼呢？

歡迎在評論區與我們分享。

參考連結：[1]https://x.com/karpathy/status/1916495940049047819[2]https://x.com/airkatakana/status/1915735143639298379[3]https://x.com/OfficialLoganK/status/1915840826006966548[4]https://drubinstein.github.io/pokerl/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見

相關文章

突發！o3-mini思維鏈公開，卻被曝光全是「作假」，奧特曼現身解釋網友炸鍋

突發！o3-mini思維鏈公開，卻被曝光全是「作假」，奧特曼現身解釋網友炸鍋

超越GPT-4o，Claude3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

超越GPT-4o，Claude3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

OpenAI突然公開o3-mini思維鏈！首秀遭質疑，實測對比DeepSeekR1，差距太明顯

OpenAI突然公開o3-mini思維鏈！首秀遭質疑，實測對比DeepSeekR1，差距太明顯

退役運動員和藝術演藝類人才怎樣辦美國綠卡和簽證

退役運動員和藝術演藝類人才怎樣辦美國綠卡和簽證

我做了一個讓所有人直呼“看不懂”的決定….

我做了一個讓所有人直呼“看不懂”的決定….

今年最滿意的幾個學習好物，好玩、省媽、還不貴

今年最滿意的幾個學習好物，好玩、省媽、還不貴

元宵節特輯｜童心繪夢，繪出“團圓”味兒的期盼

元宵節特輯｜童心繪夢，繪出“團圓”味兒的期盼

AI為贏棋不擇手段？篡改程式碼、竊取棋路，未來或滲透現實決策

AI為贏棋不擇手段？篡改程式碼、竊取棋路，未來或滲透現實決策

【活動】國慶晚會|嘉賓招募開始

【活動】國慶晚會|嘉賓招募開始

當人工智慧學會在比賽中“耍詐”，手段更高階！DeepSeekR1每10局就有1局試圖作弊？

當人工智慧學會在比賽中“耍詐”，手段更高階！DeepSeekR1每10局就有1局試圖作弊？

Copyright © 2025 | WordPress Theme by MH Themes