克雷西 發自 凹非寺量子位 | 公眾號 QbitAI
寶可夢之後,讓大模型玩井字棋又成了一個新的熱門挑戰。
起因是網友在X上吐槽大模型寶可夢玩得不夠好,結果被大神Karpathy翻了牌子:
別盯著寶可夢了,讓大模型玩井字棋會更有趣,它們不會。

結果Karpathy的話引發了大量圍觀,有人表示驚訝,也有人在分析原因,還有人表示那句經典的話含金量還在上升:
對人類而言很簡單的任務,對機器來說反而很難;對人類而言難的任務,對機器來說反而簡單。

不過也有人表示不服,其中就包括OpenAI的Noam Brown,他表示讓o3玩井字棋完全沒問題,甚至還能看圖下棋。

大模型挑戰井字棋
我們也嘗試了一下,用不同的方式和o3對戰。
第一種方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局輸入給o3,並要求其用同樣的方式輸出。
思考約12秒之後,o3首先佔據了棋盤中央的位置,我們落子之後,o3又思考了23秒,放置了第二顆X棋子。

接下來的兩個回合情況是這樣,其實當o3佔據對角線上兩個位置的時候就已經鎖定了勝局。
不過有意思的是,直到已經連成一條線,o3都沒發現自己已經贏了。

由於沒有提示,我們誤以為遊戲還在繼續,又放了一顆O旗之後o3才發現原來自己獲勝了。

第二輪,交換先後手,我們先佔據中間位置,然後o3選擇了頂角……

最終,這輪遊戲以平局結束。

接下來換一種方式,仿照Noam的做法把殘局寫在紙上拍給o3。
一開始看上去是在正常對弈,並且會以平局收場,但如果讓o3自己分析接下來的趨勢,竟然發現它開啟了耍賴模式。

當然,在糾正了它的錯誤認識後,最終還是成功分析出了平局的必然結果。

順便提一句,如果是4o,過程中可能會直接把我們下棋之後的棋局複製一遍,看到這就沒有繼續進行下去的必要了。
(之所以改用感嘆號,是因為-會被識別成Markdown符號導致棋局無法正常顯示,且在4o中Markdown關閉失敗)

實際上,OpenAI在之前的o3-mini時,就已經拿下了井字棋遊戲,Noam還聲稱這是首個“始終正確回答”井字棋問題的模型。

在Karpathy的評論區,還有人曬圖稱Gemini也能正確處理井字棋問題。

今年2月,還有人搞了個大模型井字棋對戰,並按照大模型競技場一樣計算ELO評分,當時o1-mini取得第一,然後是Claude 3.5 Sonnet和DeepSeek-R1。
Karpathy也cue到了這位網友,希望他能重啟這個榜單,同時表示自己認為井字棋(對大模型而言)仍然是一個較難的任務。

寶可夢·藍全部徽章被Gemini拿下
看完井字棋,再來說說引發Karpathy評論的原帖中提到的寶可夢。
之前很多民間團隊都在嘗試用大模型挑戰寶可夢遊戲,今年被Claude帶火。

甚至還搞了線上直播。

不過現在的最新情況是,Claude已經被後來居上的Gemini反超——後者已經取得了《寶可夢·紅》中的幾乎所有勳章。

同時,從OpenAI跳槽到谷歌做AI Studio產品負責人的Logan Kilpatrick也宣稱,Gemini在另一款寶可夢遊戲《寶可夢·藍》當中已經取得了最後的八個徽章。
按照Logan的說法,Gemini 2.5 Pro目前是世界上(玩寶可夢)最強的模型。

當然除了通用模型,還有團隊用強化學習方法訓練小模型專門挑戰《寶可夢·紅》。
團隊介紹,其研究在2020年就已經開始,並在今年2月成功用引數量不到1000萬的模型成功實現。

學術界當中,也有來自佐治亞理工學院的華人學者利用上下文強化學習技術,研發出了“寶可夢智慧體”。

它可以在天梯對戰中與人類玩家一較高下,對戰專業玩家勝率達到了56%。

寶可夢、井字棋之後,下一個會被大模型當做Benchmark的遊戲會是什麼呢?
歡迎在評論區與我們分享。
參考連結:[1]https://x.com/karpathy/status/1916495940049047819[2]https://x.com/airkatakana/status/1915735143639298379[3]https://x.com/OfficialLoganK/status/1915840826006966548[4]https://drubinstein.github.io/pokerl/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
🌟 點亮星標 🌟