機器之心報道
機器之心編輯部
一直以來,AI 領域的研究者都喜歡讓模型去挑戰那些人類熱衷的經典遊戲,以此來檢驗 AI 的「智慧程度」。
例如,在 Atari 遊戲、圍棋(如 AlphaGo)或《星際爭霸》等環境中,遊戲規則明確,邊界清晰,研究者可以精確控制變數(如難度、初始狀態、隨機性等),確保實驗的可重複性。而 AlphaGo 的勝利能直接證明其策略能力,是因為遊戲的勝負、得分或任務完成度也天然提供了直觀的評估標準(如勝率、通關時間、得分高低),無需設計複雜的評價指標。
此前,有開發者用 AI 挑戰過經典之作《神奇寶貝》。這個遊戲的畫風雖然簡單,但是身為策略遊戲,其中包含的角色、屬性、戰術、體系等,都讓人類玩家感到「入門容易精通難」。一開始,AI 沒有任何的知識和經驗,只能夠隨機按下按鈕。但在五年的模擬遊戲時間裡,它在經歷中習得了更多能力。最終,AI 能夠抓住寶可夢,進化它們,並擊敗了道館館主。
當我們以為這已經算是高難度的時候,《超級馬里奧兄弟》再次重新整理了大模型效能測試基準的上限。
最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」專案,這是一項測試 AI 效能的新方法,專為即時動作遊戲而構建。
專案地址:https://github.com/lmgame-org/GamingAgent
團隊採用了《超級馬里奧兄弟》等平臺遊戲與《2048》、《俄羅斯方塊》等益智遊戲,作為不同 AI 模型的試驗場。

GPT-4o 表現

Claude-3.7 表現
這是 Claude 3.7 在《俄羅斯方塊》中的表現:
Claude 3.7 表現最好
GPT-4o 舉步維艱
這次的一系列實驗並不是透過 1985 年版的《超級馬里奧兄弟》完成的,而是透過包含 GamingAgent 的模擬器完成的。
實驗室發現,這種獨特的遊戲環境迫使每個模型設計複雜的操作和遊戲策略,從而能夠考驗出它們的適應能力和解決問題的能力。
GamingAgent 模擬器為 AI 提供基本指令和遊戲截圖,指令類似於:「如果附近有障礙物或敵人,請向左移動 / 跳躍以躲避。」然後 AI 透過 Python 程式碼生成輸入,從而控制馬里奧。
在下圖的演示中,是四個大模型挑戰超級馬里奧兄弟 1-1 級的結果。Anthropic 的 Claude 3.7 表現最好,其次是 Claude 3.5。遺憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表現不佳。

有趣的是,儘管 OpenAI 的 GPT-4o 等推理模型在大多數基準測試中總體表現更好,但在這種即時遊戲場景中的表現卻不佳。這是因為推理模型的決策過程較慢,通常需要幾秒鐘才能確定如何行動。
另一方面,非推理模型在超級馬里奧兄弟遊戲中表現更佳,因為時機就是一切,可以決定成敗。一秒鐘也能導致安全跳過和墜落然後「Game Over」之間的差別。
使用《超級馬里奧兄弟》之類的遊戲來對 AI 進行基準測試並不是一個新想法。但畢竟遊戲具備一些抽象性質,而且與現實世界的挑戰相比來說相對簡單,領域內的很多專家對其能否確定技術發展程度的價值表示擔憂。
換言之,上述測試未必能說明 Claude 3.7 和 GPT-4o 哪個更強大。
Andrej Karpathy 最近就陷入了「評估危機」:「我真不知道現在應該關注什麼(AI)指標。簡而言之,我的反應是,我真的不知道這些模型現在有多好。」

而對於不斷推出的前沿模型來說,如何判斷效能更是個難題。

AI 的「評估危機」
我們該如何衡量大模型的效能提升?
與此同時,有業內人士從另外一個維度提出了對大模型效能提升方向的質疑。
Hugging Face 的聯合創始人兼首席科學官 Thomas Wolf 週四在 X 平臺發文,表達了對 AI 未來的深切憂慮。他擔心在缺乏根本性研究突破的情況下,人工智慧將淪為「伺服器上的好好先生」。在他看來,當前的人工智慧發展路徑難以培養出真正具備創造性思維的系統 —— 那種能夠摘取諾貝爾桂冠的突破性思考能力。

「人們常犯的錯誤是把牛頓或愛因斯坦簡單地視為優等生的放大版,彷彿天才只是把成績靠前的學生線性延伸出來的結果,」Wolf 寫道,「在資料中心裡打造一個愛因斯坦,我們需要的不是一個萬事通,而是一個敢於提出前人未曾想到或不敢發問的問題的系統。」
這一觀點與 OpenAI 執行長奧特曼(Sam Altman)的說法形成鮮明對比,後者在今年早些時候撰文稱「超級智慧」能「極大加速科學發現」。同樣,Anthropic 公司執行長 Dario Amodei 也預測,AI 將助力大多數癌症的治療方案研發。
Wolf 認為當下 AI 的問題在於:它不能透過連線原本不相關的事實來創造新知識。即使擁有網際網路上的海量資訊,現今的 AI 主要只是在填補人類已有知識之間的空白。
包括前谷歌工程師弗朗索瓦・喬萊(François Chollet)在內的一些人工智慧專家也表達了類似的觀點,他們認為 AI 雖能記憶推理模式,但難以針對全新情境產生真正的「新推理」。
Wolf 認為,AI 實驗室目前打造的只是「極其聽話的學生」,而非科學革命的締造者。當今的 AI 不被鼓勵質疑或提出可能與訓練資料相悖的想法,這使其僅能回答已知範圍內的問題。
「在資料中心裡打造一個愛因斯坦,關鍵在於培養一個能提出前人未曾想到的問題的系統,」沃爾夫強調,「一個當所有教科書、專家和常識都持相反觀點時,仍會問『如果大家都錯了呢?』的系統。」
Wolf 指出,AI 領域的「評估危機」是問題的癥結所在。目前評估 AI 進步的標準大多由具有明確、顯而易見的「封閉式」答案的問題構成。
作為解決之道,Wolf 建議行業轉向能夠評估 AI 是否具備「大膽的反常規思考」、基於「微弱線索」提出普適性建議,以及提出能開闢「研究新徑」的「非顯而易見問題」的能力標準。
他承認,確定這種評估標準的具體形式是個難題,但認為這值得投入精力。
「科學的精髓在於提出正確問題並挑戰既有知識的能力,」Wolf 總結道,「我們不需要一個靠常識拿 A+ 的學生,而需要一個能看到並質疑所有人都忽略之處的 B 等生。」
參考連結:
https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/
https://techcrunch.com/2025/03/06/hugging-faces-chief-science-officer-worries-ai-is-becoming-yes-men-on-servers/
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]