高中生用「我的世界」評測SOTA模型！Claude暫時領先，DeepSeek緊隨其後

2025-09-02 08:57 新智元

新智元報道

編輯：定慧

【新智元導讀】AI頻頻重新整理基準測試紀錄，卻算不清「strawberry」裡到底有幾個字母r，在人類看來很簡單的問題卻頻頻出錯。這種反差促使創意測評興起，例如由一名高中生開發的MC-Bench，用Minecraft方塊「競技場」模式評價AI能力。這種新的測評正規化，或許更貼合人類對AI直觀、創造效能力的實際期待。

「strawberry中有多少個r」和「在LSAT法學考試中獲得88分」哪個更難？

對於現如今的LMMs來說，透過各種人類「聽著就頭痛，看又看不懂」的基準測試似乎已是家常便飯。

比如DeepSeek-R1釋出時在6大基準測試（包含AIME、MMLU、MATH-500等）中超過o1取得領先。

但是對於人類來說依靠直覺和下意識就能回答的問題，LLM們似乎集體有點「發懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績，但卻無法數清楚「strawberry」中有多少r。

除了複雜的基準測試，另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進行上提問投票，選出面對相同問題時的「最佳模型」。

但是這種依靠Chat模式的評測依然不太直觀，於是各種各樣的創意評測就誕生了。

創意評測的魅力

Minecraft Benchmark（或 MC-Bench）像一個競技場，在一對一的挑戰中針對相同提示生成Minecraft作品。

「對決雙方」由使用者投票選擇哪個模型做得更好。

並且只有在投票後才能看到每個Minecraft建築是由哪個AI製作的。

目前MC-Bench的榜單上，Claude3.7暫時領先，deepseek-r1位列第5，但是考慮到DeepSeek-R1的釋出時間，Claude3.7、GPT-4.5和Gemini2.0都相當於是「新一代」的模型了，期待DeepSeek-R2出來後的榜單！

像MC-Bench這樣的創意評測，優勢非常明顯：普通人也能輕鬆參與，像「選美」一樣簡單直接。

創造MC-Bench專案的僅僅是一名高中生Adi Singh，在將Minecraft用於AI評測這件事情上，Adi Singh覺得Minecraft的價值不在遊戲本身。

而是作為有史以來最暢銷的電子遊戲，即使對於沒玩過Minecraft遊戲的人來說，仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發的，除了Adi Singh外，貢獻者還有7位，包括了「提示詞創意官」、技術主管和開發者們。

並獲得了Anthropic、Google和阿里巴巴等公司的技術支援。

傳統LLM評測：嚴肅認真但未必管用

傳統的AI基準測試技術被證明不足，主要體現在以下幾個方面：

主場優勢 (Overfitting to benchmarks)：傳統的 AI 基準測試往往基於特定型別的任務設計，這些任務對 AI 模型來說相對固定且簡單，這種過擬合就像一名「只會背題」的學生。
測試任務過於狹窄：傳統的測試任務多集中於單一維度的能力評估，如語言理解、邏輯推理、數學計算。
缺乏真實環境與開放性：傳統的基準測試通常使用高度抽象化或理論化的環境，而這些環境往往不能反映現實世界中問題的開放性和不確定性。
難以衡量通用性與泛化能力：傳統 AI 基準測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構建者正在轉向更有創意的方法來評估Gen-AI模型的能力。

AI開發者們表示，我們也想玩點「新鮮的」。

MC-Bench的本質是在測試AI模型的文字理解和編碼能力。

透過類似Chatbot Arena的方式來進行模型評比。

對於為何選擇遊戲，選擇Minecraft，Adi Singh覺得「遊戲可能只是一種測試能動性推理的媒介，比現實生活更安全，也更適合測試目的，因此在我看來更為理想」。

從Adi Singh個人網站來看，他對於使用Minecraft方塊進行AI評測應該是「蓄謀已久」，Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如，gpt-4.5根據提示「構建一艘在雲層中飛行的蒸汽朋克風格飛艇」。

再比如，claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型，根據提示「韓國友誼之鐘」生成。

並且，社群成員對MC-Bench的評價也很高。

比如目前就職於OpenAI的基礎研究員Aidan McLaughlin，對Minecraft Bench給予了很高的評價：你應該密切關注MC-Bench！

Aidan McLaughlin同時給出了他認為最佳的人工智慧基準應具有：

審計資料的樂趣（與其他所有基準測試都不同）
測試真正關心的功能（程式碼、美學、意識）
甚至可以辨別頂級型號之間的效能差異

遊戲測評AI似乎依然是「主流創意」

在Claude 3.7 Sonnet釋出時說過，模型降低了在數學、競賽和程式設計方面的特化程度，有「更好」的思考能力。

那麼如何評測新模型的「思考」能力呢？

答案就是遊戲《寶可夢》，這不是開玩笑。

Claude透過配備了透過程式來操控遊戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩遊戲的全過程，可以看到它如何學習、思考並採取行動。

不論是傳統的基準測試，還是類似MC-Bench的創意測試。

對於生成式AI的能力評測，目前依然沒有一個「一勞永逸」的標準。

傳統基準測試的評估結果多采用單一的客觀分數（如準確率），忽視了人類實際感受和主觀評價的維度。

在生成式AI中，美學感知、創造力、直觀性往往更加重要，但這些因素很難在傳統的標準化測試中體現出來。

也許類似MC-Bench這樣的創意評測會給未來的AI評測帶來新的「正規化」。

而新的AI評測「正規化」也許會加速推動AI的發展。

參考資料：

https://mcbench.ai/

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html

相關文章

近千個反現實影片構建了「不可能」基準，哪個AI不服？來戰！

近千個反現實影片構建了「不可能」基準，哪個AI不服？來戰！

從遊戲到電影，《我的世界》憑什麼“搶錢”？

從遊戲到電影，《我的世界》憑什麼“搶錢”？

深夜重磅！全球首個混合推理模型釋出，Claude能「思考」了，實測發現這些細節

深夜重磅！全球首個混合推理模型釋出，Claude能「思考」了，實測發現這些細節

微軟沒有計劃推出我的世界（Minecraft）續集或免費版現有版本會持續更新

微軟沒有計劃推出我的世界（Minecraft）續集或免費版現有版本會持續更新

GPT-4.1偷偷開跑？神秘模型上線三天已被玩瘋，網友發現大量OpenAI痕跡

GPT-4.1偷偷開跑？神秘模型上線三天已被玩瘋，網友發現大量OpenAI痕跡

微軟25億重金收購、全球最暢銷遊戲…《我的世界》如何用一行程式碼改變世界？

微軟25億重金收購、全球最暢銷遊戲…《我的世界》如何用一行程式碼改變世界？

麥當勞X我的世界Minecraft套餐上市！12款限量版手辦比手快啦！

麥當勞X我的世界Minecraft套餐上市！12款限量版手辦比手快啦！

這款爆火全球的遊戲每月1.7億人瘋玩！這款畫素遊戲憑啥逆襲成“聯名收割機”？

這款爆火全球的遊戲每月1.7億人瘋玩！這款畫素遊戲憑啥逆襲成“聯名收割機”？

全體方塊人注意！麥當勞和Minecraft的史詩級聯動來了：買套餐送限量周邊

全體方塊人注意！麥當勞和Minecraft的史詩級聯動來了：買套餐送限量周邊

過程獎勵模型也可以測試時擴充套件？清華、上海AILab23K資料讓1.5B小模型逆襲GPT-4o

過程獎勵模型也可以測試時擴充套件？清華、上海AILab23K資料讓1.5B小模型逆襲GPT-4o

Copyright © 2025 | WordPress Theme by MH Themes