OpenAI實名舉報Grok3作弊，一題答64次踩著臺階和o3-mini比

2025-09-12 23:06 量子位

明敏發自凹非寺

量子位 | 公眾號 QbitAI

Grok-3才釋出3天，就陷入作弊風波。

隔壁OpenAI應用主管火速掀桌：每次評估中o3-mini都要比Grok-3好，看到Grok團隊作弊真是令人失望。

咋回事？

在Grok-3的Blog中有一張AIME 2025評估圖令人印象深刻，兩個新版本模型都超過o3-mini高配版。

但注意看，Grok-3兩個模型的柱狀圖中都有1段顏色更淺的部分。OpenAI指責的作弊，就是在這裡。

淺色部分代表了Grok-3模型在Con@64上的成績。

即這是模型進行64次答案後的成績，而不是單次回答。

那麼問題就來了，被拿來對比的o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking似乎並沒有這部分成績。

有人就表示，如果真是如此，那麼Grok-3推理模型只是和o1相當。OpenAI和xAI之間依舊差了9個月。

OpenAI負責模型設計的研究員Aidan McLaughlin更是激情開麥，表示馬斯克釋出時說的話極其有誤導性，這會讓人以為淺藍色部分是透過推理實現的成績。

不過值得一提的是，這種模型評估對比方法似乎是OpenAI開了頭。o3-mini的Blog中，也看到了類似形式的評估。

所以，為啥這麼對比不合理？

採用cons@64，o1都能和o3-mini相當

首先明確概念：

cons@64：讓模型生成64個答案，最終採用出現頻率最高的回答。

pass@64：如果64個答案中只要有一個答案正確，模型就得分。

所以有人就說了，問題的關鍵不是xAI不應該使用cons@64;

關鍵在於，如果其他模型只是嘗試了一次，那就不太公平了。

因為blog中並沒有說清楚，所以假定是這種情況。

有AI博主也列出了蒐集到的相關資料，o3-mini在單次回答上的表現更好。

其次，根據o3-mini的blog，o1模型採用cons@64成績，甚至可以和o3-mini打個相當。

這意味著採用cons@64成績是“有優勢”的。

有人也揪著這事不放，但是OpenAI確實沒讓o3-mini用cons@64。

最後，Grok-3釋出時的說法似乎有一定誤導性。

有人貼出來了原片段。在被問及評估圖中的淺色部分是什麼時，官方給出的解釋是：

這些模型可以推理、可以思考，可以要求模型思考更長、花更多時間進行測試時推理。這種情況下，這些淺色部分意味著我們只是花費更多時間讓模型解決同一個問題，然後它才會得出什麼是正確的答案。如果這樣做，模型甚至可以表現得更好。

OpenAI研究員Aidan覺得這段話極具誤導性，他只是說使用更多測試時計算，聽起來像是做更多推理，但其實不是如此。

總而言之，Grok團隊這麼幹確實有點不地道。

吃瓜到這，網友們不免開始蛐蛐：

Grok-3不如o3-mini，馬斯克就會給團隊上壓力。然後想出的好辦法就是在基準測試上做手腳。

以及為啥都不和Claude做對比呢？

不過也有人覺得這事不能一棒子打死，Grok仍舊有很多值得關注的方面。比如Grok-3一個月前才完成預訓練，這只是一個月內基於CoT的後訓練結果，模型還有很大的提升空間。此外xAI正在以行業內最快的速度擴充套件預訓練計算能力。

以及Grok-3釋出後，開發者們已經火速琢磨出了一些有趣的新玩法。

輕鬆開發小遊戲

這不，有人就曬出了在特斯拉上完用Replit+Grok開發的小遊戲。

還有曾在微軟深度參與Windows系統開發的大佬Dave Plummer，也用Grok-3復刻了經典的打磚塊遊戲。

他為Windows建立了任務管理器、為Windows完成了對zip檔案的支援。

這一次，他展示瞭如何只用幾句話就讓Grok-3開發小遊戲。

提示詞都很簡單：

“來做個彩色版打磚塊怎麼樣”
“讓球自動移動，並讓球每次從球拍上彈起時速度提高 10%”
“很好，球在垂直彈射時會卡住。一開始遊戲是怎麼設計的？do the same”

最後得到的效果是這樣的：

值得一提的是，馬斯克最近證實了成立了AI遊戲工作室的訊息，他要讓遊戲再次偉大（doge）。

參考連結：

[1]

https://x.com/BorisMPower/status/1892407015038996740
[2]https://www.reddit.com/r/singularity/comments/1itoi3f/grok3_thinking_had_to_take_64_answers_per/
[3]https://www.tomshardware.com/tech-industry/artificial-intelligence/grok-3-used-to-clone-breakout-game-fabled-windows-developer-shares-prompts-and-code

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

馬斯克20萬塊GPU煉出Grok-3，暴擊DeepSeekR1數學屠榜！瘋狂復仇OpenAI

馬斯克20萬塊GPU煉出Grok-3，暴擊DeepSeekR1數學屠榜！瘋狂復仇OpenAI

馬斯克用20萬卡叢集，做出了比DeepSeek還強的模型？

馬斯克用20萬卡叢集，做出了比DeepSeek還強的模型？

OpenAI發新模型o3和o4-mini，首次實現“影像思維”；馬斯克旗下xAI宣佈上線GrokStudio丨AIGC日報

OpenAI發新模型o3和o4-mini，首次實現“影像思維”；馬斯克旗下xAI宣佈上線GrokStudio丨AIGC日報

馬斯克正式釋出Grok3，這回真的把OpenAI幹碎了…

馬斯克正式釋出Grok3，這回真的把OpenAI幹碎了…

OpenAI又一次輕輕地“碎掉了”，馬斯克正式釋出Grok3

OpenAI又一次輕輕地“碎掉了”，馬斯克正式釋出Grok3

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

Grok3來了！馬斯克宣稱“地球上最聰明的AI”，20萬張GPU能否顛覆AI格局？

Grok3來了！馬斯克宣稱“地球上最聰明的AI”，20萬張GPU能否顛覆AI格局？

馬斯克釋出「地球上最聰明AI」大模型Grok-3

馬斯克釋出「地球上最聰明AI」大模型Grok-3

馬斯克“地球上最聰明AI”Grok3釋出：20萬張GPU，號稱強過DeepSeekV3

馬斯克“地球上最聰明AI”Grok3釋出：20萬張GPU，號稱強過DeepSeekV3

突發，Grok-3免費上線！答對9.11和9.9誰大，1分攻克MIT積分難題

突發，Grok-3免費上線！答對9.11和9.9誰大，1分攻克MIT積分難題

Copyright © 2025 | WordPress Theme by MH Themes