剛剛,Grok4跑分曝光:「人類最後考試」拿下45%,是Gemini2.5兩倍,但網友不信

機器之心報道
編輯:楊文、澤南
馬斯克搭帳篷熬夜開發有效果了?這麼高跑分,還不釋出。
剛剛,Grok 4 和 Grok 4 Code 的基準測試結果疑似洩露。
X 博主 @legit_api 發帖稱,Grok 4 在 HLE(Humanities Last Exam,人類最後考試)上的標準得分是 35%,使用推理技術後提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分則達到 72-75%。

這個跑分結果意味著什麼?有網友將其與 OpenAI o3 和 Claude Opus 4 等競爭模型進行了對比。
Grok 4 在 HLE 上的標準得分約為 35%,使用推理技術後提升至 45%,這比 OpenAI o3 的最佳公開得分(約 20%)高出兩倍,比 GPT-4o 高出四到五倍。要知道 HLE 是一個自由回答測試,隨機猜測準確率僅約 5%,因此每個百分點的提升都非常困難。
在 GPQA(研究生級物理和天文學問題)上,Grok 4 得分 87-88%,與 OpenAI o3 的頂級表現相當,並明顯超過 Claude Opus 的約 75%。
Grok 4 在 AIME '25(2025 年美國數學奧賽)上得分 95%,遠超  Claude Opus 的 34%,並略優於 OpenAI o3 的 80-90%(取決於思維模式)。
此外,Grok 4 Code 在 SWEBench 的得分與 Claude Opus 4 的 72.5% 持平,略高於 OpenAI o3 的 71.7%。而在 Terminal-Bench 上,Claude 4 Opus 領先,得分 43%,xAI 尚未釋出 Grok-4 的相關資料。
其中,網友討論最多的就是 Grok 4 在 HLE 上達到了驚人的 45%,幾乎是 Gemini 2.5 Pro 成績的兩倍。如果洩露的測試結果屬實,那麼意味著 Grok 4 通過了 AI 基準測試中最艱難的一關。

還有網友建議關注「標準」得分,認為這是公開模型的基準,推理得分可能涉及實驗性配置。
不過,也有網友表示質疑,認為 Grok 4 的 HLE 分數不太可能這麼高,這裡面肯定有問題。

該網友給出的理由是,上次 xAI 報告了其他模型使用單次嘗試的結果,但對自己的模型卻使用了不同的報告方法。

@legit_api 回覆稱,這些數字是真實的,但我們不知道配置。

有網友總結道,目前 Grok 4 洩露出來的所有基準成績,除了 HLE 以外,其他的看起來似乎還算「合理」。不過 HLE 能跑到這麼高分又應該如何解釋呢?畢竟這個基準中包含很多晦澀難懂的資訊檢索。
或許一切都要等待模型正式釋出才能有答案了。
其實早在 7 月 1 日,外媒 TestingCatalog 就發文爆料,Grok 4 系列模型的相關資訊在 xAI 開發者中控臺網站上洩露,包括旗艦模型 Grok 4 和程式設計模型 Grok 4 Code。

截圖顯示,Grok 4 僅支援文字模式,視覺、影像生成及其他功能即將推出。Grok4 支援約 13 萬 tokens 上下文視窗,較許多競爭對手的前沿模型要小,這可能表明 xAI 在最佳化推理速度和即時可用性,而非追求最大化的長上下文效能。從功能上來看,Grok 4 將包括函式呼叫、結構化輸出和推理能力。
還有網友扒出了 xAI 開發者中控臺的原始碼,這些程式碼顯示,Grok 4 是一個在自然語言、數學和推理方面「擁有無可匹敵的能力」的通才模型,並在當地時間 6 月 29 日完成了訓練,其標語為「Think Bigger and Smarter」。

截圖還顯示,Grok 4 Code 則是一款專為程式設計設計的模型,使用者可以直接向它提問程式碼問題,也可以直接嵌入程式碼編輯器中。

上個星期,馬斯克在推文中表示,他正「通宵達旦地開發 Grok 4」,模型開發「進展良好」但仍需進行「最後一次大規模訓練」,特別是在專門程式碼模型方面。為了這一目標,從上月底開始,馬斯克帶頭在辦公室內支起帳篷睡覺,以全身心投入工作。
X 的工程師還出面回應了一下帳篷的問題。

生成式 AI,都捲到這種地步了?
洩露的分數不僅刺激了廣大網友的小心臟,也在刺激著眾多 AI 科技公司。馬斯克今天雖然沒有如之前預測的那樣「官宣」Grok 4 開源,但表示推特上的 Grok 功能有了明顯的提升。

有網友為此專門去問了 Grok,它認為 7 月更新是 Grok 4,但不完整。

再加上 Benchmark 成績已經曝光,或許 Grok 4 過幾天就要正式釋出了。
如果成績屬實,不管是架構的創新還是規模的擴充套件,Grok 都將推動一波 AI 大模型的發展,讓我們拭目以待。
參考連結:
https://www.reddit.com/r/singularity/comments/1lrmn42/grok_4_and_grok_4_code_benchmark_results_leaked/
https://www.testingcatalog.com/xai-prepares-grok-4-and-grok-4-code-for-upcoming-launch/
https://x.com/AiBattle_/status/1940139539525419512

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章