剛剛，Grok4跑分曝光：「人類最後考試」拿下45％，是Gemini2.5兩倍，但網友不信

機器之心報道

編輯：楊文、澤南

馬斯克搭帳篷熬夜開發有效果了？這麼高跑分，還不釋出。

剛剛，Grok 4 和 Grok 4 Code 的基準測試結果疑似洩露。

X 博主 @legit_api 發帖稱，Grok 4 在 HLE（Humanities Last Exam，人類最後考試）上的標準得分是 35%，使用推理技術後提高到 45%；在 GPQA 上的得分是 87-88%；而Grok 4 Code 在 SWE Bench 上的得分則達到 72-75%。

這個跑分結果意味著什麼？有網友將其與 OpenAI o3 和 Claude Opus 4 等競爭模型進行了對比。

Grok 4 在 HLE 上的標準得分約為 35%，使用推理技術後提升至 45%，這比 OpenAI o3 的最佳公開得分（約 20%）高出兩倍，比 GPT-4o 高出四到五倍。要知道 HLE 是一個自由回答測試，隨機猜測準確率僅約 5%，因此每個百分點的提升都非常困難。

在 GPQA（研究生級物理和天文學問題）上，Grok 4 得分 87-88%，與 OpenAI o3 的頂級表現相當，並明顯超過 Claude 4 Opus 的約 75%。

Grok 4 在 AIME '25（2025 年美國數學奧賽）上得分 95%，遠超 Claude 4 Opus 的 34%，並略優於 OpenAI o3 的 80-90%（取決於思維模式）。

此外，Grok 4 Code 在 SWEBench 的得分與 Claude Opus 4 的 72.5% 持平，略高於 OpenAI o3 的 71.7%。而在 Terminal-Bench 上，Claude 4 Opus 領先，得分 43%，xAI 尚未釋出 Grok-4 的相關資料。

其中，網友討論最多的就是 Grok 4 在 HLE 上達到了驚人的 45%，幾乎是 Gemini 2.5 Pro 成績的兩倍。如果洩露的測試結果屬實，那麼意味著 Grok 4 通過了 AI 基準測試中最艱難的一關。

還有網友建議關注「標準」得分，認為這是公開模型的基準，推理得分可能涉及實驗性配置。

不過，也有網友表示質疑，認為 Grok 4 的 HLE 分數不太可能這麼高，這裡面肯定有問題。

該網友給出的理由是，上次 xAI 報告了其他模型使用單次嘗試的結果，但對自己的模型卻使用了不同的報告方法。

@legit_api 回覆稱，這些數字是真實的，但我們不知道配置。

有網友總結道，目前 Grok 4 洩露出來的所有基準成績，除了 HLE 以外，其他的看起來似乎還算「合理」。不過 HLE 能跑到這麼高分又應該如何解釋呢？畢竟這個基準中包含很多晦澀難懂的資訊檢索。

或許一切都要等待模型正式釋出才能有答案了。

其實早在 7 月 1 日，外媒 TestingCatalog 就發文爆料，Grok 4 系列模型的相關資訊在 xAI 開發者中控臺網站上洩露，包括旗艦模型 Grok 4 和程式設計模型 Grok 4 Code。

截圖顯示，Grok 4 僅支援文字模式，視覺、影像生成及其他功能即將推出。Grok4 支援約 13 萬 tokens 上下文視窗，較許多競爭對手的前沿模型要小，這可能表明 xAI 在最佳化推理速度和即時可用性，而非追求最大化的長上下文效能。從功能上來看，Grok 4 將包括函式呼叫、結構化輸出和推理能力。

還有網友扒出了 xAI 開發者中控臺的原始碼，這些程式碼顯示，Grok 4 是一個在自然語言、數學和推理方面「擁有無可匹敵的能力」的通才模型，並在當地時間 6 月 29 日完成了訓練，其標語為「Think Bigger and Smarter」。