Grok4一口氣刷爆所有高難榜單!全球首個考滿分、又能賺錢的AI

期待了兩週的 Grok 4 終於來了!
一大早 family 群裡的小夥伴們已經啟動好倒計時。

原定北京時間 7.10 號 11 點,結果硬生生遲到 1 個小時。。12 點才開始。

不愧是你鴿王。
直播現場馬斯克用一句話開場:
“它是世界上最聰明的 AI”。
上一次這句話出現還是 Anthropic 釋出 Claude 4,這次聽上去也毫不誇張。
xAI 釋出了兩個版本,分別是Grok 4 和 Grok 4 Heavy
你光看名字可能會以為 Grok 4 Heavy 是加了引數的 plus 版,no,Grok 4 是單體模型, Heavy 是多智慧體協作版。

當然,價格也是真貴。Grok 4 放在了 30 刀每月的 SuperGrok 套餐裡,Grok 4 Heavy 則要300 刀,名字也乾脆叫 SuperGrok Heavy。

全榜單第一

老規矩,先來看榜單成績。
上來就是大模型的魔鬼榜單—— Humanity’s Last Exam(HLE),也被稱為大模型的終極閉卷,包含 2500 道高難度題目,覆蓋超過 100 個學科,從數學、化學、語言學到人文社科,能把任何一個博士搞破防的那種。

Grop 4 和 Grok 4 Heavy 拿下了這個榜單的第一和第二,Grok 4 Heavy 得分 44.4%,幾乎是第二名 Gemini 2.5 Pro 的 2 倍。2024 年底,多數模型在 HLE 還不到 10 %,OpenAI o3 做到 20 % 已被稱為“巨躍”,Grok 4 這相當於直接跳過一整代。

這張圖我必須好好解釋一下。這是「Scaling HLE – Test time」曲線圖。

乍一看 Grok 4 Heavy 在 HLE 上達到了 50.7%,非常牛筆。
注意這裡縱軸(Text-only)是 HLE 文字子集的準確率,HLE 全集裡還有圖表的視覺題目,這裡刨除了視覺題,排除視覺弱點,用純文字題代表模型的“深度推理 + 專業知識”能力。
只靠訓練算力能把模型推到 30 ~ 40 %,而在推理階段再加算力 + 工具 + 多智慧體,可以把 Grok 4 Heavy 送上 50 % + 的門檻。在 32× 推理算力 + 工具 條件下達到頂點 50.7 %。
這裡 32× 並非 32 臺 GPU,而是一次併發 32 個推理分支,Groq 的做法是多智慧體 + 深度搜索。
每個分支裡可反覆呼叫檢索、程式碼執行、符號推導等外部 API,從 1 並行開到->32 倍,一次拉起 32 個智慧體,彼此之間互相比對思路,找出突破口 Agent,然後得出全域性最優答案。官方比喻“就像博士生團隊結組做題”一樣,比單體準確率提升明顯。
要知道在 HLE 這種博士級卷子裡,50 % 可以代表進入高階專家水平了,這可是 LLM 第一次到達半卷線,第一次實現「答對多於答錯」,意味著 AI 輸出開始具備可採信的程度。
然後,再來看其他榜單。
一眼望過去,幾乎所有你能叫得出名字的 benchmark,Grok 4 Heavy 全部榜一。

在 AIME25 和 HMMT25 這種偏奧數題型的資料集上,Grok 的表現尤其激進,Grok 4 Heavy 拿到了 100% 和 96.7%,甚至普通 Grok 4(無工具)都接近滿分,看來它在數學方向是有針對性最佳化的。

ARC-AGI:代表認知能力上限

可能有朋友不太瞭解這個,ARC-AGI 是業界最嚴苛、最接近 AGI 能力的測試之一(之前 OpenAI 搞出來的)。比“考試題”更貼近真實工作流:它要求模型先讀說明、再查資料、寫指令碼、驗證結果——整個鏈條必須自洽。
圖的左側是效能 vs 成本。
  • 縱軸:模型在 ARC-AGI v2 上的得分,越高代表越能在陌生任務上自我規劃並正確完成。
  • 橫軸:每個任務的執行成本(越靠左越便宜)。
你會發現,GPT-4、Claude、Gemini 都集中在中間區域,而 Grok 4 不僅得分最高(15.9%),還位於相對成本低的區間。這代表同等成本,單位美元智力翻倍。
圖的右側是模型排行榜。
ARC-AGI v1 (v1 題集規模小(26 題),已被多數模型刷過)上,Grok 4 的準確率為 66.6%,明顯高於 Claude Opus(35.7%)和 GPT-4(60.8%)。
在 v2 版本(更難,半私有)中,Grok 4 依然領先,得分為 15.9%,同樣遠超其他模型。DeepSeek R1 僅 1.3 %,證明 v2 對“純語言答題”模型幾乎是硬牆。
16 % ≠ AGI,但意義不小:過去 18 個月,從 3 % → 8 % → 16 %,曲線跟 HLE 一樣在指數抬升,說明“會用工具解陌生問題”這一能力正快速進階。

Vending-Bench:Grok 4 還會賺錢

這張圖展示的是 xAI 內部最新設計的“自動售貨機基準測試”(Vending-Bench),用來衡量不同 AI 模型在模擬真實商業任務時的表現。
  • Net worth (mean):期末現金 + 餘貨按成本計價
  • Units sold (mean):總售出商品數
從這個測試結果看,在 300 步、近 5 小時的模擬裡,Grok 4 的淨資產和銷量都甩開第二名 2 倍,把“會做題的 AI”拉進了“能賺錢的 AI”序列。
Grok 4 在這類“怎麼賣得更多”這種模擬商業任務裡,做得比人類更冷靜、也更能拿分。
但是,Claude 你小子不是剛賣貨賠了嗎,怎麼還比人類強這麼多。。
與 GPT 或 Claude 的“後插工具”不同,Grok 4 把工具呼叫 寫進訓練環節,不止是會考試,會用工具,會賺錢,會協作,今年下半年將接入與 Tesla Optimus 協作,實現“現實世界 RL 閉環”。

訓練規模與算力

xAI 稱訓練量遵循“每代 ×10”規律:Grok 2 → 3 → 4,未來版本仍按此節奏擴張。

xAI 自建 AI 超算叢集代號是「Colossus」,Grok 4 計算量比 Grok 2 增大了 100 倍,用了 ≈10 萬張 H100;RL 計算量超同類模型 10 倍,≈20 萬張 H100/A100 混合算力。

Grok Voice

這個可能是 Grok-3 釋出後最火的功能之一了,因為他們在預設語音體驗裡,內建了兩個帶有 18+ 暗示的互動場景。。。

別家都在強調延遲、連貫、準確率,Grok Voice 更在意聽起來有沒有感情、夠不夠自然。
現在,Grok Voice 的整體語音響應速度比以前快了整整兩倍,從你說完話到 AI 開口回應幾乎沒有卡頓;語音風格也拓展到了 5 種不同型別。
日均互動時長比原來提升了 10 倍

最後

他們也在最後非常實誠的說出 Grok 當前的多模態能力其實很差。
但這塊短板,很快就要補上了,並提出了月更計劃。

8 月將推出專門的程式碼模型,9 月上線具備自主感知與任務協同能力的多模態 Agent,10 月則釋出重量級影片生成模型。
下一代模型重點在三個方向:影像理解、影片理解和使用者感知(audience awareness),將具備全套工具呼叫能力,可以與其他代理協同完成任務。也就是多模態 Agent。
影片生成在接下來的 3-4 周內,將啟動一個 超 10 萬 GB 訓練規模的影片模。,模型單體大小預計超過 200GB。看來 xAI 正在快速補位 OpenAI、Google 在影片生成上的領先優勢。
而最終的目標,是讓 AI 不再只是內容生成器,而是內容的合作者:你可以在 X 平臺上干預劇情、切換角色、重寫走向,生成你自己的冒險故事。資訊流、內容流、生成流、互動流,這一串鏈條正在 xAI 手裡打通。
敬請期待,我只希望別再遲到了。。

相關文章