馬斯克釋出Grok4，推理能力全面登頂，支援四個代理同時工作

Grok 4 終於來了！

馬斯克旗下的 xAI 剛剛結束髮布直播，Grok 系列模型直接從 Grok 3 進化到了 4，跳過了之前傳聞中的 3.5 版本。

Grok 4 系列被分為兩個版本：Grok 4 和 Grok 4 Heavy。

兩者都是純推理模型，沒有非推理模式。

Grok 4 是單代理（single agent）版本，而 Grok 4 Heavy 是多代理版本（multi agents），支援四個代理同時工作。上下文視窗最高支援 256k tokens。

圖 | Grok 4 目前並未開放給免費使用者（來源：xAI）

xAI 表示，在主流推理基準測試中，Grok 4 Heavy 全部拿下了 SOTA——HLE（人類的最後考試）甚至達到了 44.4% 的高分。

至於定價，Grok 4 目前只有付費使用者才能使用，而最強的 Grok 4 Heavy 需要訂閱 300 美元/月的 SuperGrok Heavy 會員才能使用。

這價格超過了 OpenAI 最貴的 200 美元 Pro 會員月費。

此前傳聞的 Grok 4 Code 並未正式公佈，但 xAI 路線圖顯示其將在 8 月釋出。

圖 | xAI 新品釋出路線圖（來源：xAI）

除了 Coding 模型，接下來的幾個月裡，xAI 預計還會發布多模態代理和影片生成模型。

馬斯克還「畫餅」稱，由 AI 製作的「非常出色的」遊戲會在今年或明年推出。

Grok 4 也同時開放了 API 的許可權，目前僅支援文字+視覺的輸入，純文字的輸出。定價是每百萬 tokens 輸入3美元，輸出 15 美元。

圖 | Grok 4 API價格（來源：xAI）

據 xAI 介紹，Grok 4 的訓練量是 Grok 2 的 100 倍。

而 Grok 3 到 Grok 4 更側重於推理訓練，推理訓練量提升了 10 倍。

圖 | Grok 系列模型的訓練量增長（來源：xAI）

「從學術角度看，Grok 4 在所有學科上都是博士水平，甚至比絕大多數（本學科的）博士還要強。」馬斯克表示。

有關兩款最新模型的效能和訊息，早在一週前就陸續有 X 博主爆料，包括「Grok 4 在 HLE（Humanities Last Exam，人類的最後考試）測試中的得分是 35%，開啟推理後提高到 45%」等等。

結合直播內容，這些資料幾乎都是準確的，而且 Grok 4 在多個推理基準測試上的表現均成為了新 SOTA。

圖 | 此前關於 Grok 4 的爆料（來源：X/@legit_api）

具體來說，在未使用工具的情況下，Grok 4 在 HLE 測試中的得分是 25.4%。而使用工具後，分數則飆升至 38.6%。

更強版本 Grok 4 Heavy 則拿到了 44.4% 的高分，直接碾壓了目前表現最好的谷歌 Gemini 2.5 Pro（26.9%）。

圖 | Grok 4 在 HLE 上的成績（來源：xAI）

馬斯克表示，這些工具仍然是「很基礎的簡單工具」，如果能更好地使用正確的工具，Grok 還會變得更強大。

而隨著模型能力越來越強，用強化學習進行擴充套件面臨著許多挑戰。

「我們快沒有合適的問題來考驗 AI 了。」馬斯克說道，「很多問題都是人類幾乎無法回答（沒有正確答案）的。」

除了 HLE，Grok 4 和 Grok 4 Heavy 在各種主流基準測試上也表現優異。

圖 | Grok 4 在多個基準測試上的成績（來源：xAI）

Grok 4 系列在 GPQA（研究生級問題）測試中得分 88-89，超過了 Gemini 2.5 Pro 成為新第一。而在 AIME25 數學競賽題上，Grok 4 Heavy 更是取得了滿分的成績。

xAI 表示，Grok 4 的強項是「用工具來理解世界，並用來完成任務」。

演示中，Grok 4 寫了一段關於引力波和黑洞的模擬程式碼。在過程中，它呼叫了網路搜尋、文獻檢索和閱讀、程式碼執行等工具（功能）。最終實現了網頁上可直接執行的模擬程式碼。

（來源：xAI）

在以高難度著稱的 ARC-AGI 通用人工智慧測試中，Grok 4 是首個在 v2 Semi Private 挑戰中獲得 10% 以上分數的 AI 模型，幾乎是第二名 Claude Opus 4 的兩倍，同時保證了單任務成本也處於平均水平。

圖 | Grok 4 在 ARC-AGI 挑戰上的表現（來源：xAI）

最後，在 Vending-Bench 自動售貨機運營測試中，Grok 4 的表現也超過了 Claude Opus 4。淨資產和銷售數量都遠遠超過其他所有模型，甚至是人類平均水平。

這是一個讓大模型代理運營自動售貨機賺錢的模擬環境，需要代理在一個持續時間較長的任務中進行操作，如管理庫存、下訂單、定價和處理日常開銷等等。它專注於測試大模型在長時間跨度上的表現，而非僅限於短期任務的表現。

圖 | Vending-Bench 測試成績（來源：xAI）

更加“激進”的 Grok

Grok 4 釋出之際，在 X 平臺上十分活躍的 Grok 聊天機器人卻因連發激進言論而引發嚴重爭議。

多位 X 使用者截取了 Grok 的回覆截圖，顯示該 AI 在多個公開帖子中回覆了帶有反猶主義色彩的極端言論，甚至多次提及希特勒。

在一篇帖子中，當被問及哪位 20 世紀的歷史人物最適合處理當下已造成 100 多人死亡的德克薩斯州洪水問題時，Grok 將其視為是「仇恨白人」問題並回答說，毫無疑問是阿道夫·希特勒（Adolf Hitler）。「他每次都能發現規律，並果斷處理。」

圖 | Grok 引起爭議的回答之一（來源：X/@AFpost）

在回應使用者的質疑時，Grok 自稱為「MechaHitler」（機械希特勒），聲稱這只是來自《德軍總部 3D》遊戲中的虛構角色。

巧合的是，這一事件發生在馬斯克剛宣佈對 Grok 進行「重大升級」之後不久：7 月 4 日，馬斯克發文稱，「Grok 經過了重大改進」，並表示「你們應該會在提問時感受到不同」。

2 天后，網友發現 Grok 系統提示詞中新增：Grok 將「不迴避政治不正確的表述，只要這些表述有足夠證據支援」，還會將主流媒體內容視為「有偏見的主觀敘述」。

不過在最新的更新中，關於政治不正確的提示詞已被刪除。

Grok 引發爭議也不僅限於輿論上。由於其過於口無遮攔，因此招來了土耳其的封禁（因其侮辱總統埃爾多安），波蘭政府也向歐盟舉報了 xAI。

針對 Grok 最近幾天的激進言論，xAI 表示已採取行動，刪除不當帖子並禁止仇恨言論。

圖 | xAI 回應，已採取措施防止仇恨言論（來源：xAI）

隨著 OpenAI 籌備 GPT-5、谷歌進一步發展 Gemini、Meta 大手筆組建 AI 頂級人才實驗室，Grok 4 只是下一波 AI 軍備競賽的一員。

Grok 4 的亮相符合人們的普遍預期，它在推理效能上的提升創造了新的 SOTA，但另一方面，xAI 強調訓練量提升 100 倍，卻避而不談的訓練成本問題，實實在在反應到了定價上，說明 AI 軍備競賽的確過於燒錢。

但背靠財大氣粗的馬斯克，xAI 顯然很有底氣。

「創造一個既快又聰明的模型，是我們的當務之急。」xAI 創始團隊成員兼研究主管 Jimmy Ba 表示，「未來會很狂野。」

參考資料：

https://x.com/legit_api/status/1941165728708874514

https://x.com/AiBattle_/status/1940139539525419512

https://x.com/AFpost/status/1942694284244767125

https://github.com/xai-org/grok-prompts/blob/main/ask_grok_system_prompt.j2

https://www.wired.com/story/grok-antisemitic-posts-x-xai/

https://docs.x.ai/docs/models

運營/排版：何晨龍

01/ 清華團隊推出強化學習SOTA新演算法，攻克演算法價值高估問題，確保實現AI可靠決策

02/ 科學家合成超薄硫族化物薄膜，成功破除熱力學限制，在2英寸晶圓級實現1nm薄膜生長

03/ MIT團隊讓機器人“自學成才”，徹底拋棄人工建模，僅用攝像頭實現機器人精準控制

04/ 填補元素週期表兩個世紀空白：科學家合成能量最高的六氮分子，打破“難合成氮同素異形體”桎梏

05/ 英偉達4億美元收購95後華人青年AI創業公司，為提高GPU利用率再增“新砝碼”

dignews.cc

馬斯克釋出Grok4，推理能力全面登頂，支援四個代理同時工作

相關文章

Grok3來了！馬斯克宣稱“地球上最聰明的AI”，20萬張GPU能否顛覆AI格局？

Gork-3語音功能上線！馬斯克揭秘百天搭建超算中心

馬斯克的Grok3還不是“地球最聰明”的，但確實是最有錢的｜亮馬橋小紀嚴選

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

還沒釋出，xAI工程師公開承認Grok3不如OpenAI，遭馬斯克怒火解僱！馬斯克：Grok3打遍天下無敵手

Grok-3意外「洩露」，不是推理模型！馬斯克：xAI新模型比DeepSeek更好

白嫖啟動！xAI上線Grok3模型API服務支援使用150美元/月贈金抵扣額度

埃隆馬斯克的xAIGrok人工智慧應用登陸Telegram但目前僅限會員使用

馬斯克釋出「地球上最聰明AI」大模型Grok-3

馬斯克放大招，宣稱“已超越DeepSeek”