

Grok 4 終於來了!
馬斯克旗下的 xAI 剛剛結束髮布直播,Grok 系列模型直接從 Grok 3 進化到了 4,跳過了之前傳聞中的 3.5 版本。
Grok 4 系列被分為兩個版本:Grok 4 和 Grok 4 Heavy。
兩者都是純推理模型,沒有非推理模式。
Grok 4 是單代理(single agent)版本,而 Grok 4 Heavy 是多代理版本(multi agents),支援四個代理同時工作。上下文視窗最高支援 256k tokens。

圖 | Grok 4 目前並未開放給免費使用者(來源:xAI)
xAI 表示,在主流推理基準測試中,Grok 4 Heavy 全部拿下了 SOTA——HLE(人類的最後考試)甚至達到了 44.4% 的高分。
至於定價,Grok 4 目前只有付費使用者才能使用,而最強的 Grok 4 Heavy 需要訂閱 300 美元/月的 SuperGrok Heavy 會員才能使用。
這價格超過了 OpenAI 最貴的 200 美元 Pro 會員月費。
此前傳聞的 Grok 4 Code 並未正式公佈,但 xAI 路線圖顯示其將在 8 月釋出。

圖 | xAI 新品釋出路線圖(來源:xAI)
除了 Coding 模型,接下來的幾個月裡,xAI 預計還會發布多模態代理和影片生成模型。
馬斯克還「畫餅」稱,由 AI 製作的「非常出色的」遊戲會在今年或明年推出。
Grok 4 也同時開放了 API 的許可權,目前僅支援文字+視覺的輸入,純文字的輸出。定價是每百萬 tokens 輸入3美元,輸出 15 美元。

圖 | Grok 4 API價格(來源:xAI)
據 xAI 介紹,Grok 4 的訓練量是 Grok 2 的 100 倍。
而 Grok 3 到 Grok 4 更側重於推理訓練,推理訓練量提升了 10 倍。

圖 | Grok 系列模型的訓練量增長(來源:xAI)
「從學術角度看,Grok 4 在所有學科上都是博士水平,甚至比絕大多數(本學科的)博士還要強。」馬斯克表示。
有關兩款最新模型的效能和訊息,早在一週前就陸續有 X 博主爆料,包括「Grok 4 在 HLE(Humanities Last Exam,人類的最後考試)測試中的得分是 35%,開啟推理後提高到 45%」等等。
結合直播內容,這些資料幾乎都是準確的,而且 Grok 4 在多個推理基準測試上的表現均成為了新 SOTA。

圖 | 此前關於 Grok 4 的爆料(來源:X/@legit_api)
具體來說,在未使用工具的情況下,Grok 4 在 HLE 測試中的得分是 25.4%。而使用工具後,分數則飆升至 38.6%。
更強版本 Grok 4 Heavy 則拿到了 44.4% 的高分,直接碾壓了目前表現最好的谷歌 Gemini 2.5 Pro(26.9%)。

圖 | Grok 4 在 HLE 上的成績(來源:xAI)
馬斯克表示,這些工具仍然是「很基礎的簡單工具」,如果能更好地使用正確的工具,Grok 還會變得更強大。
而隨著模型能力越來越強,用強化學習進行擴充套件面臨著許多挑戰。
「我們快沒有合適的問題來考驗 AI 了。」馬斯克說道,「很多問題都是人類幾乎無法回答(沒有正確答案)的。」
除了 HLE,Grok 4 和 Grok 4 Heavy 在各種主流基準測試上也表現優異。

圖 | Grok 4 在多個基準測試上的成績(來源:xAI)
Grok 4 系列在 GPQA(研究生級問題)測試中得分 88-89,超過了 Gemini 2.5 Pro 成為新第一。而在 AIME25 數學競賽題上,Grok 4 Heavy 更是取得了滿分的成績。
xAI 表示,Grok 4 的強項是「用工具來理解世界,並用來完成任務」。
演示中,Grok 4 寫了一段關於引力波和黑洞的模擬程式碼。在過程中,它呼叫了網路搜尋、文獻檢索和閱讀、程式碼執行等工具(功能)。最終實現了網頁上可直接執行的模擬程式碼。

(來源:xAI)
在以高難度著稱的 ARC-AGI 通用人工智慧測試中,Grok 4 是首個在 v2 Semi Private 挑戰中獲得 10% 以上分數的 AI 模型,幾乎是第二名 Claude Opus 4 的兩倍,同時保證了單任務成本也處於平均水平。

圖 | Grok 4 在 ARC-AGI 挑戰上的表現(來源:xAI)
最後,在 Vending-Bench 自動售貨機運營測試中,Grok 4 的表現也超過了 Claude Opus 4。淨資產和銷售數量都遠遠超過其他所有模型,甚至是人類平均水平。
這是一個讓大模型代理運營自動售貨機賺錢的模擬環境,需要代理在一個持續時間較長的任務中進行操作,如管理庫存、下訂單、定價和處理日常開銷等等。它專注於測試大模型在長時間跨度上的表現,而非僅限於短期任務的表現。

圖 | Vending-Bench 測試成績(來源:xAI)

更加“激進”的 Grok
Grok 4 釋出之際,在 X 平臺上十分活躍的 Grok 聊天機器人卻因連發激進言論而引發嚴重爭議。
多位 X 使用者截取了 Grok 的回覆截圖,顯示該 AI 在多個公開帖子中回覆了帶有反猶主義色彩的極端言論,甚至多次提及希特勒。
在一篇帖子中,當被問及哪位 20 世紀的歷史人物最適合處理當下已造成 100 多人死亡的德克薩斯州洪水問題時,Grok 將其視為是「仇恨白人」問題並回答說,毫無疑問是阿道夫·希特勒(Adolf Hitler)。「他每次都能發現規律,並果斷處理。」

圖 | Grok 引起爭議的回答之一(來源:X/@AFpost)
在回應使用者的質疑時,Grok 自稱為「MechaHitler」(機械希特勒),聲稱這只是來自《德軍總部 3D》遊戲中的虛構角色。
巧合的是,這一事件發生在馬斯克剛宣佈對 Grok 進行「重大升級」之後不久:7 月 4 日,馬斯克發文稱,「Grok 經過了重大改進」,並表示「你們應該會在提問時感受到不同」。
2 天后,網友發現 Grok 系統提示詞中新增:Grok 將「不迴避政治不正確的表述,只要這些表述有足夠證據支援」,還會將主流媒體內容視為「有偏見的主觀敘述」。
不過在最新的更新中,關於政治不正確的提示詞已被刪除。
Grok 引發爭議也不僅限於輿論上。由於其過於口無遮攔,因此招來了土耳其的封禁(因其侮辱總統埃爾多安),波蘭政府也向歐盟舉報了 xAI。
針對 Grok 最近幾天的激進言論,xAI 表示已採取行動,刪除不當帖子並禁止仇恨言論。

圖 | xAI 回應,已採取措施防止仇恨言論(來源:xAI)
隨著 OpenAI 籌備 GPT-5、谷歌進一步發展 Gemini、Meta 大手筆組建 AI 頂級人才實驗室,Grok 4 只是下一波 AI 軍備競賽的一員。
Grok 4 的亮相符合人們的普遍預期,它在推理效能上的提升創造了新的 SOTA,但另一方面,xAI 強調訓練量提升 100 倍,卻避而不談的訓練成本問題,實實在在反應到了定價上,說明 AI 軍備競賽的確過於燒錢。
但背靠財大氣粗的馬斯克,xAI 顯然很有底氣。
「創造一個既快又聰明的模型,是我們的當務之急。」xAI 創始團隊成員兼研究主管 Jimmy Ba 表示,「未來會很狂野。」
參考資料:
https://x.com/legit_api/status/1941165728708874514
https://x.com/AiBattle_/status/1940139539525419512
https://x.com/AFpost/status/1942694284244767125
https://github.com/xai-org/grok-prompts/blob/main/ask_grok_system_prompt.j2
https://www.wired.com/story/grok-antisemitic-posts-x-xai/
https://docs.x.ai/docs/models
運營/排版:何晨龍


