馬斯克表示,Grok 4 已在所有主要學科上超越博士水平。雖然它目前尚不具備發明新理論或提出原創技術的能力,但在他看來,這只是時間問題。他甚至預言,今年底 Grok 可能就能發明新技術,明年幾乎可以確定將具備發現新物理規律的能力。讓 AI 接入現實世界,才是真正的關鍵。馬斯克表示,Grok 與人形機器人 Optimus 的結合,將形成一個閉環推理系統——提出假設、驗證假設、探索現實。這將開啟一個智慧大爆炸的時代,是人類歷史上最令人激動的節點。
在產品形態上,Grok 4 是單智慧體模型,而 Grok 4 Heavy 則是多智慧體版本。前者比較好理解,而後者則支援多個智慧體並行思考,在推理過程中橫向比對、縱向協同,呼叫更大規模的計算資源以完成更復雜、更精密的任務。在現場演示中,Grok 4 Heavy 展示了多個場景能力。比方說,讓 Grok 4 Heavy 去預測今年 MLB 世界大賽(World Series)的冠軍機率,它透過資訊檢索、資料建模、機率計算,評估洛杉磯道奇隊的奪冠機率為 21.6%,並在 4.5 分鐘內完整輸出預測過程。
再比如,讓它找出 xAI 團隊裡頭像最奇怪的那一個。依託 X 平臺的資料庫,模型自動抓取並分析頭像風格,最後鎖定了聯合創始人 Greg Yang。
有趣的是,雖然模型準確理解了「奇怪」這一概念,並能在同類中做出相對判斷,但在一滑而過的演示中,我似乎看到了 Anthropic 員工 Jan Leike 的頭像,看來準確率也有待提高。除了推理和搜尋,Grok 還能生成內容時間軸。比如,根據 X 平臺上的公開發帖,它能梳理出多個 AI 模型的基準測試成績、廠商更新節奏以及社群反應。使用者可以一目瞭然地看到 OpenAI 的分數表現、Gemini 的更新迭代等。
儘管存在簡化,模型依然準確地呈現了黑洞併合的關鍵物理階段,包括「螺旋接近」、「合併」與「振鈴階段」,並能清晰說明所採用的近似方法。此外,它還呼叫了相關教材、公開搜尋結果及實際物理常數進行推理支援,整體邏輯鏈條嚴謹、解釋清晰。就紙面引數而言,Grok 4 也交出了亮眼答卷。Humanity’s Last Exam(人類最後的考試,簡稱:HLE,)覆蓋了數學、物理、計算機、醫學、人文社科等超過 100 個學科,共 2500 道閉卷題,測試難度極高,能夠真實反映模型在通用知識和複雜推理上的綜合表現。
根據 xAI 資料,Grok 4 在不使用任何工具的情況下,得分為 25.4%,超過了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%。而在使用工具的情況下,Grok 4 Heavy 的得分達到 44.4%,遠高於使用工具後 Gemini 2.5 Pro 的 26.9%。
非營利組織 Arc Prize 則指出,Grok 在其 ARC-AGI-2 測試中創下新紀錄。這是一項視覺推理類基準測試,AI 需識別影像中的模式。Grok 的得分為 16.2%,幾乎是當前排名第二的 Claude Opus 4 的兩倍。
面對一些常規的基準測試中,Grok 4 Heavy 的分數幾乎也快「刷滿」分數。在博士級難度的問題集 GBQA 中,儘管整體難度略低於 HLE,Grok 4 Heavy 依然取得了滿分成績,展現出極強的推理與理解能力。
不僅如此,在多項程式設計相關測試中,Grok 4 Heavy 的表現同樣搶眼。無論是 Live Coding、HMMT(麻省理工數學競賽)還是 USAMO(美國數學奧林匹克),它都遠超當前排名第二的模型,技術優勢相當明顯。另外,知名分析機構 Artificial Analysis 透過對多款主流大模型在 7 個推理相關基準(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的綜合表現進行評估。
資料顯示,Grok 4 位列第一,得分為 73,是目前推理能力綜合得分最高的模型。緊隨其後的則是 o3-pro(估算值)71 分。馬斯克也強調:未來 Grok 將幾乎在所有考試中答對每一個問題。而當它答不出某個問題時,它會指出題目的錯誤之處,或者指出問題含糊不清的地方,並給出不同情境下可能的答案。到那時,傳統考試將失去意義。AI 唯一的檢驗標準將是現實世界:它是否能發明有用的技術,是否能推動科學的突破。所以 HLE 這類測試題庫必須儘快更新,因為以當前的 AI 進展速度,它們很快就會過時。截至發稿前,Grok 4 和 Grok 4 Heavy 目前均已陸續上線。
目前,Grok 4 和 Grok 4 Heavy 已全面上線。使用者可以透過訂閱訪問,不過,訂閱價格就有點「不講武德」,最高可去到 3000 美元/年檔位,成了不少使用者吐槽的焦點。