馬斯克推最強Grok4！人類終極測試幹翻OpenAI，包月費超2千元

決戰GPT-5！馬斯克搶發Grok 4。

作者 | 李水青

編輯 | 心緣

智東西7月10日報道，今日，馬斯克的AI公司xAI釋出其最新旗艦大模型Grok 4和多智慧體版本Grok 4 Heavy，並推出史上最貴的每月300美元（約合2153元人民幣）的AI訂閱計劃Super Grok Heavy。

在“人類的最後考試”（Humanity's Last Exam）中，Grok 4在無需“工具”的情況下取得了25.4%的準確率，超過了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3（高版本）的21%。

配備“工具”的Grok 4 Heavy獲得44.4%的得分，優於配備工具的Gemini 2.5 Pro的26.9%。

▲Grok 4 Heavy在Humanity's Last Exam測評中取得第一

“就學術問題而言，Grok 4在各個學科上都比博士水平高，無一例外。”馬斯克在直播中說，“有時，它可能缺乏常識，而且它還沒有發明新技術或發現新的物理學說，但這只是時間問題。”

▲埃隆·馬斯克在直播中發言

xAI還推出了迄今為止最昂貴的AI訂閱計劃——每月300美元的Super Grok Heavy。訂閱者可以搶先體驗Grok 4 Heavy，並搶先體驗新功能。這些新功能包括但不限於：將於8月推出的AI編碼模型，9月推出的多模態智慧體，以及10月推出的影片生成模型。

▲每月300美元的Super Grok Heavy正式推出

直播結束後，馬斯克在X上發文稱：“你可以將整個原始碼檔案剪下並貼上到Grok上的查詢輸入框中，然後@Grok 4會幫你解決，比Cursor更好用。”

▲馬斯克在社交平臺X上發言

除此之外，xAI推出了Grok 4 API。xAI的企業部門僅成立兩個月，但它計劃與超大規模企業合作，透過其雲平臺提供Grok。

近幾個月來，xAI不僅拿下100億美元最新融資，還收購了社交平臺X，這也讓最新推出的Grok 4成為產業的關注焦點。Grok 4能否成為對打OpenAI計預告今夏推出的GPT-5的有力對手？讓我們來一起先睹為快。

01.

Grok 4測評趕超OpenAI o3

馬斯克：科研能力強過人類博士

馬斯克在直播中稱，在人文、語言、數學、物理、工程等多個基準測試中，Grok 4都取得了好成績。“有些人認為AI不能推理，但Grok 4的推理能力可以超越人類水平，比幾乎所有學科的研究生同時都聰明。”馬斯克說。

xAI的研究人員稱，Humanity's Last Exam測試極具挑戰性，總共有2500個問題，包括數學、自然科學、工程以及所有人文學科，問題廣泛且都是博士甚至高階研究水平，Grok 4在這些問題上可以得到很好的分數。

Grok 4在無需“工具”的情況下，在“測試中獲得了25.4%的準確率，超過了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3（高版本）的21%。馬斯克稱，在學術問題方面，Grok 4比每個學科的博士水平都要好，現在沒有例外。他預測Grok 4最快今年就能去發明新技術了，兩年之內就能發現新物理學說。

在GPQA、AIME25、LCB（Jan-May）、HMMT25等多項測評中，Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。

而在ARC-AGI-2測試中，Grok 4取得了新的最高得分，得分為16.2%。ARC-AGI-2測試是另一項高難度基準測試，包含類似謎題的問題，要求AI識別視覺模式。Grok的得分幾乎是排名第二的商業AI模型Claude Opus 4得分的兩倍。

02.

訓練量級達到Grok 2 100倍

Grok 4將與人形機器人互動

從Grok2到Grok 4，每一次迭代xAI都增加了一個數量級的訓練，因此Grok 4的訓練量級達到了Grok 2的100倍，這使得智力增長非常顯著。

這是xAI第一次像預訓練一樣擴大訓練規模。基於擁有10萬塊H100 GPU的超級算力中心，訓練主要包括兩種型別：一個是從Grok 2到Grok 3到的預訓練，一個是從Grok 3到Grok 4在推理中投入了大量的算力。

談及幕後，如圖所示，當投入越來越多的訓練算力，模型開始逐漸變得越來越聰明，最終在沒有任何工具的情況下，解決了四分之一的Humanity's Last Exam測試問題。

接下來研發人員做的是向模型中新增工具功能。與Grok 3不同的是，研發人員使其更加本地化，將工具放入訓練中，從而顯著提高了模型使用這些工具的能力。

馬斯克透露，今年晚些時候，Grok 4還將融合有限元分析、計算流體動力學等更強大的工具進行訓練，將打造非常精確的物理模擬器，比如去做提供精確的黑洞模擬等任務。最終，Grok 4最大的區別在於，其將能夠透過人形機器人（如擎天柱）與現實世界互動。

馬斯克說，我們正處於智慧大爆炸的開端。我們需要確保AI是一個好的AI，安全最重要的事，AI需要最大限度地尋求真理。你可以把AI看作是超級天才的孩子，最終會比你聰明，但你仍然可以灌輸正確的價值觀並鼓勵它長成想要的樣子。

除了計算之外，還有一個技術問題是資料瓶頸。研發人員稱，在強化學習訓練過程中，他們實際上已經沒有可用來測試的問題了，已有的問題對AI來說正在迅速變得微不足道。

但馬斯克稱，最能出色判斷事物的就是現實。如果物理學是定律，最終其他一切都是建議。你不能打破物理。因此，我認為對於AI的最終測試是現實。就像你發明一項新技術，比如改進汽車或火箭，它有效嗎？現實才是最終的裁判。所以這將是一個圍繞現實的強化學習閉環。

03.

現場演示：看論文進行現實模擬

語音模式延遲減少一半

xAI研究員在直播中演示了Grok 4回答問題的能力。

Grok 4的一大特點是能夠理解世界，並透過利用工具來解決難題。比如要求Grok 4生成兩個黑洞碰撞的視覺化影像，它有一些清晰的思考過程，比如，為了讓它真正可見，Grok 4考慮到透過海浪的形式擴放它的規模。從思考過程看，Grok 4使用了搜尋，從一堆連結中收集結果，參考了現有的現實世界資料，而且還閱讀了分析引力波模型的本科論文。