Cursor終結者？Grok4正式登頂！馬斯克揚言程式設計碾壓，20萬N卡年賺47億美金！

作者｜華衛、冬梅

時隔 5 個月，Grok 終於再次“更新換代”。

這次，xAI 不僅直接跳過了 Grok 3.5，而且並非只發布一款模型。今天剛釋出的是通用模型 Grok 4，能夠處理常規任務並進行對話。接下來的三個月時間裡，xAI 將陸續釋出專為編碼任務設計的 Coding Model、多模態代理 Multi-modal Agent 和影片生成模型 Video Generation Model。

目前，Grok 4 已上線，提供三個訂閱版本，包括免費的基礎版、每月 30 美元的 Supergrok 和每月 300 美元的 Supergrok Heavy。SuperGrok Heavy 訂閱使用者可提前體驗 xAI 計劃在未來幾個月推出的一些新產品。

“在所有學科領域，Grok 4 的智慧水平都超過了博士生”。釋出會上，馬斯克吹噓道，“我們已經沒有測試題可問了，現實是終極的推理測試”，他補充說：“有時，它可能缺乏常識，而且它還沒有發明新技術或發現新的物理學，但這只是時間問題。”

直播現場，馬斯克身著皮夾克，在 xAI 團隊成員的陪同下，詳細演示了這款新模型。值得注意的是，距離產品釋出僅數小時前，xAI 的首席科學家 Igor Babuschkin 辭職了。在一張成員合照中可以看到，xAI 團隊 70% 以上都是亞洲人。

1 Grok 4 “雖遲但到”

其實這場釋出早在週一就被馬斯克在 X 上預熱了，當時他發文表示將於 7 月 9 日 8 時（北京時間 7 月 10 日上午 11 點）在 X 平臺透過直播發布其人工智慧聊天機器人最新版本 Grok 4。

馬斯克雖然沒有爽約，但直播開始時間比計劃晚了近一小時。

開場，馬斯克就表示，Grok 4 效能非常強大，這系列包含兩個版本：Grok 4 和 Grok 4 Heavy。兩款模型都是純推理模型，沒有非推理模式。

Grok 4 每次在 SAT 考試中都能取得滿分，而且事先從未見過考題。
Grok 4 在 GRE 考試的各個學科中都能取得近乎滿分的成績。
Grok 4 在所有學科上的表現幾乎同時超過了絕大多數研究生。
Grok 4 在“人類終極考試”中得分達 50.7%（使用測試時計算、工具和多個並行智慧體）

與早期版本的 Grok 一樣，Grok 4 搭載了 “深度搜索” 工具，可從網路（尤其是馬斯克旗下的 X 平臺）抓取即時資料。這意味著 Grok 能在對話中直接提供最新結果，無需額外開啟標籤頁或瀏覽器。

Grok 4 最大的差異化優勢之一是對網際網路文化的理解。Grok 4 經過調校，能高精度解讀 meme、俚語和幽默內容，有望成為目前最 “懂網路” 的 AI 助手之一。“這款新模型有時可能缺乏常識，也尚未能發明新技術或發現新的物理學知識，但這都只是時間問題，”馬斯克表示。

Grok 4 預計不僅支援文字，還將支援影像，甚至可能支援影片 —— 馬斯克曾坦言這是他們目前的一大短板。更強的多模態能力將使其更接近與 OpenAI 的 GPT-5o 和谷歌的 Gemini 2.5 Pro 的競爭水平。未來，Grok 4 或還有望支援影片處理。

另據介紹，Grok 4 可透過多個平臺使用，確保廣大受眾的可訪問性：

xAI 控制檯：Grok 4（型號 grok-4-0629）可透過 xAI 的 API 訪問，主要面向開發者和企業使用者。
Grok.com 與 X 平臺：使用者可在 grok.com、x.com 以及 Grok 的 iOS 和 Android 應用中使用 Grok 4，免費訪問但有使用額度限制。
SuperGrok 訂閱服務：grok.com 上的付費套餐為 Grok 4 提供比免費版更高的使用額度。定價詳情請查閱 xAI 官方網站。
X Premium 訂閱：x.com 的訂閱使用者可享受 Grok 4 的增強訪問許可權。定價資訊可在 X Premium 支援頁面查詢。

Grok 4 Heavy 是該公司效能更強大的“多智慧體版本”。馬斯克聲稱，Grok 4 Heavy 會生成多個智慧體同時處理一個問題，然後它們會“像一個學習小組”一樣比較各自的工作，以找到最佳答案。

2 基準測試 KO 一眾領先模型，編碼水平超越 Cursor？

“在多項基準測試中，Grok 4 都展現出前沿水平。”

xAI 聲稱，Grok 4 在無需“工具”的情況下，在“人類的最後考試”（Humanity's Last Exam）中獲得了 25.4% 的準確率，超過了谷歌 Gemini 2.5 Pro（21.6%）和 OpenAI o3（high）（21%）。（“人類的最後考試”是一項極具挑戰性的測試，旨在衡量 AI 回答數千道眾包問題的能力，涵蓋數學、人文和自然科學等學科。）

xAI 還表示，配備“工具”的 Grok 4 Heavy 能夠獲得 44.4% 的得分，優於配備工具的 Gemini 2.5 Pro，後者得分為 26.9%。

在 ARC-AGI-1 測試中，Grok 4（Thinking 版本）取得了 66.7% 的成績，與 ARC 上個月公佈的 AI 推理系統帕累托最優邊界高度吻合。（ARC-AGI 是評估人工智慧通用推理能力的基準測試；Pareto frontier“帕累托最優邊界”在 AI 領域指的是在多個性能維度上達到最優平衡的狀態，即無法在提升某一維度表現的同時不損害其他維度。）

在 ARC-AGI-2 測試中，Grok 4（Thinking 版本）以 15.9% 的得分創下新的最優成績（SOTA）。這一成績幾乎是此前商業模型最優成績的兩倍，且超過了當前 Kaggle 競賽中的最優成績。（Kaggle 是知名的資料科學與機器學習競賽平臺。）

釋出之前，xAI 讓獨立 AI 基準測試與分析平臺 Artificial Analysis 提前使用了 Grok 4，其在完成全套基準測試後放出這樣的結果：Grok 4 的人工智慧分析智慧指數達到 73，領先於 OpenAI o3（70）、谷歌 Gemini 2.5 Pro（70）、Anthropic Claude 4 Opus（64）以及 DeepSeek R1 0528（68）。

Grok 4 除在人工智慧分析智慧指數中位居榜首外，在編碼指數（LiveCodeBench 和 SciCode）與數學指數（AIME24 和 MATH-500）中同樣領先。更詳細的關鍵基準測試結果如下：

在 GPQA Diamond 測試中創下 88% 的歷史最高分，較 Gemini 2.5 Pro 此前 84% 的紀錄實現突破。
在 “人類終極考試”（HLE）中取得 24% 的歷史最高分，超過 Gemini 2.5 Pro 此前 21% 的紀錄。注：我們的基準測試套件使用原始 HLE 資料集（2025 年 1 月版），且僅執行純文字子集，不借助任何工具。
在 MMLU-Pro 和 2024 年 AIME 測試中分別以 87% 和 94% 的成績並列第一。
速度：每秒輸出 75 個 token，慢於 o3（188 token / 秒）、Gemini 2.5 Pro（142 token / 秒）、Claude 4 Sonnet 思維版（85 token / 秒），但快於 Claude 4 Opus 思維版（66 token / 秒）。

此外，馬斯克提到，在編碼方面，“Grok 4 比 Cursor 更好用”。據他介紹，將整個原始碼檔案複製貼上到 Grok 的查詢輸入框中後，Grok 4 就會開始修復程式碼。

3 效能如此強大，怎麼做到的？

Grok 4 為什麼能做到如此強大的效能表現？

現場，xAI 研究科學家 Tony Wu 重點介紹了該模型在訓練方面的進展，並指出其從預訓練轉向了對推理和強化學習的高度重視。

“從 Grok 3 到 Grok 4，我們將大量的計算投入到推理和強化學習中，”Tony Wu 說道。他還補充道，藉助 Grok 4 Heavy 中新增的工具和多智慧體系統，該模型在嚴苛的人文碩士考試基準測試中解決了超過 50% 的文字問題，相比早期模型的個位數準確率，實現了顯著的飛躍。

馬斯克將這一飛躍歸功於大規模計算擴充套件，並指出 xAI 將訓練量從 Grok 2 提升到 Grok 3，然後再提升到 Grok 4，提升了一個數量級。“它的訓練量是 Grok 2 的 100 倍，而且只會繼續增加，”馬斯克說道。“從某些方面來說，這有點令人恐懼，但這裡的智慧增長是驚人的。”

xAI 聯合創始人 Jimmy Ba 也對此次規模擴張表示贊同，並稱贊該公司的 Colossus 超級計算機已擴充套件到 20 萬個 GPU，使其在強化學習中的計算能力比任何競爭對手的模型高出 10 倍。Jimmy Ba 指出：“這確實是發展最快的領域。”

有趣的是，在直播演示中，Grok4 甚至重現了由碰撞黑洞產生的引力波。

其中一個演示展示了 Grok 4 在 Handle Labs 的 VendingBench 上表現出色。VendingBench 是一款 AI 商業模擬遊戲，該模型透過管理庫存和合同，使競爭對手的淨資產翻了一番。馬斯克以他標誌性的幽默感回應道： “很高興看到我們現在有辦法支付所有這些 GPU 的費用了，”他開玩笑說。“我們只需要一百萬臺自動售貨機，每年就能賺 47 億美元（合約人民幣 337.28 億元）。出發！”

語音模式也得到了顯著升級。據介紹，Grok 4 的語音功能擁有自然、類人的聲線，且中斷更少。Jimmy Ba 解釋了他們的理念： “我們追求的是更平靜、更流暢、更自然的聲音，而不是更誇張或更做作的聲音。”

該路線圖瞄準了關鍵的研發痛點。預計“幾周內”將推出一個專門的編碼模型。即將推出的第七版基礎模型將增強多模態理解，從而實現強大的影片生成功能。馬斯克設定了雄心勃勃的創意時間表： “我預計第一款真正優秀的人工智慧電子遊戲將在明年問世，”他預測道，“也可能是第一部值得一看的人工智慧電影將在明年問世。”

“唯一能夠完美評判事物的就是現實，”他總結道。“因為物理學是定律，所以最終其他一切都只是建議……對人工智慧的最終考驗是現實。”

4 網友怎麼看？

Grok 4 的釋出在 Hacker News、Reddit、X 等平臺上引發熱議。

在 Hacker News 上，有網友稱：

“Grok 4 看起來它確實是新的 SOTA 模型，在 Humanity's Last Exam、GPQA、AIME25、HMMT25、USAMO 2025、LiveCodeBench 以及 ARC-AGI 1 和 2 中的得分明顯優於 o3、Gemini 和 Claude。馬斯克團隊強調專用編碼模型將在幾周後推出，所以他們今天並沒有過多地討論 Grok 4 的編碼效能。”

對於馬斯克團隊曬出的 Grok 4 在人類最後的考試基準測試中的得分，網友也認為如果情況屬實那這款模型真的太強大了。

“老實說，如果它真的在人類的最後考試中獲得了 44.4% 的分數，那將是極其令人印象深刻的，因為 Gemini 2.5 Pro 和 o3 加上工具後得分僅為 26.9% 和 24.9%。”

在 Grok 4 釋出後，壓力似乎來到了 OpenAI 這邊，有網友認為，OpenAI 新模型可能會在 8 月份釋出，因為他們可能會在 Grok 4 釋出後爭個後來者居上。

“我認為 Chat GPT 5 要到 8 月底才會釋出。他們會根據 Grok 的表現，看看如何提升它的水平。”

參考連結：

https://x.com/xai/status/1943158495588815072

宣告：本文為 InfoQ 翻譯整理，不代表平臺觀點，未經許可禁止轉載。

180 天狠賺 5.7 億，8 人團隊全員財富自由，最大功臣是 Claude 和 Gemini

Cursor 搭 MCP，一句話就能讓資料庫裸奔！？不是程式碼bug，是MCP 天生架構設計缺陷

卷瘋了！這個清華系Agent框架開源後迅速斬獲1.9k stars，還要“消滅”Prompt？

會議推薦

首屆 AICon 全球人工智慧開發與應用大會（深圳站）將於 8 月 22-23 日正式舉行！本次大會以 “探索 AI 應用邊界” 為主題，聚焦 Agent、多模態、AI 產品設計等熱門方向，圍繞企業如何透過大模型降低成本、提升經營效率的實際應用案例，邀請來自頭部企業、大廠以及明星創業公司的專家，帶來一線的大模型實踐經驗和前沿洞察。一起探索 AI 應用的更多可能，發掘 AI 驅動業務增長的新路徑！