Cursor終結者?Grok4正式登頂!馬斯克揚言程式設計碾壓,20萬N卡年賺47億美金!

作者|華衛、冬梅
時隔 5 個月,Grok 終於再次“更新換代”。
這次,xAI 不僅直接跳過了 Grok 3.5,而且並非只發布一款模型。今天剛釋出的是通用模型 Grok 4,能夠處理常規任務並進行對話。接下來的三個月時間裡,xAI 將陸續釋出專為編碼任務設計的 Coding Model、多模態代理 Multi-modal Agent 和影片生成模型 Video Generation Model。
目前,Grok 4 已上線,提供三個訂閱版本,包括免費的基礎版、每月 30 美元的 Supergrok 和每月 300 美元的 Supergrok Heavy。SuperGrok Heavy 訂閱使用者可提前體驗 xAI 計劃在未來幾個月推出的一些新產品。
“在所有學科領域,Grok 4 的智慧水平都超過了博士生”。釋出會上,馬斯克吹噓道,“我們已經沒有測試題可問了,現實是終極的推理測試”,他補充說:“有時,它可能缺乏常識,而且它還沒有發明新技術或發現新的物理學,但這只是時間問題。”
直播現場,馬斯克身著皮夾克,在 xAI 團隊成員的陪同下,詳細演示了這款新模型。值得注意的是,距離產品釋出僅數小時前,xAI 的首席科學家 Igor Babuschkin 辭職了。在一張成員合照中可以看到,xAI 團隊 70% 以上都是亞洲人。
1 Grok 4 “雖遲但到”
其實這場釋出早在週一就被馬斯克在 X 上預熱了,當時他發文表示將於 7 月 9 日 8 時(北京時間 7 月 10 日上午 11 點)在 X 平臺透過直播發布其人工智慧聊天機器人最新版本 Grok 4。
馬斯克雖然沒有爽約,但直播開始時間比計劃晚了近一小時。
開場,馬斯克就表示,Grok 4 效能非常強大,這系列包含兩個版本:Grok 4 和 Grok 4 Heavy。兩款模型都是純推理模型,沒有非推理模式。
  • Grok 4 每次在 SAT 考試中都能取得滿分,而且事先從未見過考題。
  • Grok 4 在 GRE 考試的各個學科中都能取得近乎滿分的成績。
  • Grok 4 在所有學科上的表現幾乎同時超過了絕大多數研究生。
  • Grok 4 在“人類終極考試”中得分達 50.7%(使用測試時計算、工具和多個並行智慧體)
與早期版本的 Grok 一樣,Grok 4 搭載了 “深度搜索” 工具,可從網路(尤其是馬斯克旗下的 X 平臺)抓取即時資料。這意味著 Grok 能在對話中直接提供最新結果,無需額外開啟標籤頁或瀏覽器。
Grok 4 最大的差異化優勢之一是對網際網路文化的理解。Grok 4 經過調校,能高精度解讀 meme、俚語和幽默內容,有望成為目前最 “懂網路” 的 AI 助手之一。“這款新模型有時可能缺乏常識,也尚未能發明新技術或發現新的物理學知識,但這都只是時間問題,”馬斯克表示。
Grok 4 預計不僅支援文字,還將支援影像,甚至可能支援影片 —— 馬斯克曾坦言這是他們目前的一大短板。更強的多模態能力將使其更接近與 OpenAI 的 GPT-5o 和谷歌的 Gemini 2.5 Pro 的競爭水平。未來,Grok 4 或還有望支援影片處理。
另據介紹,Grok 4 可透過多個平臺使用,確保廣大受眾的可訪問性:
  • xAI 控制檯:Grok 4(型號 grok-4-0629)可透過 xAI 的 API 訪問,主要面向開發者和企業使用者。
  • Grok.com 與 X 平臺:使用者可在 grok.com、x.com 以及 Grok 的 iOS 和 Android 應用中使用 Grok 4,免費訪問但有使用額度限制。
  • SuperGrok 訂閱服務:grok.com 上的付費套餐為 Grok 4 提供比免費版更高的使用額度。定價詳情請查閱 xAI 官方網站。
  • X Premium 訂閱:x.com 的訂閱使用者可享受 Grok 4 的增強訪問許可權。定價資訊可在 X Premium 支援頁面查詢。
Grok 4 Heavy 是該公司效能更強大的“多智慧體版本”。馬斯克聲稱,Grok 4 Heavy 會生成多個智慧體同時處理一個問題,然後它們會“像一個學習小組”一樣比較各自的工作,以找到最佳答案。
2 基準測試 KO 一眾領先模型, 編碼水平超越 Cursor?
“在多項基準測試中,Grok 4 都展現出前沿水平。”
xAI 聲稱,Grok 4 在無需“工具”的情況下,在“人類的最後考試”(Humanity's Last Exam)中獲得了 25.4% 的準確率,超過了谷歌 Gemini 2.5 Pro(21.6%)和 OpenAI o3(high)(21%)。(“人類的最後考試”是一項極具挑戰性的測試,旨在衡量 AI 回答數千道眾包問題的能力,涵蓋數學、人文和自然科學等學科。)
xAI 還表示,配備“工具”的 Grok 4 Heavy 能夠獲得 44.4% 的得分,優於配備工具的 Gemini 2.5 Pro,後者得分為 26.9%。
在 ARC-AGI-1 測試中,Grok 4(Thinking 版本)取得了 66.7% 的成績,與 ARC 上個月公佈的 AI 推理系統帕累托最優邊界高度吻合。(ARC-AGI 是評估人工智慧通用推理能力的基準測試;Pareto frontier“帕累托最優邊界”在 AI 領域指的是在多個性能維度上達到最優平衡的狀態,即無法在提升某一維度表現的同時不損害其他維度。)
在 ARC-AGI-2 測試中,Grok 4(Thinking 版本)以 15.9% 的得分創下新的最優成績(SOTA)。這一成績幾乎是此前商業模型最優成績的兩倍,且超過了當前 Kaggle 競賽中的最優成績。(Kaggle 是知名的資料科學與機器學習競賽平臺。)
釋出之前,xAI 讓獨立 AI 基準測試與分析平臺 Artificial Analysis 提前使用了 Grok 4,其在完成全套基準測試後放出這樣的結果:Grok 4 的人工智慧分析智慧指數達到 73,領先於 OpenAI o3(70)、谷歌 Gemini 2.5 Pro(70)、Anthropic Claude 4 Opus(64)以及 DeepSeek R1 0528(68)。
Grok 4 除在人工智慧分析智慧指數中位居榜首外,在編碼指數(LiveCodeBench 和 SciCode)與數學指數(AIME24 和 MATH-500)中同樣領先。更詳細的關鍵基準測試結果如下:
  • 在 GPQA Diamond 測試中創下 88% 的歷史最高分,較 Gemini 2.5 Pro 此前 84% 的紀錄實現突破。
  • 在 “人類終極考試”(HLE)中取得 24% 的歷史最高分,超過 Gemini 2.5 Pro 此前 21% 的紀錄。注:我們的基準測試套件使用原始 HLE 資料集(2025 年 1 月版),且僅執行純文字子集,不借助任何工具。
  • 在 MMLU-Pro 和 2024 年 AIME 測試中分別以 87% 和 94% 的成績並列第一。
  • 速度:每秒輸出 75 個 token,慢於 o3(188 token / 秒)、Gemini 2.5 Pro(142 token / 秒)、Claude 4 Sonnet 思維版(85 token / 秒),但快於 Claude 4 Opus 思維版(66 token / 秒)。
此外,馬斯克提到,在編碼方面,“Grok 4 比 Cursor 更好用”。據他介紹,將整個原始碼檔案複製貼上到 Grok 的查詢輸入框中後,Grok 4 就會開始修復程式碼。
3 效能如此強大,怎麼做到的?
Grok 4 為什麼能做到如此強大的效能表現?
現場,xAI 研究科學家 Tony Wu 重點介紹了該模型在訓練方面的進展,並指出其從預訓練轉向了對推理和強化學習的高度重視。
“從 Grok 3 到 Grok 4,我們將大量的計算投入到推理和強化學習中,”Tony Wu 說道。他還補充道,藉助 Grok 4 Heavy 中新增的工具和多智慧體系統,該模型在嚴苛的人文碩士考試基準測試中解決了超過 50% 的文字問題,相比早期模型的個位數準確率,實現了顯著的飛躍。
馬斯克將這一飛躍歸功於大規模計算擴充套件,並指出 xAI 將訓練量從 Grok 2 提升到 Grok 3,然後再提升到 Grok 4,提升了一個數量級。“它的訓練量是 Grok 2 的 100 倍,而且只會繼續增加,”馬斯克說道。“從某些方面來說,這有點令人恐懼,但這裡的智慧增長是驚人的。”
xAI 聯合創始人 Jimmy Ba 也對此次規模擴張表示贊同,並稱贊該公司的 Colossus 超級計算機已擴充套件到 20 萬個 GPU,使其在強化學習中的計算能力比任何競爭對手的模型高出 10 倍。Jimmy Ba  指出:“這確實是發展最快的領域。”
有趣的是,在直播演示中,Grok4 甚至重現了由碰撞黑洞產生的引力波。
其中一個演示展示了 Grok 4 在 Handle Labs 的 VendingBench 上表現出色。VendingBench 是一款 AI 商業模擬遊戲,該模型透過管理庫存和合同,使競爭對手的淨資產翻了一番。馬斯克以他標誌性的幽默感回應道: “很高興看到我們現在有辦法支付所有這些 GPU 的費用了,”他開玩笑說。“我們只需要一百萬臺自動售貨機,每年就能賺 47 億美元(合約人民幣 337.28 億元)。出發!”
語音模式也得到了顯著升級。據介紹,Grok 4 的語音功能擁有自然、類人的聲線,且中斷更少。Jimmy Ba 解釋了他們的理念:  “我們追求的是更平靜、更流暢、更自然的聲音,而不是更誇張或更做作的聲音。”
該路線圖瞄準了關鍵的研發痛點。預計“幾周內”將推出一個專門的編碼模型。即將推出的第七版基礎模型將增強多模態理解,從而實現強大的影片生成功能。馬斯克設定了雄心勃勃的創意時間表:  “我預計第一款真正優秀的人工智慧電子遊戲將在明年問世,”他預測道,“也可能是第一部值得一看的人工智慧電影將在明年問世。”
“唯一能夠完美評判事物的就是現實,”他總結道。“因為物理學是定律,所以最終其他一切都只是建議……對人工智慧的最終考驗是現實。”
4 網友怎麼看?
Grok 4 的釋出在 Hacker News、Reddit、X 等平臺上引發熱議。
在 Hacker News 上,有網友稱:
“Grok 4 看起來它確實是新的 SOTA 模型,在 Humanity's Last Exam、GPQA、AIME25、HMMT25、USAMO 2025、LiveCodeBench 以及 ARC-AGI 1 和 2 中的得分明顯優於 o3、Gemini 和 Claude。馬斯克團隊強調專用編碼模型將在幾周後推出,所以他們今天並沒有過多地討論 Grok 4 的編碼效能。”
對於馬斯克團隊曬出的 Grok 4 在人類最後的考試基準測試中的得分,網友也認為如果情況屬實那這款模型真的太強大了。
“老實說,如果它真的在人類的最後考試中獲得了 44.4% 的分數,那將是極其令人印象深刻的,因為 Gemini 2.5 Pro 和 o3 加上工具後得分僅為 26.9% 和 24.9%。”
在 Grok 4 釋出後,壓力似乎來到了 OpenAI 這邊,有網友認為,OpenAI 新模型可能會在 8 月份釋出,因為他們可能會在 Grok 4 釋出後爭個後來者居上。
“我認為 Chat GPT 5 要到 8 月底才會釋出。他們會根據 Grok 的表現,看看如何提升它的水平。”
參考連結:
https://x.com/xai/status/1943158495588815072
宣告:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
會議推薦
首屆 AICon 全球人工智慧開發與應用大會(深圳站)將於 8 月 22-23 日正式舉行!本次大會以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何透過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!

相關文章