年費超2萬！馬斯克剛剛釋出最貴AI，Grok4號稱所有領域碾壓博士

馬斯克憋了快半年，終於把 Grok 4 端上了檯面。

這一次，他的口氣依舊不小。早在釋出會前就放出狠話，聲稱 Grok 4 要「重寫人類知識庫」。等到了釋出會上，馬斯克再次強調 Grok 4 是目前世界上最聰明的 AI。

可以，熟悉的味道，熟悉的配方。

當然，馬斯克誇自家產品這事兒，大家早就見怪不怪，但正如網友所調侃的那樣，你可以嘲笑 xAI 員工在辦公室帳篷裡睡覺或者週末工作到凌晨 4:20，但也得承認，他們的確是當下發展速度最快的 AI 實驗室之一。

至於 Grok 4 能不能配得上「最聰明 AI」的稱號，還得看後續的實際體驗。不過，有一點是跑不了的——它已經成了市面上最貴的 AI，年訂閱價格最高可達到 3000 美元，定價策略可謂是相當不講武德。

世界上最聰明的 AI？世界上最貴的 AI！

Grok 的訓練路徑分為兩個核心階段：預訓練與強化學習。從 Grok 2 到 Grok 3，主要依賴預訓練方式；而從 Grok 3 升級到 Grok 4，則大幅引入了以推理能力為核心的強化學習訓練。

馬斯克說得輕描淡寫，但訓練的動靜卻不小。

相比 Grok 2，Grok 4 的訓練計算量提升了整整兩個數量級，相當於增長了 100 倍——而且還在持續擴張。

馬斯克表示，Grok 4 已在所有主要學科上超越博士水平。雖然它目前尚不具備發明新理論或提出原創技術的能力，但在他看來，這只是時間問題。

他甚至預言，今年底 Grok 可能就能發明新技術，明年幾乎可以確定將具備發現新物理規律的能力。

讓 AI 接入現實世界，才是真正的關鍵。

馬斯克表示，Grok 與人形機器人 Optimus 的結合，將形成一個閉環推理系統——提出假設、驗證假設、探索現實。這將開啟一個智慧大爆炸的時代，是人類歷史上最令人激動的節點。

在產品形態上，Grok 4 是單智慧體模型，而 Grok 4 Heavy 則是多智慧體版本。

前者比較好理解，而後者則支援多個智慧體並行思考，在推理過程中橫向比對、縱向協同，呼叫更大規模的計算資源以完成更復雜、更精密的任務。

在現場演示中，Grok 4 Heavy 展示了多個場景能力。

比方說，讓 Grok 4 Heavy 去預測今年 MLB 世界大賽（World Series）的冠軍機率，它透過資訊檢索、資料建模、機率計算，評估洛杉磯道奇隊的奪冠機率為 21.6%，並在 4.5 分鐘內完整輸出預測過程。

再比如，讓它找出 xAI 團隊裡頭像最奇怪的那一個。依託 X 平臺的資料庫，模型自動抓取並分析頭像風格，最後鎖定了聯合創始人 Greg Yang。

有趣的是，雖然模型準確理解了「奇怪」這一概念，並能在同類中做出相對判斷，但在一滑而過的演示中，我似乎看到了 Anthropic 員工 Jan Leike 的頭像，看來準確率也有待提高。

除了推理和搜尋，Grok 還能生成內容時間軸。

比如，根據 X 平臺上的公開發帖，它能梳理出多個 AI 模型的基準測試成績、廠商更新節奏以及社群反應。使用者可以一目瞭然地看到 OpenAI 的分數表現、Gemini 的更新迭代等。

換句話說，Grok 不是隻會考試的書呆子，而是真正具備跨場景理解與執行能力的 AI。

目前，Grok 最大的短板依然集中在多模態理解能力，尤其是在影像理解和生成方面，能力仍有待加強。好訊息是，下一階段的基礎模型訓練已經在路上，預計幾周內完成。

演示過程中，在測試「兩個黑洞相撞過程」的視覺化任務時，Grok 採用了簡化的計算方式——使用後牛頓近似（Post-Newtonian approximation）替代完整的廣義相對論框架。

儘管存在簡化，模型依然準確地呈現了黑洞併合的關鍵物理階段，包括「螺旋接近」、「合併」與「振鈴階段」，並能清晰說明所採用的近似方法。此外，它還呼叫了相關教材、公開搜尋結果及實際物理常數進行推理支援，整體邏輯鏈條嚴謹、解釋清晰。

就紙面引數而言，Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam（人類最後的考試，簡稱：HLE，）覆蓋了數學、物理、計算機、醫學、人文社科等超過 100 個學科，共 2500 道閉卷題，測試難度極高，能夠真實反映模型在通用知識和複雜推理上的綜合表現。

根據 xAI 資料，Grok 4 在不使用任何工具的情況下，得分為 25.4%，超過了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3（高配版）的 21%。

而在使用工具的情況下，Grok 4 Heavy 的得分達到 44.4%，遠高於使用工具後 Gemini 2.5 Pro 的 26.9%。

非營利組織 Arc Prize 則指出，Grok 在其 ARC-AGI-2 測試中創下新紀錄。這是一項視覺推理類基準測試，AI 需識別影像中的模式。Grok 的得分為 16.2%，幾乎是當前排名第二的 Claude Opus 4 的兩倍。

面對一些常規的基準測試中，Grok 4 Heavy 的分數幾乎也快「刷滿」分數。在博士級難度的問題集 GBQA 中，儘管整體難度略低於 HLE，Grok 4 Heavy 依然取得了滿分成績，展現出極強的推理與理解能力。

不僅如此，在多項程式設計相關測試中，Grok 4 Heavy 的表現同樣搶眼。無論是 Live Coding、HMMT（麻省理工數學競賽）還是 USAMO（美國數學奧林匹克），它都遠超當前排名第二的模型，技術優勢相當明顯。

另外，知名分析機構 Artificial Analysis 透過對多款主流大模型在 7 個推理相關基準（MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500）上的綜合表現進行評估。

資料顯示，Grok 4 位列第一，得分為 73，是目前推理能力綜合得分最高的模型。緊隨其後的則是 o3-pro（估算值）71 分。

馬斯克也強調：

未來 Grok 將幾乎在所有考試中答對每一個問題。而當它答不出某個問題時，它會指出題目的錯誤之處，或者指出問題含糊不清的地方，並給出不同情境下可能的答案。到那時，傳統考試將失去意義。AI 唯一的檢驗標準將是現實世界：它是否能發明有用的技術，是否能推動科學的突破。所以 HLE 這類測試題庫必須儘快更新，因為以當前的 AI 進展速度，它們很快就會過時。

截至發稿前，Grok 4 和 Grok 4 Heavy 目前均已陸續上線。

目前，Grok 4 和 Grok 4 Heavy 已全面上線。使用者可以透過訂閱訪問，不過，訂閱價格就有點「不講武德」，最高可去到 3000 美元/年檔位，成了不少使用者吐槽的焦點。

這麼一比，OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐都顯得十分良心。

值得一提的是，釋出後不久就有網友表示，Grok-4 與 Grok-4-Heavy 模型已經被成功「越獄」。

越獄後的能力極其危險，可繞過安全護欄，輸出敏感或非法資訊，比如化學武器合成步驟、《星球大戰1》的完整劇本（涉嫌版權）、甚至勒索病毒（惡意程式碼）等。

不只會說話，Grok Voice 還有了「靈魂」

除了更強的推理能力，更聰明，Grok 4 這次也在「更像人」這件事上，邁出了一大步。

跟我們熟悉的語音助手不同，xAI 全新語音助手「Eve」不只是能答話，它能表達情緒、有語調變化，甚至還能現場「唱歌」。

在直播現場的演示上，它用一口優雅的英音，唱了一首即興創作的「Diet Coke 詠歎調」，「O Diet Coke, thou elixir divine…」聽起來真的不像是 AI，像是倫敦劇場裡的舞臺演員在表演。

這次語音模型一共上線了五種聲音，包括直播開場的「電影一般的預告男聲」Sal，以及支援低延遲、自然停頓、情緒起伏等能力的 Eve。

現場還安排了一段和 ChatGPT Voice 的對比演示，兩者輪流複述數字。ChatGPT 時不時「搶答」，有點像沒聽清就硬接話的同學。而 Grok 的表現更流暢、更貼近人類說話習慣，而且不會打斷使用者說話。

釋出會上提到，自語音模型上線以來，Grok Voice 的端到端延遲縮短了兩倍，活躍使用者也增長了 10 倍。Grok Voice 正在迅速發展。

馬斯克：讓 Grok 去開一百萬個自動售貨機賺錢

幾個 Grok 4 API 的應用場景讓我印象非常深刻。

比如，在一項自動售貨機商業模擬 Vending-Bench中，Grok 被要求自主完成：供應商協商、庫存管理、定價策略，連續完成並長期保持盈利。

注：Vending-Bench 是一個專門設計用於測試基於 LLM 的代理，在管理一個簡單但長期執行的業務場景中的能力：運營一臺自動售貨機。

測試結果顯示，Grok 4 不僅登頂排行榜，而且它所獲得的淨資產是其他模型的兩倍。連馬斯克都開始調侃說：「以後買顯示卡的錢，可以讓 Grok 去部署運營一百萬個自動售賣機賺回來」。

在科研領域，Grok 4 已被用於 CRISPR 基因研究和胸片 X 光分析。它能在幾秒鐘內讀完幾百萬條實驗記錄和日誌，自動篩出最有可能成功的假設。

此外，像是金融領域、遊戲開發等專案，都可以透過 xAI API 來使用 Grok 4 來實現。釋出會上特別提到了一個遊戲設計師，他在 xAI 釋出了 Grok 4 預覽 API 後，就立刻參與測試。然後，他花了短短 4 小時就做出了一個第一人稱射擊遊戲。

Grok 4 不是終點。釋出會最後預告了接下來的路線圖，每一項都非常值得期待。

程式碼模型：這次竟然沒有釋出 Grok Code，不過 xAI 提到正在訓練了，一個「又快又聰明」的程式碼模型將會在幾周內上線。

多模態能力：Grok 4 在影像理解上表現依舊是有限，團隊也說正在以更大規模訓練下一個版本，預計會在影像、影片和音訊理解上迎來質變，到時 Grok 將能「像人類一樣看世界」。

影片生成：xAI 說將使用大規模的算力資源，進行影片生成模型的訓練。他們的最終目標是做到圖生影片，生成可互動的「無盡影片流」，讓使用者能邊看邊參與劇情走向。

可能有不少朋友已經發現，這次釋出會還有兩個熟悉的華人面孔。他們正是 xAI 的聯合創始人——吉米·巴（Jimmy Ba）和吳宇懷（Yuhuai Wu）。

其中，吳宇懷（Yuhuai Wu）本科以滿績點畢業於加拿大紐布倫斯威克大學，並在 2021 年獲得多倫多大學機器學習博士學位，期間曾師從「深度學習之父」傑弗裡·辛頓。

博士階段，他還曾在 Google DeepMind 和 OpenAI 實習，畢業後在 Google 任職，並在斯坦福大學從事博士後研究。

吳宇懷的研究重點是打造具備強推理能力的人工智慧系統，先後主導或參與了自訓練推理模型 STAR、語言模型 Minerva 以及定理證明器 Alpha Geometry 等專案，並在《Nature》等頂刊上發表論文，推動 AI 在數學推理領域實現突破。

吳宇懷（左二）和吉米·巴（左三）

坐在他身旁的吉米·巴（Jimmy Ba）則是多倫多大學計算機科學系的助理教授，也是吳宇懷博士時期的導師之一。

他同樣出身於辛頓門下，是深度學習訓練最佳化領域的關鍵人物。

最為人熟知的，是他與合作者共同提出了 Adam Optimizer（自適應矩估計最佳化器）——如今幾乎成為深度神經網路訓練的預設演算法。可以說，他的博士論文為現代 AI 訓練機制奠定了堅實理論基礎。

不得不說，Gork 4 的到來適逢其時。

前代 Grok 3 的熱度來得猛，退得也快。

根據知名市場分析機構 SimilarWeb 釋出的截至 5 月 9 日的《2025年全球生成式AI行業趨勢報告》，Grok 從三月流量暴漲超 100 萬倍，到五月增幅跌回 5200%。

相比前代倉促上線、草草交卷的節奏，這次的 Grok 4 明顯放慢了腳步，在產品打磨上也更下功夫。歸根結底，馬斯克的光環可以幫 Grok 帶來第一波流量，但能不能留下使用者，還得靠模型本身的硬實力。

只不過，我沒記錯的話，馬斯克當初在 Grok 3 釋出時，還信誓旦旦說要把 Grok 2 開源。眼看五個月過去了，這事兒卻毫無動靜，這次釋出會上也沒再提半句。

老馬啊，可不能寬於律己，嚴以待人呀。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取#AI有用功，解鎖更多 AI 新知👇

dignews.cc

年費超2萬！馬斯克剛剛釋出最貴AI，Grok4號稱所有領域碾壓博士

我們正在招募夥伴

📮 簡歷投遞郵箱[email protected]

✉️ 郵件標題「姓名+崗位名稱」（請隨簡歷附上專案/作品或相關連結）

更多崗位資訊請點選這裡🔗

相關文章

Grok4一口氣刷爆所有高難榜單！全球首個考滿分、又能賺錢的AI

馬斯克釋出Grok4，推理能力全面登頂，支援四個代理同時工作

xAI推出效能卓越的Grok4AI模型同時推出每月高達300美元的超級訂閱

馬斯克推最強Grok4！人類終極測試幹翻OpenAI，包月費超2千元

Cursor終結者？Grok4正式登頂！馬斯克揚言程式設計碾壓，20萬N卡年賺47億美金！

馬斯克20萬GPU訓出史上最聰明AI，Grok4重返地球之巔！人類博士全線潰敗

實測翻車？！刷爆高難度榜單的Grok4到底怎麼樣？

曝Manus與阿里合作暫停/電動三輪起名「問界」，官方道歉/羅馬仕中層曝充電寶內幕：老闆有深度參與

電動三輪起名「問界」，官方道歉/馬斯克釋出Grok4，年費最高超2萬/小米汽車累計交付超30萬

Grok4推出，智元機器人闢謠赴港IPO，宗申就新品命名問界致歉，YouTube打擊AI低質內容牟利，這就是今天的其他大新聞！