大家都有看 Grok4 的釋出會嗎？

Grok4 預熱了好幾天，沒想到馬斯克還貼心地選擇了國內時間釋出，再也不用熬夜看釋出會了。

釋出會一開始，馬斯克就說“這是世界上最聰明的 AI。”，並且聲稱其進化速度“遠超任何人類”。簡直把觀眾的期待值拉滿。

話說的漂亮，但實際使用效果卻是被廣大網友紛紛吐槽“翻車”、“拉胯”……

比使用效果還離譜的，是 Grok4 的定價。

Grok4 月費為 30 美刀，而 Grok4 Heavy 版本月費更是高達 300 美刀，並且不給使用者免費試用額度，這就很有割韭菜的嫌疑。

網友也是問出了我的心聲。

我們先來看釋出會的內容，再一起感受一下網友的實測效果，看看萬眾矚目的 Grok4 到底怎麼樣。

一、釋出會

XAI 這次釋出了兩個模型 —— Grok4 和 Grok4 Heavy 。兩者都是推理模型，前者是單代理版本，Grok-4 Heavy 則是多代理版本，支援四個代理同時工作。

分數資料

首先是備受關注的 HLE（Humanity's Last Exam）測試，

Grok4 在 HLE 測試中取得了非常突出的分數，其 Heavy 版本更是為大模型推理設立了新標準，拿到了 44.4% 的分數，直接碾壓了 o3 和 Gemini Pro 。

此外，在 HLE（僅文字）測試中，在使用測試時計算、工具和多個並行代理的情況下，Grok4 Heavy 更是把得分推到了一個驚人的高度 —— 50.7% 。

憑藉強大的推理能力，Grok4 能夠輕鬆應對 SAT 和 GRE 等高難度考試，就算是遇到未見過的題目，也能取得近乎完美的成績。

關於 Grok4 在學術上面的能力，馬斯克直言：“關於學術問題，Grok 4 在所有科目上都比 PHD 級別更好。沒有例外。”

並且自信預計：“發現新技術可能在今年，新的物理學幾乎肯定在兩年內。”

除了上面提到的出色成績之外，Grok4 還在 GPQA Diamond 測試上取得了最高分 87% ，打破了此前由 Gemini Pro 領先的 84% 得分。

在 ARC AGI 上也達到新的 SOTA，是 Claude Opus 4 的兩倍。

從下圖中可以看到，Grok4 還在AIME25（美國數學競賽邀請賽）、LCB（Jan-May）（線上演算法競賽）、HMMT25（高中生團隊數學競賽）和 USAMO25（美國頂級高中生數學競賽）中均設立了最新的 SOTA 分數。

並且在 Artificial Analysis 的全套基準測試中也是憑藉著 73 的得分超過 o3-pro 位居第一。

Grok4 還在 ARC-AGI-2 上取得新的 SOTA，達到了 15.9% 。

這幾乎是之前的 SOTA 得分的兩倍，並超越了當前 Kaggle 競賽的最高分。

還有一點值得關注的是隨著訓練和計算資源的擴充套件，Grok4 在效能上的強勢增長，主要專注於推理和強化學習。

Grok4 用於 RL 的計算資源幾乎與預訓練時使用的相同。Grok 4 使用的算力遠超其他任何模型的 10× 以上，是 Grok-2 的 100 倍，是 Grok-3 的 10 倍，一共使用了 10 萬塊 H100 GPU。

實際效果展示

除了光拿出資料，釋出會上也展示了一些 Grok4 使用的實際例子。

例如：“使用HTML生成一個精美的、30秒長的柔和網格動畫，用於視覺化兩個碰撞黑洞所產生的引力波，幷包含“鈴振”（ringdown）階段。最大化物理準確性，並對（黑洞的）運動軌跡進行合理性檢查。”，看起來效果還不錯。

還有更多 demo 展示，例如現場解數學題。

或者根據 X 上的帖子提供一份 HLE 分數公佈變更的時間線等，這裡就不一一列舉了，指路完整版影片連結，感興趣的小夥伴可以看看：

https://x.com/i/events/1942716886258528256

釋出會還展示了 Danny Limanseta 僅在 4 小時內使用 Grok4 建立的一款 FPS 射擊遊戲。

並且表示 Grok 不僅能夠製作遊戲，還能實際遊玩並理解什麼樣的遊戲是優秀的，以及如何讓遊戲變得更好。

現場還展示了 Grok4 的語音模式，並且本場直播開場語正是使用 Grok4 語音模式中的一個聲音說的。

Grok4 語音模式的亮點首先是更加流暢和快速，延遲被減半。可供選擇的聲音個數也升至 5 個。

還有語音出色的自然感，當場讓 Eve （Grok4 其中一個語音）耳語來讓使用者平靜下來，感覺還不錯，有點哄睡 ASMR 的感覺了。並且不會打斷對話，更加像人類。

現場還整活讓它唱了一段零糖可樂的歌劇，不僅是馬斯克，螢幕前的我也聽樂了。

不得不說， Grok4 釋出會上的表現還不錯，各項分數也很亮眼，但對於使用者來說，實際上手的體驗感受才是最重要的。

秉持著堅決不被割韭菜的原則，我們也找來了網友們第一時間的實測，看看它到底值不值這個價。

先上結論：除非是想體驗效果，否則不推薦訂閱。

二、實測效果

首先是考驗大模型前端 UI 設計的天氣卡片問題，使用如下 prompt：

你是一位就職於蘋果公司的頂級前端工程師，請建立一個包含CSS和JavaScript的HTML檔案，用於生成動畫天氣卡片。卡片需要以不同動畫效果直觀展示以下天氣狀況：風力（如：飄動的雲朵、搖曳的樹木或風線）降雨（如：下落的雨滴、形成的水注）晴天（如：閃耀的光線、明亮的背景）下雪（如：飄落的雪花、積雪效果）。要求有常見的多種天氣以外還要有冰雹、大霧、颱風這三種。所有天氣卡片需要並排顯示，背景採用深色設計。所有HTML、CSS和JavaScript程式碼都需包含在這個單一檔案中。JavaScript部分需包含切換不同天氣狀態的功能（例如透過函式或按鈕組），以演示每種天氣的動畫效果。將前端顯示效果最佳化得更精緻流暢，打造出價值200000元/月的精品天氣應用既視感。

Grok4 的輸出：