大家都有看 Grok4 的釋出會嗎?

Grok4 預熱了好幾天,沒想到馬斯克還貼心地選擇了國內時間釋出,再也不用熬夜看釋出會了。

釋出會一開始,馬斯克就說“這是世界上最聰明的 AI。”,並且聲稱其進化速度“遠超任何人類”。簡直把觀眾的期待值拉滿。
話說的漂亮,但實際使用效果卻是被廣大網友紛紛吐槽“翻車”、“拉胯”……


比使用效果還離譜的,是 Grok4 的定價。
Grok4 月費為 30 美刀,而 Grok4 Heavy 版本月費更是高達 300 美刀,並且不給使用者免費試用額度,這就很有割韭菜的嫌疑。

網友也是問出了我的心聲。

我們先來看釋出會的內容,再一起感受一下網友的實測效果,看看萬眾矚目的 Grok4 到底怎麼樣。
一、釋出會
XAI 這次釋出了兩個模型 —— Grok4 和 Grok4 Heavy 。兩者都是推理模型,前者是單代理版本,Grok-4 Heavy 則是多代理版本,支援四個代理同時工作。
分數資料
首先是備受關注的 HLE(Humanity's Last Exam) 測試,

Grok4 在 HLE 測試中取得了非常突出的分數,其 Heavy 版本更是為大模型推理設立了新標準,拿到了 44.4% 的分數,直接碾壓了 o3 和 Gemini Pro 。
此外,在 HLE(僅文字)測試中,在使用測試時計算、工具和多個並行代理的情況下,Grok4 Heavy 更是把得分推到了一個驚人的高度 —— 50.7% 。

憑藉強大的推理能力,Grok4 能夠輕鬆應對 SAT 和 GRE 等高難度考試,就算是遇到未見過的題目,也能取得近乎完美的成績。
關於 Grok4 在學術上面的能力,馬斯克直言:“關於學術問題,Grok 4 在所有科目上都比 PHD 級別更好。沒有例外。”

並且自信預計:“發現新技術可能在今年,新的物理學幾乎肯定在兩年內。”
除了上面提到的出色成績之外,Grok4 還在 GPQA Diamond 測試上取得了最高分 87% ,打破了此前由 Gemini Pro 領先的 84% 得分。
在 ARC AGI 上也達到新的 SOTA,是 Claude Opus 4 的兩倍。
從下圖中可以看到,Grok4 還在AIME25(美國數學競賽邀請賽)、LCB(Jan-May)(線上演算法競賽)、HMMT25(高中生團隊數學競賽)和 USAMO25(美國頂級高中生數學競賽)中均設立了最新的 SOTA 分數。

並且在 Artificial Analysis 的全套基準測試中也是憑藉著 73 的得分超過 o3-pro 位居第一。

Grok4 還在 ARC-AGI-2 上取得新的 SOTA,達到了 15.9% 。
這幾乎是之前的 SOTA 得分的兩倍,並超越了當前 Kaggle 競賽的最高分。

還有一點值得關注的是隨著訓練和計算資源的擴充套件,Grok4 在效能上的強勢增長,主要專注於推理和強化學習。
Grok4 用於 RL 的計算資源幾乎與預訓練時使用的相同。Grok 4 使用的算力遠超其他任何模型的 10× 以上,是 Grok-2 的 100 倍,是 Grok-3 的 10 倍,一共使用了 10 萬塊 H100 GPU。

實際效果展示
除了光拿出資料,釋出會上也展示了一些 Grok4 使用的實際例子。
例如:“使用HTML生成一個精美的、30秒長的柔和網格動畫,用於視覺化兩個碰撞黑洞所產生的引力波,幷包含“鈴振”(ringdown)階段。最大化物理準確性,並對(黑洞的)運動軌跡進行合理性檢查。”,看起來效果還不錯。


還有更多 demo 展示,例如現場解數學題。

或者根據 X 上的帖子提供一份 HLE 分數公佈變更的時間線等,這裡就不一一列舉了,指路完整版影片連結,感興趣的小夥伴可以看看:
https://x.com/i/events/1942716886258528256
釋出會還展示了 Danny Limanseta 僅在 4 小時內使用 Grok4 建立的一款 FPS 射擊遊戲。
並且表示 Grok 不僅能夠製作遊戲,還能實際遊玩並理解什麼樣的遊戲是優秀的,以及如何讓遊戲變得更好。

現場還展示了 Grok4 的語音模式,並且本場直播開場語正是使用 Grok4 語音模式中的一個聲音說的。

Grok4 語音模式的亮點首先是更加流暢和快速,延遲被減半。可供選擇的聲音個數也升至 5 個。
還有語音出色的自然感,當場讓 Eve (Grok4 其中一個語音)耳語來讓使用者平靜下來,感覺還不錯,有點哄睡 ASMR 的感覺了。並且不會打斷對話,更加像人類。

現場還整活讓它唱了一段零糖可樂的歌劇,不僅是馬斯克,螢幕前的我也聽樂了。

不得不說, Grok4 釋出會上的表現還不錯,各項分數也很亮眼,但對於使用者來說,實際上手的體驗感受才是最重要的。
秉持著堅決不被割韭菜的原則,我們也找來了網友們第一時間的實測,看看它到底值不值這個價。
先上結論:除非是想體驗效果,否則不推薦訂閱。
二、實測效果
首先是考驗大模型前端 UI 設計的天氣卡片問題,使用如下 prompt:
你是一位就職於蘋果公司的頂級前端工程師,請建立一個包含CSS和JavaScript的HTML檔案,用於生成動畫天氣卡片。卡片需要以不同動畫效果直觀展示以下天氣狀況:風力(如:飄動的雲朵、搖曳的樹木或風線)降雨(如:下落的雨滴、形成的水注)晴天(如:閃耀的光線、明亮的背景)下雪(如:飄落的雪花、積雪效果)。要求有常見的多種天氣以外還要有冰雹、大霧、颱風這三種。所有天氣卡片需要並排顯示,背景採用深色設計。所有HTML、CSS和JavaScript程式碼都需包含在這個單一檔案中。JavaScript部分需包含切換不同天氣狀態的功能(例如透過函式或按鈕組),以演示每種天氣的動畫效果。將前端顯示效果最佳化得更精緻流暢,打造出價值200000元/月的精品天氣應用既視感。
Grok4 的輸出:

你沒看錯,就是什麼都沒有。
我們再來看看使用上面相同 prompt,其他家輸出的結果。
Gemini 2.5 pro:

Claude opus 4:

o3 pro:

我們也找來了其他使用 Grok4 成功渲染出天氣卡片的結果,但是效果都有些抽象。
比如這樣的。

還有這樣的。

誰來了不說一句這方面還得是 Claude 。
除了抽象的天氣卡片,更抽象的還有 Grok4 的思考過程。
深度思考下全是 thinking,沒有具體的思考內容,還不給設定 reasoning_effort 。

這不是個例,看得出來 Grok4 思考的很用力了。

不僅如此,先不談程式設計、數學推理那些“高大上”的能力,就連日常的對話問答、文章寫作方面,Grok4 也只是表現平平。

再來看看同一個問題 Gemini 2.5 pro 的結果。

還有馬斯克之前稱 Grok4 是有幽默感的大模型,網友也是讓它寫了幾個原創笑話。

笑點因人而異,好不好笑大家就自行體會了。
三、最後一句
整體看下來,Grok4 的表現並沒有達到大家預期的。雖然 Grok4 跑分第一名,但是使用者實際上手體驗卻差點意思,價格還貴,沒有特殊需求的使用者很難回本。

或許它的推理能力真的強到快要創造新的物理學,可對多數普通使用者來說,使用更頻繁的那些基礎能力過硬才是首要條件。
這也讓人懷念起當初在效能上真有代差,而且還便宜的 R1。
R2 到底什麼時候才端上來啊喂?
>/ 本期作者:Tashi & JackCui
>/ JackCui:AI領域從業者,畢業於東北大學,大廠演算法工程師,熱愛技術分享。