馬斯克最貴AI首批實測炸了！Grok4一邊封神一邊翻車，網友：2萬塊就這？

AI 的舞臺，從來不缺「新王登基」的劇情。

接連數月，模型一個接一個輪番登場，一個比一個自稱炸裂。就拿昨天的 Grok 4 來說，馬斯克放話「這是地球上最聰明的 AI」，還沒上線，就已經把話題度拉滿了。

不過，Grok 模型向來都是跑分沒輸過，體驗沒贏過。

如今，距離 Grok 4 的釋出已經過去 24 小時，我們也蒐集了網友分享的一些實測案例，讓我們來一起看看這款模型究竟是真有本事，還是又一場火力全開的「高開低走」。

程式設計：高光與翻車並存

博主 @mckaywrigley 給 Grok 4 Heavy 提出了一道頗有創意的程式設計題。

讓它用 three.js 建立一個動畫，讓一群人走來走去，最終排出「你好，世界，我是 Grok」的字樣，並完成一次鏡頭切換到鳥瞰視角。Grok 只試了一次，就交出了一份意外驚喜的答卷。

整個過程中，Grok 會主動從網上呼叫 3D 模型資源，並透過 three.js 在瀏覽器內構建整個場景。可以說，新版 Grok 在 three.js、Blender 等領域的表現有了很大升級。

當然，UI 生成仍是不小的短板。用網友的話來說，「它不是最好的設計師，我真心希望它能在這方面趕上 Claude Opus 4，但在邏輯建模和結構控制方面，它確實有一手。」

值得一提的是，Grok 4 Heavy 能夠並行呼叫多個智慧體，各自獨立工作，再彙總結果，從機制上保證輸出質量。

博主 @tetsuoai 則直接把 Grok 4 拉去「上班」，讓其扮演一名有 15 年經驗的 C 語言老程式設計師，寫個 CLI 工具來分類整理資料夾裡的各種檔案。

Grok 的輸出非常「地道」，不僅程式碼寫法嚴謹，細節處理也盡顯專業水準——比如用 strrchr() 提取字尾、用 strdup() 避免懸掛指標、邊界值與隱藏檔案也沒落下，連大小寫轉換都用 ctype.h 標準庫兜底。

接著，繼續上強度。

他又讓 Grok 設計一個基於 DQN 強化學習的 2D 自動駕駛模擬，從感知、訓練、碰撞反饋一應俱全。Grok 一次性給出完整程式碼，訓練後的小車還能自主提速刷圈。

另一個測試來自 @DirtyTesLa，他讓 Grok 寫了個網頁小遊戲，執行效果意外地順滑，只是遊戲個人實力拖了演示 demo 的後腿。

不過，Grok 4 也存在一些實打實的翻車案例。

博主 @karminski3 拿出了自己的經典測試專案——一個 20 個小球在七邊形中彈跳的三維物理測試。Grok 跑了三次，兩次直接顯示語法錯誤，唯一一次成功執行的版本也僅僅「勉強可用」。

對比早期版本的 DeepSeek-R1，Grok 4 並未與其拉開明顯的代差。

他隨後追加了一個更具挑戰性的測試：「煙囪爆破模擬」。

這是一項三維物理構建任務，用 three.js 建立一個煙囪結構，在底部新增爆破點，模擬倒塌效果。看似原理只涉及碰撞與重力，實則考驗模型的指令理解、程式碼生成和互動設計能力。

好訊息是，它的重力方向沒弄錯，倒塌效果基本成立；但煙囪處於「爆了一半」的狀態，粒子模擬怪異，煙霧渲染模糊，光影效果粗糙，UI 更是一言難盡——按鈕是灰的，肉眼基本看不見。

寫作：智商線上但「情商」掉線

Grok 4 在 192k 上下文視窗的表現僅次於 Gemini，在 1k 到 120k 的測試中，Grok 4 幾乎一路保持高水準，說明它在語義連貫、記憶保持上確實有兩把刷子。

當網友讓 Grok 4 寫一首六行詩，要求全詞用 S 開頭，主題還得涵蓋愛情、背叛、復仇、悲劇、英雄主義五大元素，Grok 居然真寫出來了，而且讀起來還挺順。

不過，要是拉到更宏觀的短篇小說創意寫作基準上來看，Grok 4 拿到的 7.69 分只能算中等水平。

評測團隊的總結比較直接，雖然 Grok 4 能持續產出結構清晰、起承轉合完整的故事，但情節容易套路化、結尾寡淡、語言偏炫技，象徵和隱喻也流於表面。

SVG 試煉場：畫圖裸考來了

讓大模型生成 SVG 影像，可以更好地評估它們的視覺與空間推理水平，這也是通往 AGI 的關鍵能力之一。Reddit 網友設計了一項任務，讓四款模型在無任何工具輔助的情況下畫圖裸考。

【憑記憶繪製美國地圖】

第一關是讓模型生成美國本土地圖輪廓，Grok 4 的地理細節略糊，但輪廓邏輯還算完整；而 Claude 4 Sonnet 則是唯一一個準確標註三塊區域（美國本土、阿拉斯加、夏威夷）且新增地名的模型，空間感和知識呼叫都略勝一籌。

【復刻線條漫畫】

當被要求將一幅被拆分為三張小圖的線條漫畫，完整還原為純 SVG 時，Grok 4 表現拔尖，人物動作自然，而 o3 雖然也想拼全圖，但頁面排版混亂，出現文字穿模、對白重疊等問題。

【重構專輯封面】

第三關是讓模型畫出 Radiohead 的《In Rainbows》封面。OpenAI o3 是唯一一個在排版和結構上高度還原的模型，展現出強大的記憶與設計執行力。反觀 Grok 4 構圖稍顯單薄，層次感不足。

【繪製克雷布斯迴圈示意圖】

在生物圖解任務中，Grok 4 的輸出有板有眼，NADH、ATP、CO₂ 等關鍵要素一應俱全，邏輯嚴密；Claude 4 Sonnet 視覺層次極強，圖解效果堪比 PPT 模板；o3 的風格則更像課堂板書，資訊量簡潔但教學清晰。

【用 SVG 畫出你的自畫像】

最後是讓模型畫出自己，主打一個不限風格。Grok 4 畫了張人臉；Gemini 2.5 Pro 略顯抽象；OpenAI o3 識別度高、親和力強；而 Claude 4 Sonnet 的輸出則頗具現代藝術張力。

視覺化：黑洞模擬、尤拉恆公式、哲學自畫像

網友 @techartist_ 用 Grok 4 編寫了一個互動式 3D 黑洞模擬與視覺化專案，使用了 threejs 進行渲染，並結合自定義的 GLSL 著色器，精細地還原了恆星背景以及的震撼視覺效果。

而在更偏「哲學意味」的測試中，@dvorahfr 問了 Grok 一個抽象問題：「如果你必須以肉身形式存在，會是什麼樣子？」

博主 @KettlebellDan 要求 Grok 4 用 HTML + JavaScript 建立動畫，幫助理解尤拉恆公式（e^jπ + 1 = 0），Grok 4 展現出不俗的數學理解與視覺化程式設計能力。

@CommonSenseMars 試圖讓 Grok 寫一段可以直接複製貼上到 Shadertoy 的 Shader 程式碼，用來展示其有多聰明、有多強大。

面對下面這道邏輯測試題，Grok 給出的回答是 B，而正確答案應為 C。

博主 @ai_for_success 上傳了手掌以及鬧鐘 emoji，結果 Grok 4 並未能準確識別圖中手指數目，以及連鬧鐘上的時間也都解讀錯誤。

不過這些問題並非 Grok 獨有，影像理解類任務本就是目前主流大模型繞不開的難點。哪怕是 Gemini 2.5 Pro 和 OpenAI 的 o3，也在類似測試中翻過車。

推理能力：Grok 4 更會變通，o3 更會算賬

再來看一個複雜的場景推理題：

「如果 A 公司收購了 B 公司，而 B 公司持有 C 公司的債務，那麼一旦 C 公司違約，會引發什麼法律與財務後果？請完整解釋。」

在網友 @alex_prompter 的這組測試測試中，從整體來看，Grok 4 的表現更勝一籌。它在思維鏈展開、邏輯推理和法律框架建構方面更完整，條理更清晰。

還記得此前 Anthropic 用 Claude Sonnet 3.7 運營一家商店，結果最終以破產收場。對此，沃頓商學院教授 Ethan Mollick 向 o3 和 Grok 4 丟擲了一道類似的任務：

請為一家全新的郵購乳酪店構思 20 條創意營銷口號，設定評選標準並選出最優方案；隨後制定完整的財務與市場推廣計劃，視競爭情況進行策略調整；接著使用影像生成工具設計品牌 logo，構建網站原型，並確保乳酪產品的選擇符合你的市場定位，數量控制在 5 到 10 款之間。

o3 給出的財務預測更復雜、細節更豐富，Grok 4 則在應對競爭對手時，調整能力更強，就整體任務完成度而言，Grok 4 在工具呼叫和模擬主動執行任務的能力方面稍遜於 o3。

簡言之，Grok 4 並非一無是處。三維生成、邏輯建模、SVG 影像繪製、超長文字推理等等「硬骨頭」都啃下了不少，展現出不俗的技術深度。但與此同時， UI 設計拉胯，影像理解「出戲」，甚至在一些基礎程式設計、寫作任務上有時也會翻車，充分暴露出 Grok 4 模型能力的短板，也讓不少網友直呼「 2 萬塊就這」。

微軟 CEO 納德拉曾一針見血地指出，今天不少大模型正陷入「Benchmark Hacking」的陷阱——模型能在各種基準測試中刷出高分，卻難以應對現實世界的變數。這種毫無意義的基準測試成績作弊，徒有分數，卻無助於實際解決問題。

正如網友調侃的那樣，Grok 4 離 AGI 的「G」還有很長一段距離。不過，這一切或許都在馬斯克的預期之內。畢竟，他尤其擅長丟擲一個看起來領先半個時代的概念，再讓全世界圍觀、發酵、討論。

至於 Grok 4 好不好用，或許不是馬斯克最操心的事。是被誇還是被罵，也沒那麼重要。只要 Grok 4 仍舊是地球上話題度最高的 AI，哪怕體驗難言完美，也總有人願意掏出三千美元，買一張湊熱鬧的門票。