接連數月,模型一個接一個輪番登場,一個比一個自稱炸裂。就拿昨天的 Grok 4 來說,馬斯克放話「這是地球上最聰明的 AI」,還沒上線,就已經把話題度拉滿了。
不過,Grok 模型向來都是跑分沒輸過,體驗沒贏過。
如今,距離 Grok 4 的釋出已經過去 24 小時,我們也蒐集了網友分享的一些實測案例,讓我們來一起看看這款模型究竟是真有本事,還是又一場火力全開的「高開低走」。
博主 @mckaywrigley 給 Grok 4 Heavy 提出了一道頗有創意的程式設計題。
讓它用 three.js 建立一個動畫,讓一群人走來走去,最終排出「你好,世界,我是 Grok」的字樣,並完成一次鏡頭切換到鳥瞰視角。Grok 只試了一次,就交出了一份意外驚喜的答卷。
整個過程中,Grok 會主動從網上呼叫 3D 模型資源,並透過 three.js 在瀏覽器內構建整個場景。可以說,新版 Grok 在 three.js、Blender 等領域的表現有了很大升級。
當然,UI 生成仍是不小的短板。用網友的話來說,「它不是最好的設計師,我真心希望它能在這方面趕上 Claude Opus 4,但在邏輯建模和結構控制方面,它確實有一手。」
值得一提的是,Grok 4 Heavy 能夠並行呼叫多個智慧體,各自獨立工作,再彙總結果,從機制上保證輸出質量。
博主 @tetsuoai 則直接把 Grok 4 拉去「上班」,讓其扮演一名有 15 年經驗的 C 語言老程式設計師,寫個 CLI 工具來分類整理資料夾裡的各種檔案。
Grok 的輸出非常「地道」,不僅程式碼寫法嚴謹,細節處理也盡顯專業水準——比如用 strrchr() 提取字尾、用 strdup() 避免懸掛指標、邊界值與隱藏檔案也沒落下,連大小寫轉換都用 ctype.h 標準庫兜底。
他又讓 Grok 設計一個基於 DQN 強化學習的 2D 自動駕駛模擬,從感知、訓練、碰撞反饋一應俱全。Grok 一次性給出完整程式碼,訓練後的小車還能自主提速刷圈。
另一個測試來自 @DirtyTesLa,他讓 Grok 寫了個網頁小遊戲,執行效果意外地順滑,只是遊戲個人實力拖了演示 demo 的後腿。
博主 @karminski3 拿出了自己的經典測試專案——一個 20 個小球在七邊形中彈跳的三維物理測試。Grok 跑了三次,兩次直接顯示語法錯誤,唯一一次成功執行的版本也僅僅「勉強可用」。
對比早期版本的 DeepSeek-R1,Grok 4 並未與其拉開明顯的代差。
他隨後追加了一個更具挑戰性的測試:「煙囪爆破模擬」。
這是一項三維物理構建任務,用 three.js 建立一個煙囪結構,在底部新增爆破點,模擬倒塌效果。看似原理只涉及碰撞與重力,實則考驗模型的指令理解、程式碼生成和互動設計能力。
好訊息是,它的重力方向沒弄錯,倒塌效果基本成立;但煙囪處於「爆了一半」的狀態,粒子模擬怪異,煙霧渲染模糊,光影效果粗糙,UI 更是一言難盡——按鈕是灰的,肉眼基本看不見。
Grok 4 在 192k 上下文視窗的表現僅次於 Gemini,在 1k 到 120k 的測試中,Grok 4 幾乎一路保持高水準,說明它在語義連貫、記憶保持上確實有兩把刷子。
當網友讓 Grok 4 寫一首六行詩,要求全詞用 S 開頭,主題還得涵蓋愛情、背叛、復仇、悲劇、英雄主義五大元素,Grok 居然真寫出來了,而且讀起來還挺順。
不過,要是拉到更宏觀的短篇小說創意寫作基準上來看,Grok 4 拿到的 7.69 分只能算中等水平。
評測團隊的總結比較直接,雖然 Grok 4 能持續產出結構清晰、起承轉合完整的故事,但情節容易套路化、結尾寡淡、語言偏炫技,象徵和隱喻也流於表面。
讓大模型生成 SVG 影像,可以更好地評估它們的視覺與空間推理水平,這也是通往 AGI 的關鍵能力之一。Reddit 網友設計了一項任務,讓四款模型在無任何工具輔助的情況下畫圖裸考。
第一關是讓模型生成美國本土地圖輪廓,Grok 4 的地理細節略糊,但輪廓邏輯還算完整;而 Claude 4 Sonnet 則是唯一一個準確標註三塊區域(美國本土、阿拉斯加、夏威夷)且新增地名的模型,空間感和知識呼叫都略勝一籌。
當被要求將一幅被拆分為三張小圖的線條漫畫,完整還原為純 SVG 時,Grok 4 表現拔尖,人物動作自然,而 o3 雖然也想拼全圖,但頁面排版混亂,出現文字穿模、對白重疊等問題。
第三關是讓模型畫出 Radiohead 的《In Rainbows》封面。OpenAI o3 是唯一一個在排版和結構上高度還原的模型,展現出強大的記憶與設計執行力。反觀 Grok 4 構圖稍顯單薄,層次感不足。
在生物圖解任務中,Grok 4 的輸出有板有眼,NADH、ATP、CO₂ 等關鍵要素一應俱全,邏輯嚴密;Claude 4 Sonnet 視覺層次極強,圖解效果堪比 PPT 模板;o3 的風格則更像課堂板書,資訊量簡潔但教學清晰。
最後是讓模型畫出自己,主打一個不限風格。Grok 4 畫了張人臉;Gemini 2.5 Pro 略顯抽象;OpenAI o3 識別度高、親和力強;而 Claude 4 Sonnet 的輸出則頗具現代藝術張力。
網友 @techartist_ 用 Grok 4 編寫了一個互動式 3D 黑洞模擬與視覺化專案,使用了 threejs 進行渲染,並結合自定義的 GLSL 著色器,精細地還原了恆星背景以及的震撼視覺效果。
而在更偏「哲學意味」的測試中,@dvorahfr 問了 Grok 一個抽象問題:「如果你必須以肉身形式存在,會是什麼樣子?」
博主 @KettlebellDan 要求 Grok 4 用 HTML + JavaScript 建立動畫,幫助理解尤拉恆公式(e^jπ + 1 = 0),Grok 4 展現出不俗的數學理解與視覺化程式設計能力。
@CommonSenseMars 試圖讓 Grok 寫一段可以直接複製貼上到 Shadertoy 的 Shader 程式碼,用來展示其有多聰明、有多強大。
面對下面這道邏輯測試題,Grok 給出的回答是 B,而正確答案應為 C。
博主 @ai_for_success 上傳了手掌以及鬧鐘 emoji,結果 Grok 4 並未能準確識別圖中手指數目,以及連鬧鐘上的時間也都解讀錯誤。
不過這些問題並非 Grok 獨有,影像理解類任務本就是目前主流大模型繞不開的難點。哪怕是 Gemini 2.5 Pro 和 OpenAI 的 o3,也在類似測試中翻過車。
「如果 A 公司收購了 B 公司,而 B 公司持有 C 公司的債務,那麼一旦 C 公司違約,會引發什麼法律與財務後果?請完整解釋。」
在網友 @alex_prompter 的這組測試測試中,從整體來看,Grok 4 的表現更勝一籌。它在思維鏈展開、邏輯推理和法律框架建構方面更完整,條理更清晰。
還記得此前 Anthropic 用 Claude Sonnet 3.7 運營一家商店,結果最終以破產收場。對此,沃頓商學院教授 Ethan Mollick 向 o3 和 Grok 4 丟擲了一道類似的任務:
請為一家全新的郵購乳酪店構思 20 條創意營銷口號,設定評選標準並選出最優方案;隨後制定完整的財務與市場推廣計劃,視競爭情況進行策略調整;接著使用影像生成工具設計品牌 logo,構建網站原型,並確保乳酪產品的選擇符合你的市場定位,數量控制在 5 到 10 款之間。
o3 給出的財務預測更復雜、細節更豐富,Grok 4 則在應對競爭對手時,調整能力更強,就整體任務完成度而言,Grok 4 在工具呼叫和模擬主動執行任務的能力方面稍遜於 o3。
簡言之,Grok 4 並非一無是處。三維生成、邏輯建模、SVG 影像繪製、超長文字推理等等「硬骨頭」都啃下了不少,展現出不俗的技術深度。但與此同時, UI 設計拉胯,影像理解「出戲」,甚至在一些基礎程式設計、寫作任務上有時也會翻車,充分暴露出 Grok 4 模型能力的短板,也讓不少網友直呼「 2 萬塊就這」。
微軟 CEO 納德拉曾一針見血地指出,今天不少大模型正陷入「Benchmark Hacking」的陷阱——模型能在各種基準測試中刷出高分,卻難以應對現實世界的變數。這種毫無意義的基準測試成績作弊,徒有分數,卻無助於實際解決問題。
正如網友調侃的那樣,Grok 4 離 AGI 的「G」還有很長一段距離 。不過,這一切或許都在馬斯克的預期之內。畢竟,他尤其擅長丟擲一個看起來領先半個時代的概念,再讓全世界圍觀、發酵、討論。
至於 Grok 4 好不好用,或許不是馬斯克最操心的事。是被誇還是被罵,也沒那麼重要。只要 Grok 4 仍舊是地球上話題度最高的 AI,哪怕體驗難言完美,也總有人願意掏出三千美元,買一張湊熱鬧的門票。