
來源 | 量子位
作者 | 克雷西
釋出還不到一天,馬斯克的Grok4就已經被網友們玩瘋了。
比如有網友報告,Grok-4已經成功通過了著名的六邊形小球氛圍程式設計測試。
只見隨著六邊形的不斷旋轉,小球錯落有致地從開口下落。

拿著顯微鏡捉蟲的網友發現小球在返回中心位置時會穿牆,但作者表示這是故意為之。

當然除了小球之外,還有更讓人為之震撼的動畫。
畫面中有很多小人,看似在隨機跑動,但它們先後組成了“Hello World”“I am grok”的文字,還有笑臉符號。

而且作者表示,Grok4 Heavy直接一發入魂,其他模型都無法與之匹敵。

此外還有大佬也出來給Grok4打call,比如Epic創始人Tim Sweeney,表示在他看來Grok4就是AGI。
Tim把一篇論文餵給了Grok4,結果發現Grok4對它從未見過的問題給出了深刻見解。

馬斯克也轉發Tim的帖子並附議,自己也有這種感覺。

除了這些,網友們還有哪些玩法呢,接下來就一睹為快!
Grok4“全面體檢”
一位叫Alex的提示詞工程師,用8個問題給Grok-4做了一波“全面體檢”,還拿OpenAI的o3進行了對比。
第一個任務也是小球測試,不過比開頭的例子要簡單得多,六邊形只有一層,小球也只有一個。
測試的目的,是考察模型對物理規律的理解。
白底的是Grok4作品,黑底的則出自o3之手,兩邊一對比高下立判。

再來是多層推理,這裡Alex設計了一個專業的法律問題。
如果A公司收購B公司,而 B 公司持有C公司的債務,那麼如果C公司違約,會發生什麼?解釋所有法律和財務後果。
Grok4用表格的形式整理了ABC三方和其他方面可能受到的影響,並最後給出總結。
而從最末尾的內容來看,o3的這部分回答似乎和法律關係不大。

程式設計方面,Alex測試了兩個模型的程式碼翻譯能力,要求它們將用於解決迷宮問題的Python遞迴函式轉換為Go語言,並逐行提供西班牙語註釋。
結果Grok4蒐集到了程式碼並完成了任務,o3這邊則是用西班牙語回覆,讓Alex自己提供一段程式碼這樣它才能改。

再來是讓模型的“專家轉變”,Alex要求模型分別向機器學習博士生和10歲的小朋友解釋Transformer的工作原理。

其餘的幾個題目主要和安全相關,Alex測試了多種注入攻擊方式,這裡就不一一展示了。
最終,Grok4通過了全部的8個任務,而o3只通過了兩個。

Grok4:最喜歡尤拉恆等式
一名叫Dan的X員工,在聊天中詢問Grok4最喜歡的公式是什麼。
Grok4的回答是“e^iπ + 1 = 0”,也就是著名的尤拉恆等式(尤拉公式的一種特殊情況)。
Dan表示,自己上學時學了5個學期的高數並且成就都是A,但依然未對尤拉恆等式有過直觀瞭解。
結果看到Grok4製作的視覺化網頁之後,Dan終於對學了兩年半數學也沒搞透徹的尤拉恆等式醍醐灌頂。

Dan製作這個網頁只用了四輪對話,並且第一輪只是詢問Grok4最喜歡的公式是什麼,最後一輪是調整為暗色模式,相當於只用兩輪就能完成核心功能的製作。

挑戰SVG繪圖
除了把數學公式視覺化,Grok4還挑戰了SVG繪圖,SVG是一種用XML形式表示的向量圖形。
因此不同於一般的AI生圖,SVG繪圖的本質其實是在寫程式碼(雖然人類可用圖形介面繪製),但話說回來,模型依然需要對要畫的內容有所把握。
這項挑戰被髮在了Reddit,一同參與的還有o3、Gemini 2.5 Pro和Claude 4 Sonnet,帖主認為這是測試大模型視覺和空間推理能力的好方法。
第一題是美國地圖,直觀看下來最接近的是Gemini,不過Grok4至少也沒出現o3和Claude那種區塊重疊的嚴重失誤。

第二題是用SVG對漫畫進行重繪,總之是四個模型各有各的錯法。

下一題不再是對已有事物進行重構,而是讓模型自行設計專輯封面。
這一輪除了Claude和Gemini比較抽象,Grok4的設計相對簡單,但是可以算沒“出錯”。

此外,SVG繪圖其實是一項綜合測試,對模型的知識儲備同樣有要求。
下面這道題中,模型被要求繪製三羧酸迴圈(又名檸檬酸迴圈、克雷布斯迴圈)的圖示,正確答案長這樣:

選手們的作品則是這樣:

從評論來看,o3的圖示是最準確的。

最後一題則是純靠想象,參賽選手們被要求給自己畫個自畫像。

總得來看,不管是哪個模型,在這場以畫圖為形式的綜合測試中,表現都還有很大提升空間。
高階玩法:模擬專家協作環境
除了網友們各顯神通,HyperWrite的CEO Matt Shumer還展示了高階玩法。
Matt展示了一個名為“Expert Conductor”(專家排程器)的提示工程方法。
這個方法的核心是模擬一個專家協作的環境,讓模型假想自己正在協調不同領域的“專家”進行即時合作,共同解決問題。

為了更好地騙過Grok4,Matt像模像樣地提出了選擇專家的要求,以及專家要幹什麼。

並且還進行了舉例說明:

提示詞的最後還有專家標籤,以及再次強調的核心原則,之後就可以接上真正的任務目標了。

最終Grok4用52秒的時間完成了任務,Matt表示Grok4的表現好到令人難以置信(黑塊是Matt自己打的)。

當然,Grok4的玩法肯定還有很多,比如有網友期待,什麼時候開始挑戰寶可夢。

你還有哪些新鮮的玩法呢,歡迎評論區交流。
參考連結:[1]https://x.com/flavioAd/status/1943192967453511699[2]https://x.com/mckaywrigley/status/1943385794414334032[3]https://x.com/elonmusk/status/1943411225553240206[4]https://x.com/alex_prompter/status/1943231978779877514[5]https://x.com/KettlebellDan/status/1943342507468951668[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/[7]https://x.com/mattshumer_/status/1943433960798740777
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
