


作者:卡茲克、穩穩、小瑞、dongyi
來源:數字生命卡茲克(ID:Rockhazix)
昨日,中午12點,預告了兩三天的Grok3的釋出會,終於來了。

前天馬斯克就在X上吆喝,說Grok 3是“地球上最聰明的人工智慧”。
甚至還在迪拜世界政府峰會說:“Grok 3的推理表現優於我們所知的任何已釋出的模型,這是個好跡象。”
而今天,在燈等等燈等的小音樂聲中,馬斯克習慣性的遲到後,四個大兄弟也坐在了現場,給大家演示Grok 3。

中間C位又是兩個華人。
看完全程以後,我只能說,OpenAI現在是真的慘,前腳被DeepSeek,而後腳,又全部被Grok 3給幹碎了。。。
是的,連o3 mini,也被Grok 3 mini幹碎了,而Grok 3,今天X Premium使用者可是就可以用了。。。
一文來帶大家迅速過一遍,Grok 3的能力。
主要分成3塊,Grok 3、Grok 3 Reasoning、Agents。

Grok 3
Grok這次是直接衝著OpenAI來的。研發團隊一開始就直接甩了Grok和GPT的迭代時間對比。
從Grok0到Grok3,確實是進步飛速。
馬斯克嘚啵嘚的意思,就一句話:Grok只用了兩年多,就能匹敵GPT五六年的能力。
23年xAI成立後釋出了33B的Grok 0,比肩70B的Llama 2。同年11月份,又馬不停蹄的發了Grok 1模型。
24年他們不僅釋出了Grok 1.5和Grok 2,還發布了xAI的第一個多模態模型Grok-1.5V。
從Grok0到2024 年 8 月 13 日釋出的Grok2,再到今天2025年2月的Grok3,Grok的迭代確實很迅速。


關注度這麼高的釋出會,馬斯克也是忍不住炫耀一下自家的十萬卡叢集Colossus。
老馬起初找了資料中心供應商,問他們要在一個地方有序執行10萬個Gpu需要多長時間?供應商給的時間範圍是從18個月到24個月。
老馬直接不樂意了,所以直接自己做。
最終這個叢集只用了122天建成,第一階段是10萬塊NVIDIA H100 GPU,訓練了122天。後來擴充套件到20萬塊GPU(含新增的5萬塊H100與5萬塊H200),又訓練了92天。由田納西河流域管理局(TVA)提供超過100兆瓦的電力支援。

最終,有了Grok 3這個超級產物。
半個多小時的釋出會沒啥實際應用的展示,不過光看跑分grok表現也是挺亮眼的。
在他們內部的測試裡,數學、科學和程式碼三個領域的跑分,Grok 3都是最高的。
不帶推理能力的Grok,Benchmarks跑分遙遙領先。

在Chatbot Arena競技場,Grok3直接拿下第一,分數也高得驚人。
帶推理能力的Grok,也是直接衝著目前最好的推理模型去的。分數遠高於o3和DeepSeek-R1,拉著就是比。
尤其是Grok解數學題的能力,馬斯克在釋出會上也特意強調他們會給模型更多時間讓它自己思考。
在Chatbot Arena競技場,Grok3直接拿下第一,分數也高得驚人。

不僅第一,還是目前唯一1400分以上的模型,直接把沒火多久的Gemini2.0甩開一大截。

Grok 3 Reasoning
下一個,reasoning,也就是grok 3的推理模型。

但是因為還沒有具體實測到,所以我不知道,他是類似DeepSeek v3和DeepSeek R1這種兩套模型的區別,還是類似於Claude在傳的那種混合模型的區別,但是我個人感覺大機率還是兩套。
然後上來展示這UI設計,好眼熟。

大家都在群裡瘋狂吐槽,deepseek是你嗎。

在跑分上,還是我們熟悉的三領域:數學、科學、程式碼。
和o3 mini、DeepSeek R1相比,Grok 3 reasoning都取得了領先地位。

特別是o3 mini,直接被幹碎了。
5天前,完成了AIME2025的測試,分數最高。

並且還有類似於o1 pro的功能,可以調高參數,允許Grok 3用更長的時間去推理,讓大模型花更多時間思考,直到得出結論。

展示的第一個程式設計例子,動態宇宙模型,思考了114s。

效果看起來還挺好的,感覺馬斯克離他的老家火星又進了一步。
第二個展示了Grok的遊戲程式碼,俄羅斯方塊演示(影片有點長,我們這裡直接五倍速)
case本身難度也不怎麼高,具體實測還不知道是個什麼情況,具體詳情得測試看,如果確實跟跑分一致,老馬沒吹牛逼,那Grok 3就是地表最強。

Agent
最後一個。

老馬決定繼續按著OpenAI的頭打,推出了他們的Agent工具,DeepSearch,也就是深度搜索。

明顯就是前段時間OpenAI Deep Research的翻版。
但是效果上,看了下說實話不太像是能對標OpenAI Deep Research的,更偏向於搜尋而不是研究,比OpenAI Deep Research的成品和質量還是差的有點遠。
更像是Perplexity出的那個。
他們也跑了一個demo。
點選左側的答案,會有進度條,思考時間不算特別長。
右側是當前模型的一些摘要,可以看到模型正在瀏覽哪些網站,並且會交叉驗證不同的來源。
可以同時問好幾個問題,一起執行。

Q&A
最後的QA環節,直播也解答了大家最關心的幾個問題。
Q:什麼時候釋出Grok3?
A:X上的預先訂閱使用者可以最早體驗,預計一週後陸續釋出,推薦大家關注Grok的動態。
Q:現在的新的網址?
A:grok.com
Q:有語音功能嗎?
A:有。(但是現場也只是說有語音功能,支援語音轉文字,不知道是不是語音通話,但具體的效果如何,還是等上線吧。)
馬斯克在釋出會上是說,一週後會陸續上線grok 3的所有功能。也就是說Grok 3、Grok 3的推理模型、DeepResearch、包括app端。


這個畫面總讓我幻視直播帶貨,感覺馬斯克應該說一句“老鐵們記得訂閱”。
老馬還說,之後會開源上一代模型,也就是Grok 2,那我也坐等。
無論如何,新王已到,江湖又得重新排座次了。
AI圈,變得就是如此之快。
AI一天,人間一年。
我們,拭目以待。


