OpenAI又一次輕輕地“碎掉了”，馬斯克正式釋出Grok3

2025-08-23 14:49 鳥哥筆記

作者：卡茲克、穩穩、小瑞、dongyi

來源：數字生命卡茲克（ID：Rockhazix）

昨日，中午12點，預告了兩三天的Grok3的釋出會，終於來了。

前天馬斯克就在X上吆喝，說Grok 3是“地球上最聰明的人工智慧”。

甚至還在迪拜世界政府峰會說：“Grok 3的推理表現優於我們所知的任何已釋出的模型，這是個好跡象。”

而今天，在燈等等燈等的小音樂聲中，馬斯克習慣性的遲到後，四個大兄弟也坐在了現場，給大家演示Grok 3。

中間C位又是兩個華人。

看完全程以後，我只能說，OpenAI現在是真的慘，前腳被DeepSeek，而後腳，又全部被Grok 3給幹碎了。。。

是的，連o3 mini，也被Grok 3 mini幹碎了，而Grok 3，今天X Premium使用者可是就可以用了。。。

一文來帶大家迅速過一遍，Grok 3的能力。

主要分成3塊，Grok 3、Grok 3 Reasoning、Agents。

Grok 3

Grok這次是直接衝著OpenAI來的。研發團隊一開始就直接甩了Grok和GPT的迭代時間對比。

從Grok0到Grok3，確實是進步飛速。

馬斯克嘚啵嘚的意思，就一句話：Grok只用了兩年多，就能匹敵GPT五六年的能力。

23年xAI成立後釋出了33B的Grok 0，比肩70B的Llama 2。同年11月份，又馬不停蹄的發了Grok 1模型。

24年他們不僅釋出了Grok 1.5和Grok 2，還發布了xAI的第一個多模態模型Grok-1.5V。

從Grok0到2024 年 8 月 13 日釋出的Grok2，再到今天2025年2月的Grok3，Grok的迭代確實很迅速。

關注度這麼高的釋出會，馬斯克也是忍不住炫耀一下自家的十萬卡叢集Colossus。

老馬起初找了資料中心供應商，問他們要在一個地方有序執行10萬個Gpu需要多長時間？供應商給的時間範圍是從18個月到24個月。

老馬直接不樂意了，所以直接自己做。

最終這個叢集只用了122天建成，第一階段是10萬塊NVIDIA H100 GPU，訓練了122天。後來擴充套件到20萬塊GPU（含新增的5萬塊H100與5萬塊H200），又訓練了92天。由田納西河流域管理局（TVA）提供超過100兆瓦的電力支援。

最終，有了Grok 3這個超級產物。

半個多小時的釋出會沒啥實際應用的展示，不過光看跑分grok表現也是挺亮眼的。

在他們內部的測試裡，數學、科學和程式碼三個領域的跑分，Grok 3都是最高的。

不帶推理能力的Grok，Benchmarks跑分遙遙領先。

在Chatbot Arena競技場，Grok3直接拿下第一，分數也高得驚人。

帶推理能力的Grok，也是直接衝著目前最好的推理模型去的。分數遠高於o3和DeepSeek-R1，拉著就是比。

尤其是Grok解數學題的能力，馬斯克在釋出會上也特意強調他們會給模型更多時間讓它自己思考。

在Chatbot Arena競技場，Grok3直接拿下第一，分數也高得驚人。

不僅第一，還是目前唯一1400分以上的模型，直接把沒火多久的Gemini2.0甩開一大截。

Grok 3 Reasoning

下一個，reasoning，也就是grok 3的推理模型。

但是因為還沒有具體實測到，所以我不知道，他是類似DeepSeek v3和DeepSeek R1這種兩套模型的區別，還是類似於Claude在傳的那種混合模型的區別，但是我個人感覺大機率還是兩套。

然後上來展示這UI設計，好眼熟。

大家都在群裡瘋狂吐槽，deepseek是你嗎。

在跑分上，還是我們熟悉的三領域：數學、科學、程式碼。

和o3 mini、DeepSeek R1相比，Grok 3 reasoning都取得了領先地位。

特別是o3 mini，直接被幹碎了。

5天前，完成了AIME2025的測試，分數最高。

並且還有類似於o1 pro的功能，可以調高參數，允許Grok 3用更長的時間去推理，讓大模型花更多時間思考，直到得出結論。

展示的第一個程式設計例子，動態宇宙模型，思考了114s。

效果看起來還挺好的，感覺馬斯克離他的老家火星又進了一步。

第二個展示了Grok的遊戲程式碼，俄羅斯方塊演示（影片有點長，我們這裡直接五倍速）

case本身難度也不怎麼高，具體實測還不知道是個什麼情況，具體詳情得測試看，如果確實跟跑分一致，老馬沒吹牛逼，那Grok 3就是地表最強。

Agent

最後一個。

老馬決定繼續按著OpenAI的頭打，推出了他們的Agent工具，DeepSearch，也就是深度搜索。

明顯就是前段時間OpenAI Deep Research的翻版。

但是效果上，看了下說實話不太像是能對標OpenAI Deep Research的，更偏向於搜尋而不是研究，比OpenAI Deep Research的成品和質量還是差的有點遠。

更像是Perplexity出的那個。

他們也跑了一個demo。

點選左側的答案，會有進度條，思考時間不算特別長。

右側是當前模型的一些摘要，可以看到模型正在瀏覽哪些網站，並且會交叉驗證不同的來源。

可以同時問好幾個問題，一起執行。

Q&A

最後的QA環節，直播也解答了大家最關心的幾個問題。

Q：什麼時候釋出Grok3？

A：X上的預先訂閱使用者可以最早體驗，預計一週後陸續釋出，推薦大家關注Grok的動態。

Q：現在的新的網址？

A：grok.com

Q：有語音功能嗎？

A：有。（但是現場也只是說有語音功能，支援語音轉文字，不知道是不是語音通話，但具體的效果如何，還是等上線吧。）

馬斯克在釋出會上是說，一週後會陸續上線grok 3的所有功能。也就是說Grok 3、Grok 3的推理模型、DeepResearch、包括app端。

這個畫面總讓我幻視直播帶貨，感覺馬斯克應該說一句“老鐵們記得訂閱”。

老馬還說，之後會開源上一代模型，也就是Grok 2，那我也坐等。

無論如何，新王已到，江湖又得重新排座次了。

AI圈，變得就是如此之快。

AI一天，人間一年。

我們，拭目以待。

相關文章

馬斯克用20萬卡叢集，做出了比DeepSeek還強的模型？

馬斯克用20萬卡叢集，做出了比DeepSeek還強的模型？

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

馬斯克正式釋出Grok3，這回真的把OpenAI幹碎了…

馬斯克正式釋出Grok3，這回真的把OpenAI幹碎了…

馬斯克20萬塊GPU煉出Grok-3，暴擊DeepSeekR1數學屠榜！瘋狂復仇OpenAI

馬斯克20萬塊GPU煉出Grok-3，暴擊DeepSeekR1數學屠榜！瘋狂復仇OpenAI

Grok-3意外「洩露」，不是推理模型！馬斯克：xAI新模型比DeepSeek更好

Grok-3意外「洩露」，不是推理模型！馬斯克：xAI新模型比DeepSeek更好

馬斯克的Grok3還不是“地球最聰明”的，但確實是最有錢的｜亮馬橋小紀嚴選

馬斯克的Grok3還不是“地球最聰明”的，但確實是最有錢的｜亮馬橋小紀嚴選

被掃地出門18個月後，馬斯克終復仇OpenAI

被掃地出門18個月後，馬斯克終復仇OpenAI

還沒釋出，xAI工程師公開承認Grok3不如OpenAI，遭馬斯克怒火解僱！馬斯克：Grok3打遍天下無敵手

還沒釋出，xAI工程師公開承認Grok3不如OpenAI，遭馬斯克怒火解僱！馬斯克：Grok3打遍天下無敵手

馬斯克“地球上最聰明AI”Grok3釋出：20萬張GPU，號稱強過DeepSeekV3

馬斯克“地球上最聰明AI”Grok3釋出：20萬張GPU，號稱強過DeepSeekV3

測試「天下最聰明」的Grok3：它真的是模型邊際效應的終點嗎？

測試「天下最聰明」的Grok3：它真的是模型邊際效應的終點嗎？

Copyright © 2025 | WordPress Theme by MH Themes