馬斯克20萬塊GPU煉出Grok-3，暴擊DeepSeekR1數學屠榜！瘋狂復仇OpenAI

2025-09-12 19:26 機器學習演算法與自然語言處理

新智元報道

編輯：編輯部 HNYZ

【新智元導讀】馬斯克口中全世界最聰明大模型Grok-3，終於震撼登場！20萬塊GPU訓出的模型，實屬全球首次。果然，Grok-3已火速屠榜多個排行榜，擊敗o3-mini（high）和DeepSeek-R1。

人類史上首個在20萬塊GPU上訓出的模型終於問世！

剛剛，馬斯克帶隊三位xAI成員線上開啟直播，官宣Grok-3全家桶——

Grok-3（Beta）、Grok-3 mini

首個推理模型Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：擊敗o3-mini/DeepSeek-R1，解鎖推理時計算

首個AI智慧體「DeepSearch」：聯網深入搜尋

一股OpenAI釋出會的味道撲面而來

據介紹，三代Grok的訓練計算量竟是Grok-2的10倍，那麼實際表現又如何？

世界最大超算叢集Colossus已有20萬塊GPU：10萬塊GPU同步訓練（第一階段用時122天搭建）；20萬GPU（第二階段用時92天）

在多項基準測試中，Grok-3在數學（AIME 2024）、科學問答（GPQA）、編碼（LCB）上重新整理SOTA，大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的效能基本上領先或媲美其他閉源/開源模型。

在著名大模型LMSYS Arena排行榜中，Grok-3（chocolate終於揭秘）刷榜，Elo評分超1400位列最高，沒有任何一個模型能與之相比。

Grok-3的數學能力十分驚人，幾乎能完成大部分美國數學專業能力測試的題目。

更令人驚喜的是，Grok-3此次還帶來了推理模型——Grok-3 Reasoning，在回答問題時會展示出思維過程。

進入聊天入口，直接選擇「Think」模式，即可開啟魔法。

此外，還有「Big Brain」模式、智慧體「深度搜索」（Deep Search）模式同步上線。

幾天前，馬斯克曾在預告中放出豪言，「這是地球上最聰明的AI」，此言不虛。

總愛搞點事情的奧特曼，一會兒說GPT-4.5讓自己深刻感受到AGI，一會兒又要開源模型全網投票。

甚至有網友提議，不如咱就7:30pm釋出GPT-4.5吧！奧特曼：這不太好吧。

奧特曼的這番言論，擺明了是要擾亂軍心。據傳言，Grok-3釋出這一歷史性時刻，OpenAI全員觀戰。

OpenAI前腳釋出的o3-mini剛剛擊敗了R1，如今又被Grok-3追回。不知今晚，GPT-4.5會不會降臨？

暴擊o3-mini、DeepSeek-R1，解鎖測試時計算

有人說，Grok-3是終極的Scaling Law測試，如今看來，事實如此。

從2023年Grok-1首次面世，到Grok-1.5，再到Grok-2逐步迭代，模型推理效能飛速飆升的同時，還吞噬了大量的算力。

Grok-3家族，更是將「測試時計算」發揮到了極致。10萬塊H100超算，訓出的野獸幾乎無「模」能敵。

它成為首個Elo評分打破1400的模型，在所有分類測試中位列第一。

在多項基準測試中，推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在數學、科學、編碼上，效能均大幅超越o3-mini（high）、o1、DeepSeek-R1，還有Gemi-2 Flash Thinking。

可以說，迄今為止最強「推理模型」，全部敗給了Grok-3 Reasoning，可以說，它是名副其實的「世界上最聰明的模型」。

團隊表示，允許Grok去進行更長時間的思考和推理。

在最新的數學基準AIME 2025上，Grok-3兩款新模型效能同樣重新整理SOTA，分別拿下了93和90分。

順便提一句，Grok-3思維鏈和o3-mini套路一樣——防止被偷家xAI掩蓋了部分思考過程。

接下來，讓我們一睹Grok-3強大的推理能力。

高階推理Think

首先是一個太空飛船任務，生成一個地球發射、火星著陸以及下一次發射視窗返回地球的動畫3D程式碼。

注意，這個問題的難點在於，過程中涉及到了大量數學和物理模型的計算。在此之前，團隊從未試過讓大模型去計算航天的發射視窗。

在「Think」模式下，可以看到Grok的思維痕跡，甚至可以進去看看Grok在解決問題時到底在想什麼。

Grok 3很快生成了完整可執行的3D動畫。在程式碼中，Grok-3數值上求解了開普勒定律。

下圖是3D動畫的畫面，直觀展示了任務過程中，太陽、地球、火星和飛船之間的位置關係。

甚至，宇航員可以據此直接算出出艙時間和距離。這上面有地球-火星往返的轉移路徑，這種穿越每26個月發生一次。接下來，我們現在正處於一個過渡視窗期。

研究者經過檢查後激動表示：Grok-3給的答案完全正確！

最後馬斯克揭開謎底：其實，這就是SpaceX真正的探索軌道。他充滿信心地表示，兩年內，地球和火星就會被連線在一起。

很快有網友評論，「可以確認，Grok-3強得離譜！」

與之相對比的是，o1、o1-pro、o3-mini（high）全都在這個問題上栽了：生成一段程式碼，實現從地球發射、登陸火星，然後在下一個發射視窗返回地球的3D動畫。

「它們生成的程式碼能跑是能跑，但很不幸，飛船根本就沒靠近過火星，更別說回來了。」該網友表示。

然後團隊又讓Grok-3製作一個遊戲。要求是結合俄羅斯方塊和寶石迷陣兩個遊戲的混合體。

「顯然，如果你讓AI去創作一款像俄羅斯方塊這樣的遊戲，網際網路上有許多例子，或者類似寶石迷陣的遊戲。它可以複製它們。」演示人員表示。

所以，現場他們讓Grok-3製作了一個結合了俄羅斯方塊和寶石迷陣兩個遊戲的混合體，這次他們使用了「Big Brain」模式，可以使用更多計算能力的一種模式。

Grok-3隨後開始使用python編寫程式碼，可以看出它呼叫了pygame、random和time這3個庫來完成遊戲的編寫。

程式碼完成後，Grok-3生成的俄羅斯方塊和寶石迷陣兩個遊戲的混合體成功執行，雖然遊戲邏輯有些隨意，但是介面挺美觀。

「我們在x.ai準備好成立一個遊戲工作室了嗎？」演示人員激動地說道，「是的，所以我們正在x.ai啟動一個人工智慧遊戲工作室。」

在此過程中，研究者們討論道：最好的AI模型，必須像人類一樣思考，會去想所有可能的對策和解法，會自我批評、回溯，還會從第一性原理去思考。

甚至，Grok能夠了解自己的邏輯和推理過程中的一些失誤所在，更正自己的錯誤，將一些數學推理過程概念化，而現實生活中，也正是這些問題的延伸。

研究者表示，真正令人興奮的就是，可以用Grok-3去完成現實世界中的任務，比如打造一輛特斯拉，或者去發射火箭。

這正是Grok團隊目前正在思考的問題。

深度搜索DeepSearch

沒想到，這一次馬斯克還帶來了Grok-3首個智慧體——DeepSearch。

DeepSearch是Grok的第一代智慧體，能夠在網際網路上進行更深入的搜尋。

它允許使用者對網際網路和X平臺進行全面搜尋。該模式分析大量資訊，並透過快速高效的搜尋過程提供詳細、合理的答案。

此外，它的資訊檢索過程對使用者更加透明。你可以直接告訴它只使用來自X的內容，它會盡量遵守這個要求，因此可控性更強，也更智慧。

我們可以問DeepSearch智慧體：下一次星艦發射是什麼時候？

可以看到，在左邊，它展示出了搜尋和推理的過程，而在右邊，則展示出了深度思考過程，以及模型正在瀏覽什麼樣的網址和網頁。

最終，智慧體給出了答案：25年2月24日。

遊戲玩家還可以提問：在Poe 2中最硬核的流派是什麼？

除了給出答案——煉獄師召喚流之外，智慧體還在回答中給出瞭如何獲得更多武器的攻略。

因此，比起現在普通的搜尋引擎，使用Grok智慧體能節約更多的時間。

Grok團隊表示，從此，或許所有實習生都要失業了，我們需要的只是向大模型下任務。每個月花40美元，就能帶來數十億美元的回報。

馬斯克：一週內所有功能上線，幾個月內全面開源

所以，Grok-3到底什麼時候開放？

對此，馬斯克表示，訂閱Premium Plus的X使用者現在已經可以用上了。

而Grok忠實粉絲則可以單獨訂閱SuperGrok，從而解鎖深度搜索和思考模型等先進功能，併成為早體驗新特性的那一波。

全新網址是grok.com，另外App Store裡也可以下載了。

馬斯克強調，最新版本一定是網頁版，App Store裡是比較落後的。

目前，Grok-3每天都在更新推理功能，馬斯克放話說：一週內，Grok的所有功能都將上線！

傳送門：https://grok.com/

Q&A

什麼時候出語音助手版？會花一週時間。

Grok-3 API什麼時候上線？幾周內。

Grok 3語音模式是原生的，還是文字轉語音？它是Grok-3的一個變體，能理解你說的話，並且直接生成音訊。

Grok-3能否將音訊轉錄成文字？沒問題。這個聲音模型不僅僅是語音轉文字那麼簡單，它還具備對話記憶功能，能記得和你之前的互動記錄。

馬斯克表示，幾個月之後會對Grok-3進行全面的開源。

Grok-3最令人興奮的部分是什麼？訓練模型，以及百分百的邏輯推理，都是最難的部分，就像你需要隨時隨地設計宇宙的最新進展。

如何設計這樣一個史上最難推理模型？研究者表示，我們花了24個月去打磨這個模型，確定它在邏輯推理上有了最新進展，同時他們使用了一個廢棄工廠，資料中心之所以落地在孟菲斯，是因為既需要算力，又需要能源功能，需要1/4吉瓦來向GPU供能，同時還需要冷卻設施。

此前，從沒有人真正在資料中心實現過液冷，但Grok團隊做到了！

為了進一步對資料中心供能，我們使用了特斯拉的Megapacks，並且重新計算了建築物的能源供給。最終證明：團隊的計算是有效的！

而且，過程中還需要把不同計算機聯結在一起，共享資訊。在此過程中，團隊會看到模型之間供給不平衡的情況。

一方面，是對建築供能和節能的重新設計；另一方面，團隊設計了大模型，設計了全新的演算法過程。

研究者表示，不知道其他大模型是否也像Grok-3一樣，需要如此多的人力和物力。

當然，團隊也希望在接下來，減少模型的能耗，把資料中心的耗能從1/4吉瓦降低下來，或許需要重新設計，讓它成為世界上效率最高的資料中心。

AI大牛高度好評：Grok-3成就驚人

提前拿到內測資格後，AI大佬Karpathy展開了一番評測，分享的感悟比一篇文章還要長。

總結來說，Grok-3推理模型最領先，解決了卡坦島（Settler's of Catan）難題。上傳GPT-2論文後，Grok-3完成了簡單的查詢問題。

它沒有解決黎曼假設難題，僅是說「這是一個偉大未解決的難題」。

在體驗「深度搜索」功能時，結合了思考+深度研究的能力，能對需要研究、查詢的問題提供高質量回答，並給出參考連結。

最後，Karpathy給出的評價是，「Grok-3 + Thinking表現似乎達到了與o1 Pro（每月200美元）相當的水平，並且略優於DeepSeek-R1和Gemini 2.0 Flash Thinking」。

大約一年前，xAI團隊從0開始的，這麼短時間內就達到了頂尖水平，這是前所未有的驚人成就。

Grok-3同樣通過了物理模擬測試，效果堪比o3-mini。

xAI聯創同樣表示，「我們改進模型和系統的速度，比任何單一的里程碑都更重要。Grok-3證明了我們能夠在19個月內從零起步達到了最先進的水平」。

此外，xAI工程師還曝出了即將上線的「高階語音模式」

Grok-3橫空出世，再次把xAI帶回到世界第一梯隊。

用馬斯克的一句話做個總結——要判斷哪家公司會在技術競爭中勝出，你只需要關注其創新速度的一階導數和二階導數。

xAI團隊勝利的這一刻，值得被記錄。

奧特曼的AGI也準備就緒。

參考資料：

https://x.com/i/broadcasts/1gqGvjeBljOGB

相關文章

OpenAI實名舉報Grok3作弊，一題答64次踩著臺階和o3-mini比

OpenAI實名舉報Grok3作弊，一題答64次踩著臺階和o3-mini比

馬斯克用20萬卡叢集，做出了比DeepSeek還強的模型？

馬斯克用20萬卡叢集，做出了比DeepSeek還強的模型？

Grok-3四檔定價揭秘：低至0.3美元/百萬token，硬剛谷歌Meta

Grok-3四檔定價揭秘：低至0.3美元/百萬token，硬剛谷歌Meta

白嫖啟動！xAI上線Grok3模型API服務支援使用150美元/月贈金抵扣額度

白嫖啟動！xAI上線Grok3模型API服務支援使用150美元/月贈金抵扣額度

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

Grok-3意外「洩露」，不是推理模型！馬斯克：xAI新模型比DeepSeek更好

Grok-3意外「洩露」，不是推理模型！馬斯克：xAI新模型比DeepSeek更好

馬斯克正式釋出Grok3，這回真的把OpenAI幹碎了…

馬斯克正式釋出Grok3，這回真的把OpenAI幹碎了…

OpenAI又一次輕輕地“碎掉了”，馬斯克正式釋出Grok3

OpenAI又一次輕輕地“碎掉了”，馬斯克正式釋出Grok3

OpenAI發新模型o3和o4-mini，首次實現“影像思維”；馬斯克旗下xAI宣佈上線GrokStudio丨AIGC日報

OpenAI發新模型o3和o4-mini，首次實現“影像思維”；馬斯克旗下xAI宣佈上線GrokStudio丨AIGC日報

反超DeepSeek？馬斯克「鈔能力」砸出來的Grok3終於上線了

反超DeepSeek？馬斯克「鈔能力」砸出來的Grok3終於上線了

Copyright © 2025 | WordPress Theme by MH Themes