20萬卡吞金獸Grok3炸裂登場,卡帕西大神親測:效能超過DeepSeekR1!馬斯克:短期不開源

作者|冬梅、衛華
xAI 釋出 Grok 3 和 Grok 3-mini
在 AI 領域,埃隆·馬斯克再次成為全球焦點。2 月 12 日,這位科技狂人在迪拜世界政府峰會上透露,其旗下的人工智慧公司 xAI 即將釋出新一代 AI 模型 Grok 3,並稱其為“迄今為止最強大的 AI 模型”。這一訊息立即引發科技界強烈關注。
剛剛,Grok 3 連同 Grok 3 mini 如約而至。
釋出會一開始,馬斯克再次解釋了“Grok”一詞的含義。這個詞來自羅伯特·海因萊因的小說《異鄉異客》。這個詞被一個在火星長大的角色使用,意思是充分而深刻地理解某事。“Grok”這個詞傳達了深刻的理解,而同理心是其中的重要組成部分。
馬斯克稱,Grok 3 之所以能在很短的時間內就超越 Grok 2,是因為背後有一支強大的技術團隊和資料中心支援。據 xAI 團隊介紹,要訓練出超級規模的模型就需要一個超級規模的資料中心做支援,所以他們首先花費了 122 天建成了 10 萬卡的資料中心。但隨後他們發現,這還遠遠不夠。於是他們又用了 92 天就將原來的 Colossus 規模從 10 萬卡擴建到 20 萬卡,並在此基礎上推出了 Grok 3。
Grok 3 最引人注目的特點將推理能力整合到了模型中。推理指的是模型在嘗試解決問題之前需要花費大量時間進行思考。大約一個月前,Grok 3 的預訓練完成了,從那時起,xAI 團隊一直在努力將推理能力整合到當前的 Grok 3 模型中。然而,這仍處於早期階段,模型仍在訓練中。
今天展示的是 Grok 3 推理模型的一部分。此外,xAI 也在訓練一個迷你版本的推理模型。Grok 3-mini 與 Grok 3 在推理上取得的結果相差不大,Grok 3-mini 訓練時間更長,有時它的表現甚至略優於 Grok 3 推理模型。這僅僅表明 Grok 3 推理模型具有巨大的潛力,因為它仍在訓練中。
在效能效果上,xAI 從數學、科學和編碼三個方面將 Grok 3、Grok 3 mini 與各主流模型進行了對比。綜合來看,Grok-3 推理模型測試版在數學、科學和編碼三個方面均表現優異,尤其是在編碼方面得分最高。Grok-3 mini 推理模型的表現也相當不錯,儘管略低於 Grok-3 推理模型測試版,但仍優於 OpenAI 的 o3-mini、o1、DeepSeek-R1 等其他主流模型。
本場釋出會,Grok 3 還引入了 DeepSearch,該公司將其描述為一種新型搜尋引擎和類似 Agent 功能的早期版本。據 xAI 工程師介紹,DeepSearch 是 xAI 的第一代 Agent 工具,它不僅幫助工程師、研究人員和科學家編寫程式碼,而且實際上能幫助每個人回答日常遇到的問題。
據馬斯克介紹,Grok 3 中支援兩種訂閱模式:X(推特)平臺的 Premium+ 深度使用者和月費 30 美元 / 年費 300 美元的 SuperGrok。xAI 將在一週時間內在 Grok 3 中上線語音模式,數週後對企業使用者提供包含 DeepSearch 的 API 接入方案,並在幾個月後對 Grok 2 進行全面開源,但 Grok 3 的關鍵訓練細節和內部權重暫時不會全面公開。
效能如何?
先來具體看看現在 Grok 3 的各項水平是怎樣的?
首先來明確一下 xAI 對其的使用場景目標,馬斯克在直播中表示,希望能夠使用 Grok 3 完成特別重要的現實任務,比如打造一臺特斯拉、解決太空發射問題或者應用到資料中心。據其預測,兩年之內會發生兩件事情:計算機在各方面打敗人類,幫助實現諾貝爾級的科學資料突破;下一次重大突破在明年 11 月出現,我們會真正讓 SpaceX 登陸火星,應用 Grok 模型來去計算整個的發射過程。
同時,xAI 宣佈將成立一家 AI 遊戲工作室來製作遊戲。直播中,xAI 現場演示了用 Grok3 創造一個融合《俄羅斯方塊》和《寶石迷陣》的遊戲案例。
現在也已經有模型體驗者用 Grok 3 建立了遊戲:
給 Scaling Law 帶來什麼驚喜
此次 Grok 3 之所以在釋出前就吸引來如此多人的關注,一大原因之一是大家對 Scaling Law 當前真實效果的重視。現在越來越多的聲音稱“Scaling Law 終結了”,即大模型不再具有規模效應,增加引數數量、算力、訓練語料等更多資源或許也無法繼續增強模型的效能效果了。
Grok 3由Colossus超級計算機訓練完成,最初 xAI 用了122天讓首批 10 萬卡叢集投入使用,後續又花費 92 天拓展到20萬卡叢集,較前代產品 Grok 2 使用的 15000 個 GPU 實現了數倍的跨越式提升。
釋出會上,xAI 團隊透露,Grok 3 背後有 20 萬張英偉達 GPU 、4 億個 GPU 小時的超強算力支援。據公開介紹,OpenAI 訓練 GPT-4 用了大約 25000 塊 A100 GPU,據 Lambda 測算,H100 的訓練吞吐量為 A100 的 160%。也就是說,GPT 4 相當於用了 15625 塊 H100。再對比近期大火的 DeepSeek,據公開論文介紹,DeepSeek-V3 的總訓練成本為 278.8 萬個 H800 GPU 小時。儘管另據獨立研究機構 SemiAnalysis 估計,“DeepSeek 擁有約 1 萬張 H800 和約 1 萬張 H100。此外,他們還大量訂購 H20 GPU”,但也遠不及 Grok 3 的訓練算力高。
因而,許多網友都將其這次釋出當做 Scaling Law 技術路線的又一次驗證,並且馬斯克在 2024 年中啟動 Grok 3 訓練時稱對標的是 GPT 5。
目前,Grok 3 暫未公佈其引數規模。微軟在近日釋出的一篇醫學相關論文中披露,GPT-4 有 1.76 萬億個引數,GPT-4o 和 GPT-4o-mini 的引數分別為 2000 億和 80 億。另據公開介紹,DeepSeek-V3 的引數規模達到 6710 億,但會使用混合專家架構以保證僅啟用選定的引數,以便準確高效地處理給定任務。
接下來從效能效果上展開講講 Grok 3 到底怎麼樣。xAI 從數學、科學、編碼三方面去對比了 Grok 3 系列和當前熱門前沿模型,並在多個基準測試中都擊敗了其他競爭對手。
據介紹,在 Arena 中(這是一項眾包測試,讓不同的 AI 模型相互競爭,並讓使用者投票選出他們喜歡的答案),Grok-3 是有史以來第一個得分突破 1400 分的模型,並在所有類別中均排名第一。
這樣來看,在大語言模型(LLM)領域,Scaling Laws 或許依然成立。
不過,Grok 3 不僅僅是 LLM,還引入了“思維鏈”(Chain Of Thought)推理能力。馬斯克稱,Grok 3 在複雜的推理任務中表現優於其競爭對手。據介紹,xAI 的最新模型 Grok 3在 2024 美國數學邀請考試(AIME)中取得了 93% 的驕人成績,將其他前沿模型甩在了身後。即使是其 mini 版,也足以與其他 AI 模型的能力相媲美。
值得注意的是,大約五天前,AIME 2025 競賽也結束了。隨後,xAI 團隊讓兩個模型(Grok 3 和 Grok 3 mini)在同一基準的同一考試中進行比拼。有趣的是,更大的 Grok 3 推理模型在這次全新的考試中表現更好。這表明,與較小的模型相比,更大的模型具有更強的泛化能力和效能。然而,與去年的考試相比,較小的模型表現更好,因為它更有效地學習了之前的考試內容
Grok 3 能擠進全球模型 Top 5 嗎?
這次,不少網友對 Grok 3 模型給出了正面評價,“Grok 3 的出現標誌著人工智慧發展史上的一個重要里程碑。憑藉其令人印象深刻的 ELO 分數和推理能力,我們顯然看到了人工智慧在解決複雜問題方面的飛躍。”
AI 大佬 Andrej Karpathy 今天早些時候獲得了 Grok 3 的早期訪問許可權,他也成為首批能夠快速體驗其功能的人之一。Karpathy 表示,Grok 3 好的點是“建立一個棋盤遊戲網頁,顯示一個六邊形網格,就像《卡坦島》遊戲中的那樣。每個六邊形網格都編號為 1..N,其中 N 是六邊形瓷磚的總數。使其通用,以便可以使用滑塊更改‘環’的數量。例如,在《卡坦島》中,半徑為 3 個六邊形。請使用單個 HTML 頁面。”
Karpathy 強調,很少有模型能夠可靠地正確完成這個任務。頂級的 OpenAI 思維模型(例如 o1-pro,每月 200 美元)也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都無法做到。但 Grok 3 也有弱點。“它沒有解決我的‘表情符號謎題’問題,在這個問題中,我給出了一個帶有隱藏在 Unicode 變體選擇器中的訊息的笑臉,即使我以 Rust 程式碼的形式給出瞭如何解碼的強烈提示。我見過的最大的進展來自 DeepSeek-R1,它曾經部分解碼了訊息。”
那麼,Grok 3 能擠進全球頂級模型之列嗎?在馬斯克看來,是能的。從今天的釋出會來看,他對 Grok 3 充滿信心,並認為該模型能未來能擊敗一眾先進模型登頂最強模型寶座。
但事實真的如此嗎?目前,Grok AI 在人工智慧領域仍是一個小角色。它的受歡迎程度遠不及 ChatGPT 等競爭對手,截至 2024 年 11 月,ChatGPT 佔據了人工智慧工具市場份額的 62.5%。
不過,Grok 確實擁有一些與競爭對手不同的特點。它最大的優勢是能原生整合社交媒體 X,使該聊天機器人能夠訪問社交媒體平臺的即時資訊,其獨特的程式設計方式使其能夠以叛逆和俏皮的語氣回答挑釁性的提示。由於這些獨特賣點,馬斯克的 AI 聊天機器人在 X 使用者中很受歡迎。
然而,該聊天機器人經常捲入爭議,從回應政治虛假資訊到因其可訪問 X 資料而宣傳有偏見的內容。ChatGPT 和 Gemini 等競爭對手也擁有更多引數,因此它們的響應通常更準確。
基於以上種種,有外界聲音認為堆砌瞭如此多的算力,即使使用合成訓練資料,Grok 3 也不太可能與更大的競爭對手相提並論。
Grok 系列模型的起源與背景
Grok 系列模型是埃隆·馬斯克旗下人工智慧公司 xAI 的核心產品之一。xAI 成立於 2022 年,旨在開發具有更高推理能力和邏輯一致性的人工智慧系統。馬斯克一直對人工智慧的發展持謹慎態度,多次公開表達對人工智慧潛在風險的擔憂。然而,他也認為,人工智慧技術的進步是不可避免的,因此他希望透過 xAI 開發出更安全、更透明且對人類友好的 AI 系統。
Grok 的名字來源於科幻作家羅伯特·海因萊因的小說《異鄉異客》,意為“深刻理解”或“完全掌握”。這一命名體現了馬斯克對人工智慧的期望:不僅要能夠處理複雜的任務,還要具備對人類思維和邏輯的深刻理解。
Grok 1 於 2023 年初發布,是 xAI 推出的首款人工智慧聊天機器人。作為初代模型,Grok 1 的主要目標是驗證合成數據訓練方法的可行性。與當時主流的 ChatGPT 等模型不同,Grok 1 並未完全依賴真實世界資料進行訓練,而是採用了大量合成數據。合成數據是透過演算法生成的模擬資料,能夠覆蓋更廣泛的情景和邏輯結構。
Grok 1 的推出引起了廣泛關注,它能夠處理複雜的邏輯問題,並在某些特定任務上超越了當時的 ChatGPT 3.5。然而,Grok 1 也存在一些明顯的侷限性。例如,由於合成數據的侷限性,它在處理真實世界中的細微差別和複雜性時表現不佳。此外,Grok 1 的訓練成本極高,且模型規模較小,限制了其在實際應用中的推廣
2023 年年中,在 Grok 1 的基礎上,xAI 推出了 Grok 2。這一代模型在多個方面進行了重大改進。依然採用了更大規模的合成數據集,同時結合了少量高質量的真實世界資料,以彌補初代模型在處理真實場景中的不足。Grok 2 還引入了更先進的訓練演算法,尤其是在數學推理、程式碼生成和複雜問題解決方面超越了當時的 ChatGPT 4。它還首次嘗試了多模態能力,能夠處理文字、影像和簡單影片資料。
然而,在眾多優秀大模型層出不窮的 2023 年,Grok 2 的問世並沒有掀起太大水花。Grok 2 依然有著很多弊端,儘管其技術能力備受認可,但由於其使用許可權僅限於 X 平臺(原 Twitter)的高階使用者,普通使用者無法直接體驗。這一限制導致 Grok 2 的市場覆蓋率較低,未能對 ChatGPT 等競爭對手形成實質性威脅。如今 Grok 3 來了,情況會有變化嗎?
我們拭目以待。
參考連結:
https://www.forbes.com/sites/larsdaniel/2025/02/16/elon-musks-scary-smart-grok-3-release–what-you-need-to-know/
 直播預告
2 月 11 日至 2 月 27 日,AI 前線影片號、InfoQ 影片號、霍太穩影片號帶來 DeepSeek 系列直播,解析 DeepSeek 爆火背後的技術突破、商業化路徑與行業影響。從 純強化學習復現 o1 能力到算力控制,從創新文化到 AI 競爭格局,每場直播都深度解析一個關鍵問題。
📅歡迎掃碼二維碼預約直播,一同探索 DeepSeek 如何引領 AI 領域的創新與未來!
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章