馬斯克的Grok3還不是“地球最聰明”的,但確實是最有錢的|亮馬橋小紀嚴選

小紀有話說:
馬斯克口中的“地球上最聰明的AI”Grok 3來了。
在一場上百萬人觀看的直播中,馬斯克釋出了Grok 3,和他一起參與釋出的還有兩位華裔研究員,分別是xAI聯合創始人Tony Wu、Jimmy Ba。從基準測試來看,Grok 3確實強得驚人,而從資本投入看,背後那20萬塊GPU的算力叢集也令人咋舌。
Grok 3的釋出包括一系列的模型:Grok 3, Grok 3 mini,以及推理模式(Think)、DeepSearch、Big Brain等更新。
來源 | 矽星GenAI
作者|週一笑
“最聰明AI”之名來自榜單
實測如何
基準評測方面,Grok 3在數學推理、STEM與科學領域的基準測試中表現優於GPT-4o、Gemini-2 Pro、Claude 3.5 Sonnet、DeepSeek-V3等其他模型。即便是小版本的 Grok 3 mini,也處於頂尖水平。
Grok 3的早期版本在大模型競技場Chatbot Arena中也取得了高分,這是一個眾包測試平臺,不同AI模型相互競爭,使用者投票選出最佳答案,Grok-3是首個突破1400分的模型,在所有類別中排名第一。
Grok自2023年釋出以來MMLU得分快速提升,尤其在2024年達到Grok 2的顯著突破,顯示出與GPT系列相比的快速追趕與進步。
“Grok 3具備非常強大的推理能力,因此在我們迄今為止進行的測試中,Grok 3的表現超越了我們已知的任何已釋出產品,這是一個好跡象。”馬斯克上週在迪拜舉行的世界政府峰會上透過視訊通話表示。
Grok 3也推出了推理模式(Think),透過Grok 3 Reasoning和Grok 3 mini Reasoning,能夠像DeepSeek- R1等推理模型一樣進行思考。Grok 3的模型可以透過考慮所有可能的解決方案、自我批判、驗證解決方案、回溯、從第一性原理思考等方式來解決複雜的問題。不過為了防止蒸餾,模糊化了Grok 3的部分推理過程。
Grok 3 Reasoning在多個流行基準測試中超越了o3-mini的最佳版本——o3-mini-high,其中包括新的數學基準AIME2025。
團隊演示了用Grok 3的Think模式生成一個關於從地球發射到火星再返回地球的動畫3D繪圖,展示下一次發射視窗的軌跡。
在演示中,Grok 3提供了一個使用Matplotlib的Python指令碼,並解釋了程式碼。程式碼似乎是透過數值方式解決開普勒定律。程式碼執行後,Grok動畫化了地球和火星兩顆行星,用綠色小球表示航天器在它們之間的旅程。
演示是在現場生成的,因此沒有驗證解決方案是否完全正確,但佩戴著一個展示地球火星轉移軌道的吊墜的馬斯克表示與實際解法接近。
提前體驗了Grok 3的Andrej Karpathy表示Grok 3的Think模式實現了DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude均未能實現的任務,但他表示頂尖的OpenAI模型,比如o1-pro同樣也能做到。
在OpenAI、Gemini和Perplexity之後,Grok也推出了自己的深度搜索Deep Search。xAI團隊將Deep Search定位為“下一代搜尋引擎”,是Grok Agent的第一代產品。它不僅僅是一個簡單的資訊檢索工具,旨在幫助程式設計、研究和解答日常問題。
從演示來看,Grok 3的Deep Search也並未有太多獨特之處,更多強調它不同於傳統搜尋引擎的關鍵詞匹配模式,能深入理解使用者查詢的語義和意圖,並從多個資訊源獲取內容,交叉驗證以確保準確性,比傳統搜尋引擎更具可調控性,允許使用者指定來源。
xAI團隊特別提到了Deep Search搜尋過程對使用者透明,能讓使用者瞭解AI的“思考”過程。
Andrej Karpathy認為Grok 3的DeepSearch大致相當於Perplexity的Deep Research,但尚未達到OpenAI最近釋出的Deep Research的水平。

滿血“Big Brain”模式

對於更復雜的查詢,利用“Big Brain”模式用更多的計算進行推理。xAI將這些推理模型描述為最適合數學、科學和程式設計問題,看上去像是“滿血版”的另一種說法。
xAI團隊演示了Grok 3在Big Brain模式下創造融合了Tetris(俄羅斯方塊)和Bejeweled(寶石迷陣)的全新遊戲。xAI團隊解釋說,由於是在直播中即興生成,Grok有可能會犯一些小的編碼錯誤,導致遊戲執行不完全符合預期。在直播的測試中,生成的遊戲能夠正常執行,但遊戲的顏色顯示有些問題,另外不清楚是否實現了俄羅斯方塊清除一整行的機制。
xAI團隊也在直播中坐實了將推出一個AI遊戲工作室的計劃,馬斯克在前一天也曾在X上發表了相關推文。
有錢可以任性,
但想成為“最強”要做的還有很多
Grok 3基於xAI的Colossus叢集,一期10萬張卡只用了122天建設,又用了92天擴張到20萬張,並使用了約20萬塊GPU來訓練Grok 3,並於一月初完成了預訓練。此前馬斯克在X平臺上發帖稱,Grok 3的開發使用了比其前身Grok 2多“10 倍”的計算資源,並且訓練資料集得到了擴充套件,據稱包括了法庭案件的檔案。在直播中他表示,Grok 3的計算資源大約是Grok 2的15倍左右。
馬斯克還透露,xAI正在建設新的AI叢集,其功率將是當前叢集的五倍。
另外關於語音模式,團隊沒有給出具體的釋出日期,但馬斯克表示“大概一週左右就會發布”。
具體細節上,語音將直接由類似於Grok的模型生成,該模型能夠理解所說的話並直接生成音訊。這種方式使得AI能夠記住細節,並更自然地繼續對話。語音模式功能將在應用和API中同時提供。
xAI計劃在未來幾周內推出Grok 3的API。這個API將包括Grok 3的推理模型和Deep Search功能。xAI團隊對企業級應用場景非常期待,認為Grok 3的強大能力和Deep Search的加入,將為企業使用者帶來巨大價值。
值得注意的是,xAI在近期還推出了只要同意共享資料,最低充值5美元,就贈送150美元的API額度的活動。顯然,xAI不在乎讓出這點羊毛,更看重的是透過這種方式獲取使用者和資料。
關於開源計劃,馬斯克表示將延續此前的策略,當Grok 3成熟且穩定時(大概會在幾個月內實現)將開源Grok 2。
目前,使用者可以透過X和Grok的網站和App進行體驗,並非所有Grok 3的模型及相關功能都已上線(部分處於測試階段)。Grok 3將首先向X平臺的Premium+訂閱者推出,此外還將推出一個名為SuperGrok的獨立訂閱服務,為Grok使用者提供最先進的功能和最早的訪問許可權,每月30美元或每年300美元,SuperGrok解鎖了DeepSearch中更多查詢次數等功能,還提供了無限量的影像生成服務。
Grok 3的釋出標誌著xAI在AI領域的激烈競爭,不僅包括OpenAI和谷歌競爭,還面臨著來自新興中國企業的壓力。比如,DeepSeek讓全球的AI公司調整策略,讓深度思考模型成為“標準”,還促使OpenAI最近免費開放了其推理模型,並且也開始放出開源的訊號。
而對於馬斯克來說,OpenAI或許是xAI最大宿敵。馬斯克於2023年創立了xAI,旨在成為OpenAI的替代者,並公開批評OpenAI計劃將自己重組為一家盈利性企業。
馬斯克還對OpenAI提起了兩項訴訟,指控其偏離了最初的創立原則,並提出以974億美元收購OpenAI的非營利部門,但該提案上週遭到了OpenAI董事會的拒絕。薩姆·奧特曼表示,這一收購報價是“拖慢我們步伐”的策略。儘管馬斯克曾參與OpenAI的創立,但自2018年離開董事會後,他對公司一直持批評態度。
而這兩家公司都在進行驚人的融資,估值不斷飆升。據彭博社上週報道,馬斯克的xAI正在進行約100億美元的融資洽談,融資完成後,公司的估值將達到750億美元,而xAI上一次的估值為510億美元。與此同時,OpenAI正在洽談籌集最多400億美元的資金,預計其估值將提升至3000億美元。
兩者藉助資本所帶來的“財大氣粗”的特點也很明顯。軟銀、OpenAI、甲骨文及阿布扎比支援的MGX已於一月聯合宣佈計劃,在美國投資1000億美元,最終將投入5000億美元,用於建設資料中心及其他人工智慧基礎設施。同時,戴爾科技公司也接近完成一項價值超過50億美元的交易,為xAI提供專為人工智慧最佳化的伺服器。
從當前情況來看,OpenAI確實是xAI最主要的競爭對手。兩者在技術、市場定位和融資策略上都存在直接競爭關係。OpenAI憑藉其成熟的產品線和強大的市場份額仍然處於領先地位。儘管Grok 3的釋出在某些指標上有所優勢,但從整體演示來看,並沒有太多創新,更多是補齊和追上行業頭部企業。真正支撐Grok 3的,似乎更多是那20萬張GPU和源源不斷的資本支援,而非真正的技術突破。這次釋出也並非馬斯克口中所說的“也許這是AI超越Grok的最後一次機會了”
Grok 3釋出的開場,馬斯克再次介紹了xAI與Grok的使命:理解宇宙的本質,弄清楚正在發生的事情,尋找外星人的蹤跡,探索生命的意義,瞭解宇宙的起源,並確定其終結方式。xAI以追求真理為動力,成為終極的求真人工智慧。
然而,無論是實現這些宏大願景,還是面對更現實層面的競爭,僅憑“鈔能力”和榜單上的“最強”頭銜,顯然是不夠的,要成為真正的“地球上最聰明AI”,馬斯克和它的xAI還有很長的路要走。
*頭圖及封面圖來源於“ivy”。
溫馨提示:雖然我們每天都有推送,但最近有讀者表示因平臺推送規則調整,有時候看不到我們的文章~
歡迎大家進入公眾號頁面,右上角點選“設為星標”點亮⭐️,收藏我們的公眾號,新鮮內容第一時間奉上!
*文章觀點僅供參考,不代表本機構立場



相關文章