史上最強Grok3釋出:馬斯克,成了!


內容來源:本文內容整理自網路公開資料。
責編 | 柒  排版 | 拾零
第 8836篇深度好文:3626字 | 9分鐘閱讀
創新英雄之旅專題
一、Grok 3,地表最強AI?
就在今天,埃隆·馬斯克扔出“大招”,正式釋出新一代聊天機器人Grok 3,與OpenAI o1、DeepSeek-V3/R1等模型一決高下。
在此之前,馬斯克稱其為“地球上最聰明的人工智慧”。
釋出會開場時,馬斯克解釋了Grok這一名字的來歷:Grok這個詞來自羅伯特·海因萊因的小說《異鄉異客》(Stranger in a Strange Land)。這是一個火星詞,意思是充分而深刻地理解某事。隨後,xAI在釋出會上簡單粗暴地擺起了數字。
隨後,xAI在釋出會上簡單粗暴地擺起了數字。
圖 | Chatbot Arena成績(來源:xAI)
Grok 3和Grok 3 mini在數學、科學和程式設計基準測試上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。 
圖 | Grok 3的數學、科學和程式設計基準測試成績(來源:xAI)
同時,具備推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning則是超越了類似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。
圖 | Grok 3推理模型的數學、科學和程式設計基準測試成績(來源:xAI)  
xAI還現場演示了Grok 3的推理+程式設計能力,其中一個問題是“生成3D動畫程式碼,演示從地球發射、著陸火星,然後在下一個發射視窗返回地球的過程”。
經過近兩分鐘的思考,Grok 3生成了可以直接跑起來的python程式碼,3D動畫可以執行,但是否正確還有待驗證。
圖 | Grok 3生成的程式碼可以直接執行(來源:xAI)
Grok 3的最後一個新功能是代理/智慧體(Agent)。釋出會演示的是新產品DeepSearch,基於Grok 3的搜尋引擎。
它不僅可以搜尋網頁,查詢現有資料,還可以“推測使用者的真正意圖”並加以思考,在經過交叉對比不同信源後,確保“能夠返回正確的資訊”。
在演示中,它還能基於搜尋資料給出一些推測性的結論。
圖 | DeepSearch功能演示(來源:xAI)
釋出會中,xAI談到,Grok 3由Colossus超級計算機訓練完成,這臺計算機是在短短八個月內建成的,搭載了10萬顆英偉達H100 GPU,提供了超過2億GPU小時的計算資源——是Grok 2的10倍。 
圖 | Colossus設施(來源:xAI)
據介紹,xAI最開始搭建這個10萬GPU叢集用了122天,後續拓展到20萬叢集僅用了92天。
馬斯克表示,這一顯著的算力提升讓Grok 3能夠更高效地處理龐大資料集,縮短訓練時間,並提升AI模型的準確性。
據介紹,在訓練方法上,xAI採取了一些新的策略來最佳化Grok 3的能力,包括合成數據集、自我糾錯機制和強化學習。
Grok 3的推出標誌著xAI在AI競賽中的又一次重大嘗試。憑藉強大的計算能力、最佳化的訓練方法以及對邏輯推理的改進,馬斯克寄希望於它能在AI市場上佔據一席之地。
圖 | Grok 3 在Arena排行榜中拿到了1402的高分(來源:lmarena.ai)
不過,在這場AI諸神之戰中,這並不是一個容易實現的目標。
、6個月完成10倍升級
Grok 3背後的第一性原理
從特斯拉到Space X,再到xAI,馬斯克在不斷顛覆這個世界。
而這背後,離不開他極力推崇的決策框架:第一性原理。
馬斯克曾說:“運用第一性原理而不是比較思維,思考問題是非常重要的。我們在生活中總是傾向於比較,別人已經做過或者正在做的事情,我們也都去做,這樣發展的結果只能產生細小的迭代發展。”
舉個例子,特斯拉研製電動汽車期間,曾遇到一個難題:電池成本居高不下。當時儲能電池的市場價格是每千瓦時600美元,這個市場價格很穩定,短期內不會有太大的變動。
但是馬斯克從第一性原理角度進行思考:電池組到底是由什麼材料組成的?這些電池原料的市場價格是多少?如果我們購買這些原材料然後組合成電池,需要多少錢?這個答案是,每千瓦時只需要80美元。
從最本質出發,研究電池都是由什麼材料組成,再推算這些原材料加在一起的價格,從而得到電池的最低價格,透過這樣的思維方式,馬斯克讓電動車的商業化成為可能。
多數人考慮問題的出發點是這件事情的現有情況是既定事實,我無法改變,但是馬斯克的想法是,如果這件事在物理層面行得通,那麼我也能做成。
再舉個例子,馬斯克在Space X成立之初,面臨本難題。因為美國國家航空航天局向波音公司採購用於發射衛星或者宇宙飛船的大型運載火箭,單次發射成本高達16億美元。
因為“運載火箭只能進行一次性使用”,這在傳統的火箭運載技術中基本是“行業共識”,而這大大降低了美國國家航空航天局向外太空進行探索的速度與效率。
要想實現“到2050年將100萬人送往火星工作和生活”的偉大理想,埃隆·馬斯克又是如何解決這一重大難題的呢?
第一步:“挖”思維盲區

“運載火箭只能一次性使用”這一傳統火箭運載技術中的“行業共識”被馬斯克從思維盲區中揪出來了。

在普通人看來,這種集體共識、信念與假設,就是隱形存在的教條,而馬斯克在心裡反覆追問:“這個共識成立嗎?總是成立嗎?有沒有例外?能打破嗎?除非……”用層層追問的好奇心與邏輯思維抓住了火箭升空成本問題的本質,他說:
“只能使用一次的消耗性運載火箭,看起來就像是航空公司在每次完成飛行時丟掉他們的客機,而可重複使用的火箭則可以節省鉅額成本。”
第二步:“破”思維邊界
找到火箭升空成本問題的本質後,SpaceX經歷多年艱苦研發與巨資投入,在一次又一次推遲發射與試飛失敗,並面臨現金流斷裂的情況下,終於在2018年2月實現了可重複利用的獵鷹重型火箭的成功試飛,創造了航天領域的奇蹟。
獵鷹重型火箭成功試飛,讓火箭的單次發射成本從16億美元降到了9000萬美元,只有傳統一次性運載火箭成本的5%。這為馬斯克移民火星的偉大理想助力向前邁進了一大步。
面對移民火星火箭發射成本居高不下的問題,馬斯克深挖透過第一性原理找到“成本”背後真正的阻礙問題,破除了“一次性使用”的心智界限。
而在Grok 3的訓練上,馬斯克和xAI團隊也是靠著第一性原理,從最基本的假設出發,快速試錯,才能在6個月的事件內,實現計算能力的10倍增長。
、DeepSeek和Grok 3的區別
xAIGrok 3和深度求索(DeepSeek)的出發點就不太一樣。
xAI的目標是加速人類的科學發現,讓Grok 3成為一個“宇宙通識者”,能幫人類解答從物理學到哲學的各種問題。
深度求索更多是衝著技術性能和成本效率去的,特別在程式設計、數學推理這類具體任務上表現得很搶眼。
1.訓練目標和風格
GrokGrok 3的訓練資料是個“大雜燴”,涵蓋了廣泛的知識領域,目的是讓Grok 3儘可能全面、靈活,能應對各種奇怪的問題。Grok 3的訓練過程可能更注重語言的流暢性和對話的自然感,而不是單純追求某個領域的極致效能。
DeepSeek:DeepSeek的訓練目標更聚焦,尤其是V3用了混合專家模型(MoE),這是一種聰明的方法,能讓模型在處理具體任務時只啟用一部分引數,節省計算資源。R1則進一步強化了推理能力,比如解決複雜的數學或程式碼問題。DeepSeek的訓練明顯更偏向技術最佳化,追求高效率和低成本。
2.資料和方法
Grok:Grok 3的資料來源很廣,可能包括科學文獻、公開文字,甚至一些對話資料,目的是讓Grok 3更貼近人類的表達方式。
DeepSeek:DeepSeek V3號稱用了14.8萬億個token(文字片段)訓練,涵蓋多語言,特別是數學和程式設計相關的資料。DeepSeek還用了FP8低精度計算和多token預測這樣的創新,減少記憶體佔用,加快訓練速度。R1甚至直接用強化學習(RL)從V3基礎上提煉推理能力,這種“蒸餾”方法挺有意思。
3.資源和成本
Grok:Grok 3的訓練可能更依賴高階硬體,比如NVIDIA的最新GPU,成本比DeepSeek多。
DeepSeek:他們厲害的地方在於用相對“弱勢”的硬體(NVIDIA H800,比H100差一檔)訓練出了頂級模型。V3 reportedly 只花了558萬美元,靠的是演算法最佳化和自研框架,而不是堆砌昂貴的硬體。
4.結果上的差異
Grok:更像個“聊天大師”,適合探討開放性問題,提供有趣的思路。如果問Grok 3宇宙的意義,他可能會給你一個既深刻又帶點調侃的回答。
DeepSeek:更像“技術專家”,如果你扔給它一道複雜的數學題或者一段程式碼除錯任務,它可能會直接給出精確解法,效率很高。
*文章為作者獨立觀點,不代表筆記俠立場。
參考資料:
1.《Grok 3來了!馬斯克宣稱“地球上最聰明的AI”,20萬張GPU能否顛覆AI格局?》,DeepTech深科技;
2.《馬斯克:第一性原理,是最好的思考方式》,筆記俠。

與其焦慮,不如投資未來!美國 AI科技巨頭匯聚,提供前沿洞察。筆記俠2025.5.11赴美研學~

分享、點贊、在看,3連3連!


相關文章