馬斯克20萬GPU訓出史上最聰明AI,Grok4重返地球之巔!人類博士全線潰敗

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 新智元
馬斯克的背水一戰,大獲全勝!
就在剛剛的釋出會上,xAI的重磅炸彈Grok 4,終於在千呼萬喚中登場了。
而它,可以說是全球最聰明的AI!
不僅超越了大多數人類研究生,甚至比博士都好。

左右滑動檢視
左右滑動檢視

釋出會全程1個小時,下面是太長不看的簡單總結:
現在,SuperGrok的使用者已經可以用上了,普通版月費30刀,Heavy版月費300刀。
同時Grok 4 API也已向所有開發者正式開放,並將登入第三方雲平臺。
剛從政壇上鎩羽而歸,卻在AI界王者歸來。
果然,馬斯克還是那個傳說中打不敗的男人。
完整直播可點選觀看

20萬塊GPU,成績刷爆HLE

在各種考試和基準測試中,Grok 4的成績驚人。
比如,它在SAT中每次都能拿滿分,即使從未見過這些題目。
而在GRE考試中,它在所有學科領域,都能拿到近乎滿分,無論是人文學科、語言、數學、物理還是工程。
可以說,在所有學科領域,Grok 4都比幾乎所有人類研究生都要聰明。
怎麼做到的?馬斯克進行了揭秘。
首先,比起Grok 2,Grok 4的訓練時間達到了Grok 2的100倍。
從Grok 2到Grok 3,xAI投入的主要是預訓練算力;但從Grok 3到Grok 4,大量算力已經被投入到推理和強化學習中。
透過訓練Grok 2,團隊第一次大規模擴充套件了預訓練。
這讓他們意識到:如果對資料消融、基礎設施和演算法進行更細緻的處理,將預訓練的規模可以再提升10倍,從而打造出最頂尖的預訓練基礎模型!
網友直呼:xAI在強化學習上投入的算力,竟然和預訓練一樣多?這太瘋狂了!
這就是為什麼,xAI要斥巨資建起有10萬塊H100的世界級超算Colossus超算。
如果能收集可驗證結果的獎勵資料,就可以訓練模型從第一性原理出發進行思考、推理、糾正自身錯誤,這就是Grok 2推理能力的由來。
那麼,接下來,如果把Colossus超算的20萬GPU全部都投入,會發生什麼?
答案就是——Grok 4的誕生!
在 「人類最後考試」HLE上,Grok 4直接成績刷爆,分數驚人。
HLE總共有2500道問題,涵蓋了多個學科,今年早些時候剛釋出時,大多數模型的準確率得分僅為個位數。
原因就在於,HLE的考題極難,比如下面這些題,分別是一道關於範疇論中自然變換的數學題、一道關於電環化反映的有機化學題,以及一道從希伯來語原文中區分閉音節和開音節的語言學題。
顯然,這些題目已經達到了博士級,甚至更前沿的難度。
幾乎沒有任何一個人類,能答對所有這些問題,並且取得高分。如果能答對5%,就算人群中極聰明的人了。
然而,Grok 4卻在HLE的所有領域,都達到了博士級別,甚至勝過了大多數人類博士生,因為後者大機率都會不及格。
當然,如果要說Grok 4目前有什麼缺憾,就是還未發明出新的技術,或者發現新的物理學。
但馬斯克認為,這只是時間問題——最早在今年年底,Grok就會發明出新技術,明年它就會發現新的物理學。
海量算力,訓出全球最聰明AI
團隊研究者爆料說,其實剛開始,Grok 4的準確率也只是個位數。
但隨著投入的算力越來越多,奇蹟發生了!最終,它做出了HLE中1/4的難題,這還是在沒有工具輔助的情況下。
而在被賦予工具使用能力,將工具使用直接融入訓練過程後,Grok 4的效能開始了驚人的暴漲。
而且,目前Grok 4還未使用任何公司級的強大工具。
如果給它提供企業級的工具,比如特斯拉或Space X使用的有限元分析、計算流體力學、碰撞模擬,以及高精度的物理模擬器,那麼毫無疑問,Grok 4還將發生顛覆級的改變!
比如,如果把Grok和擎天柱結合,它就可以和真實世界互動,提出假設,親手驗證真偽。
「重量級」Grok Heavy登場
除了算力的問題,我們還需要解決的一大難題,就是如何突破資料瓶頸。
RL的原則,就是不僅要找到大量有挑戰性的強化學習問題,還要有可靠的訊號告訴模型,它做對了還是做錯了。
然而,如今我們已經快找不到可用的測試題了!大多數人類無法解決的難題,對AI已經開始變得輕而易舉。
好在,我們還有一個絕佳的裁判,那就是現實。物理學是終極法則,對AI最終的推理測試,就是現實世界。
讓我們設想一下,如果單個AI智慧體能解決40%的問題,那麼同時執行多個智慧體呢?
這,就是所謂的測試時計算(test-time compute)。隨著它的擴充套件,Grok 4已經能解決HLE中超50%的純文字題目。
而如果並行生成多個AI智慧體,Grok 4 Heavy就誕生了!
這些智慧體會獨立工作,互相比較各自的成果,決定哪個更好。一旦有智慧體發現了關鍵解決方案,就會分享給其他智慧體,最終它們透過交流,得出最終答案。
這就是Grok 4之所以「Heavy」的原因,因為測試和計算的規模擴大了一個數量級。
· Grok 4 Heavy驚人演示
Grok 4 Heavy,已經進化到可以不止會考試,還能解決真實世界中各種刁鑽的問題!
比如,我們可以讓它預測當前美國職業棒球大聯盟(MLB)各隊的奪冠賠率。
它能計算出,洛杉磯道奇隊是今年的奪冠熱門,獲勝機率為21.6%。
並且,我們還能讓它生成兩個黑洞碰撞的視覺化影像。
在下圖中可以看到,從兩個黑洞相互旋進開始、合併、到達鈴振階段,這個碰撞過程大致是正確的。
尤為精彩的是,它使用了後牛頓近似法,而非計算黑洞中心附近的廣義相對論效應。
也就是說,它進行了一個真實的模擬,對該使用的物理常數進行了相當多的推理。
另外,它還能發現X上頭像最詭異的xAI員工。
要知道,最神奇的地方就在於,它竟然理解了什麼是「詭異」。
如果說Grok 4有什麼弱點的話,就是目前它還是「部分失明」,影像理解能力和生成能力都比較弱。
不過令人期待的是,Grok 4是xAI目前訓練的第六版模型,第七版已經在訓練中了!
對於所有AGI模型來說,最權威的測試就是ARC-AGI了。
在直播前24小時,ARC-AGI團隊接到xAI電話後,才開始了Grok 4的跑分測試。
結果顯示,Grok 4是唯一一個成績突破10%的模型。
具體來說,Grok 4(Thinking)在ARC-AGI-2重新整理了SOTA,準確率為15.9%。
在ARC-AGI-1上,它的成績達到了66.7%。同時,Grok 4實現了每美元智慧成本的最最佳化。
ChatGPT和Grok 4現場飈語音
此外,研究人員還改進了Grok 4的「語音模式」,延遲率直接減半,還新增了兩種全新的音色——
Sal:擁有深沉的聲線 
Eve:音色優美的英倫女聲,能演繹豐富的情感
接下來,直接進入demo。xAI員工開啟Grok問道,「現在正在有數百萬人觀看我們直播,你感到興奮嗎」?
Eve好像真的就在直播現場,激動地表示,「這就像站在老維克劇院的舞臺上,看著臺下人山人海」。
它還會低聲細語,說了一些能夠讓xAI員工不再緊張的話。
不僅如此,Eve現場還獻上了一段非常優美的歌劇,還能、即興表演隨時更換曲調,讓人聽著陶醉。
更有趣的是,為了測試Grok 4的反應速度,xAI員工直接讓ChatGPT和Grok同臺PK。
任務是,我說一句,你說一句,跟讀數字。
ChatGPT的反應有些遲緩,而且並沒有依據指令跟讀,自主說一些不相關的話。
此時,Grok的表現令人驚豔,一步一步跟著讀了下來。
最後,研究人員總結到,自Grok模型上線以來,在過去八週的時間,實現了端到端延遲提速2倍,新增了5種不同音色,活躍使用者量更是增長了10倍。
足見,Grok語音功能正在飛速發展。
Grok 4賣貨,年入47億填補GPU巨銷
那麼,Grok 4在現實生活中能做什麼?
賺錢!!!
在Vending-Bench商業場景的基準測試中,Grok 4能夠長期運營自動售貨機,並且成為了榜單第一。
在此過程中,它不僅要完成庫存管理,還得與供應商談判、製作定價策略等任務。
這些任務看似簡單,但要求模型「長期持續運營」,只有Grok 4能夠賺到,淨資產也是所有模型兩倍。
釋出會上,馬斯克半開玩笑表示,「這下我們GPU算力開銷有著落了。只需要部署100萬臺自動售貨機,年收入就能達47億美元」。
看來,下一步Grok 4也要為自己打工了。
此外,Grok 4的誕生,將帶來生物醫藥、金融等跨領域的突破,重塑商業AI正規化。
如下demo所見,Grok正成為企業級的智慧Copilot,擁有256k的上下文視窗,前沿的多模態推理,即時的資料搜尋,以及企業級的安全能力。
4小時,肝出爆款射擊遊戲
更令人激動的是,Grok 4在AI遊戲即時生成領域,大有前途。
現場,員工展示了AI遊戲設計師Danny Limanseta,在極限4小時內,製作出了第一人稱射擊遊戲。
馬斯克預言,「首個真正優質的AI電子遊戲可能會在明年問世,今年或許能看到半小時長度的可觀看AI劇集,而首部AI電影很可能在明年誕生」。
在未來路線圖中,xAI還計劃釋出編碼模型、多模態智慧體和影片生成模型。
釋出會最後,螢幕上出現了道格拉斯·亞當斯《銀河系搭車客指南》第四部的書名——《再見,謝謝所有的魚》。
果然,還是那個我們熟悉的科幻迷馬斯克。
文明奇點已至
馬斯克激動表示,我們正處於智慧大爆炸的起點。奇點時刻已經到來,這是人類歷史上最激動人心的時代。
而此時最重要的,就是打造一個好的AI,一個善良的AI,讓它去最大程度地追求真理。
如果把AI看作一個超級天才的孩子,它最終一定會比人類聰明,而我們能做的,就是開始就給它灌輸正確的價值觀,讓它追求真實、正直、善良。
給AI算力,加上正確的工具,最終還要和物理世界互動,到時,我們的經濟體量將會是現在的數千倍,甚至數百萬倍!
馬斯克說,如果把文明程序看作是完成卡爾達肖夫等級的百分比,那我們距離1級文明的10%還很遠,可能只完成了1%或2%。
1級文明利用整個行星的能源;2級文明利用整個恆星的能源;3級文明利用整個星系的能源
如果文明沒有自我毀滅,我們就會邁向2級文明。跟那時相比,我們今天的經濟水平,會像穴居人往火裡扔木棍一樣原始。
馬斯克承認,親手創造出這樣一個遠超人類自身的智慧,也令人有些不安——它對人類究竟是好是壞?
最終,他說服了自己:這個AI大機率是好的,就算不是,自己也要活到親眼見證這一切發生的那一天。
馬斯克,背水一戰
如今,馬斯克真的是破釜沉舟,背水一戰了。
本來是特朗普競選的最大功臣,最近他卻成了「大而美法案」的最大輸家,隨著「特馬同盟」的徹底崩塌,馬斯克似乎已經無牌可出了。
首先,隨著「大而美法案」的出臺,7500美元的電動汽車購車稅收抵免,已經提前至2025年9月30日終止,從此,特斯拉每年的利潤損失將高達17億美元。
而DOGE前期的努力,也隨著大而美法案中的大規模赤字擴張而付諸東流。
政壇的失意,讓馬斯克全美業務的關鍵佈局,包括電動汽車、Space X、腦機介面、加密貨幣等,商業利益全面被連累。
在這種背景下誕生的Grok 4,可以說是馬斯克最後的希望。
終於,這次釋出會上他用Grok 4告訴全世界:我手裡還有最後一張牌。
Grok團隊中,華人學者佔據半壁江山
參考資料:
https://x.com/i/events/1942716886258528256

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章