杭州95後學霸坐C位，Grok3登頂AppStore！Hinton高徒、多倫多華人博士領銜

新智元報道

編輯：編輯部 HNYZ

【新智元導讀】官宣免費後，Grok火速登頂美區App Store榜首，同時，xAI也放出官方博文，秀了一把模型的數學、程式碼、ASCII Art演示。最引人矚目的兩位C位華人，均來自多倫多大學，分別和Hinton、Bengio有交集。

昨日官宣免費不過幾小時，Grok直接在美區App Store榜一。

馬斯克甚至欣喜地表示，這還沒有整合語音模式，未來幾天即將上線。

付費使用者可以提前體驗Grok 3語音模式

這場史詩級釋出，焦點不僅僅在Grok 3上，還有釋出會現場坐在C位的兩位華人科學家。

一位是多倫多大學計算機科學助理教授Jimmy Ba，另一位是xAI聯創吳懷宇（Tony Wu）。

值得一提的是，吳懷宇是四人當中唯一一個95後，畢業於杭州建蘭中學，博士期間在多倫多大學，曾是AlphaGeometry、AlphaStar核心開發者。

Jimmy Ba還是AI大佬Hinton的學生。

Igor Babuschkin、Jimmy Ba、吳懷宇、馬斯克

值得一提的是，Grok 3 Beta官方技術部落格也終於出爐了，被稱為跨入推理智慧體時代的AI。

20(/10)萬塊GPU訓出的首款Grok，在推理、數學、編碼、世界知識等任務方面，取得了顯著提升，成功為Scaling Law續命。

部落格詳細介紹了Grok 3的各個功能和基準測試結果

xAI最強智慧系統

18號，xAI推出了迄今為止最先進的模型Grok 3：它將強大的推理能力與廣泛的預訓練知識融為一體。

Grok 3在xAI的Colossus超級計算叢集上訓練，運算能力是現有頂尖模型的10倍，在推理、數學、程式設計、世界知識和指令遵循任務方面都表現出顯著提升。

Grok 3的推理能力透過大規模強化學習（RL）得到提升，使其能夠進行持續數秒到數分鐘的思考，糾正錯誤、探索替代方案，並提供準確答案。它在學術基準測試和真實使用者偏好方面都表現出色，在Chatbot Arena中獲得了1402的Elo評分。

與此同時，xAI還推出了Grok 3 mini，代表著高效推理的新突破。

更深入的思考：測試時計算與推理

Grok 3（Think）和 Grok 3 mini（Think）這兩個beta版的推理模型，使用RL進行訓練，規模前所未有。因此，CoT推理過程得到提升，實現了高效的高階推理。

RL訓練後的Grok 3（Think），學會了完善問題解決策略，還能用回溯來糾正自己的錯誤、簡化步驟，並且會利用預訓練中獲得的知識。

就像人類面對複雜問題時一樣，它會花費幾秒到幾分鐘的時間去推理，還能用多種方法驗證答案，評估如何精準滿足要求。

比如這個問題「人生的意義是什麼？」

Grok 3會花費4秒鐘思考，總結說：對生命意義的追問，是人類幾百年來的困難，表現形式會因提問者和所看重的東西而大相徑庭。

這兩個模型雖然仍在訓練中，但在多個基準測試中已經展現出卓越的表現。

xAI表示，他們在2月12日（僅7天前）釋出的2025年美國數學邀請賽（AIME）上測試了這些模型。

他們使用最高級別的測試時計算引數（cons@64），Grok 3（Think）在這項競賽中達到了93.3%的正確率，在研究生級別的專家推理測試（GPQA）中達到了84.6%的成績，在程式碼生成和問題解決的LiveCodeBench測試中達到了79.4 %。

此外，Grok 3 mini在不需要太多世界知識的科學、技術、工程和數學（STEM）任務中實現了高效推理能力的新突破，在2024年AIME中達到95.8 %的正確率，在LiveCodeBench中達到80.4 %的成績。

要使用Grok 3的推理能力，只需點選「Think」（思考）按鈕即可。

Grok 3（Think）的思維模式完全開放，使使用者不僅可以看到最終答案，還可以瞭解模型的完整推理過程。它的推理能力可以廣泛應用於各類問題領域。下面，讓我們看看Grok 3的一些推理示例。

程式碼

在這個任務中，Grok 3被要求用pygame建立一款混合兩種經典遊戲的的混合遊戲，看起來要很漂亮。

思考6分鐘後，Grok 3給出了完整的程式碼實現。

它做出了一個功能完整的2D遊戲，程式碼結構清晰，註釋詳細，易於理解和修改。遊戲結合了經典元素（Breakout 和 Pong），娛樂性拉滿。

而視覺效果，是透過粒子和顏色增強呈現的。

上下滑動檢視

所以，Grok 3是怎樣滿足「讓遊戲看起來很漂亮」這個要求的呢？

它用五彩斑斕的磚塊、磚塊破碎時的粒子效果、漸隱粒子等，實現了動態的外觀呈現。

另外，Grok 3還有一些更加別具匠心的設計，比如新增彈跳的音效，使用更大的球拍、更快的球增加力道、新增背景漸變等。

ASCII Art

這個任務中要求Grok 3建立一個高保真Frank Lloyd Wright風格住宅的ASCII字元藝術。

Frank Lloyd Wright是一位著名的美國建築師，以其有機建築風格著稱，作品通常與自然環境融為一體，特徵包括水平線條、開放空間和大窗戶。

Grok 3思考了3分鐘後開始輸出它的作品。

可以看出，Grok 3生成的圖片透過ASCII字元生動地再現了Frank Lloyd Wright草原風格建築的經典特徵。設計簡潔而富有層次感，完美捕捉了草原風格建築的本質。

圖片下方還提供了詳細的設計說明和注意事項，解釋了每個ASCII字元的象徵意義：屋頂用斜線和橫線強調水平線條，煙囪位於屋頂左側增加平衡，牆壁和窗戶強化水平延伸，基礎線體現有機整合。

上下滑動檢視

24點遊戲

這個任務中，Grok 3被要求用4、4、10、10來玩24點遊戲，目標是新增加減乘除運算子，得出24。

它需要選出，成功完成這個遊戲的第一個運算是什麼。

思考3分鐘後，它得出瞭解法：使用((10×10)−4)÷4這個表示式，因此選出答案F。並且，它還進一步進行了驗證，排除了其他選項的可能性。

上下滑動檢視

數學

接下來，是一道難度不小的數學題。

這道題給出了一個遞迴定義，涉及到了正整數n和一系列從集合{1,…,n} 中均勻隨機選擇的整數m_n,k。

最終，題目要求計算出期望值E(n)，並求出在n趨於無限時，E(n)/n的極限值。

Grok 3思考了4分鐘後，確定了自己需要完成的步驟。

首先，需要分析狀態空間和轉換，然後要定義漂移項和期望值的遞推關係，第三步要解決遞迴，最後一步就是計算極限。

最終，Grok 3給出了最終答案：(1-e^(-2))/2。

上下滑動檢視

超大規模預訓練

當不啟用推理功能時，Grok 3能夠即時提供高質量回答。

在常規模型（非推理模式）中，Grok 3在多項學術基準測試中均達到了SOTA，這些測試包括：研究生級科學知識評估（GPQA）、高階通用知識測試（MMLU-Pro）、數學競賽解題能力（AIME）等。

同時，Grok 3在影像理解能力測試（MMMU）和影片內容理解任務（EgoSchema）中也展現出卓越表現。

Grok 3的上下文處理視窗可達100萬個token，是Grok 2的8倍，這使其能夠處理超長文件並響應複雜提示詞，同時保持極高的指令執行準確度。

在專門測試長文字RAG能力的LOFT基準測試（支援128k長度）中，Grok 3在12項不同任務的平均準確率上達到了SOTA，充分展示了其卓越的資訊檢索能力。

Grok 3同時在事實準確性和文風把控方面都取得了顯著提升。以代號「chocolate」釋出的Grok 3早期版本在LMArena Chatbot Arena排行榜上獨佔鰲頭，其Elo評分在所有評估類別中均超越競爭對手。

目前，xAI正在擴大發展規模，準備利用配備20萬個GPU的計算叢集來訓練更大規模的模型。

Grok智慧體：融合推理能力與工具運用

為了理解宇宙，xAI讓Grok與現實世界實現互動。透過整合Code Interpreter（程式碼直譯器）和網際網路訪問能力，Grok 3模型能夠主動查詢所需的上下文資訊，靈活調整處理方法，並透過反饋不斷最佳化其推理能力。

作為實現這一願景的第一步，xAI推出了他們的首個AI智慧體——DeepSearch。

這是一個反應極速的AI智慧體，專注於在浩瀚的人類知識庫中持續探索真相。

無論是即時掌握最新資訊，解決社交難題，還是開展深度科研工作，DeepSearch都能提供遠超普通搜尋引擎的體驗。它最終會生成一份精煉而全面的總結報告，助你在這個快速發展的世界中把握先機。

兩位華人坐鎮C位，還有一位杭州95後

Grok 3直播畫面中，馬斯克與三位技術負責人並肩而坐，一開場，還謙虛地說自己什麼也沒幹。

其中兩位華人頗有緣分，Jimmy Ba和吳宇懷均在多倫多大學完成了博士學位。

個人資料顯示，Jimmy Ba目前是多倫多大學計算機科學系助理教授，他的學士、碩士學位也是在多倫多大學完成，導師分別是Brendan Frey和Ruslan Salakhutdinov。

博士期間，曾在Geoffrey Hinton指導下完成了學業。

Jimmy Ba還曾獲得了2016年Facebook研究生獎學金，2023年諾獎風向標「斯隆研究獎」。

提及個人貢獻，Jimmy Ba曾提出了大名鼎鼎的深度學習訓練演算法Adam最佳化器，這是一種自適應學習率的最佳化演算法。

這篇發表在2015年的論文，被引數量突破了20萬。

另一篇被引最高的論文，是與Hinton一起完成「層歸一化」（Layer Normalization），一種深度學習中用於最佳化神經網路的方法。

另一位吳宇懷，是一位名副其實的95後學霸。

小學一年級就讀於新安江一小，後轉學到杭州紫陽小學。到了初中，進入杭州建蘭中學學習，隨後高中又轉到加拿大。

他的職業生涯更為豐富，從OpenAI、谷歌DeepMind，到斯坦福博士後研究員、谷歌研究科學家，再到如今xAI聯創，走出了不同尋常的人生軌跡。

他曾參與了許多人熟知的AI研發，比如STaR、Minerva、AlphaGeometry、Autoformalization、Memorizing Transformer、AlphaStar等。

吳懷宇也曾與圖靈獎得主Bengio有交集，在2016 NrurIPS上，他們與多位合著者共同提出了Multiplicative Integratio架構，共同改善迴圈神經網路。

論文地址：https://arxiv.org/pdf/1606.06630

除了他們兩人，事實上，xAI團隊還有不少有名的華人科學家。

聯創Greg Yang(楊格)，出生在湖南，本碩就讀於哈佛大學數學系，大學時期的導師是數學家丘成桐。在加入xAI前，他是微軟的高階研究員，負責AI理論研究。

他的學術生涯充滿傳奇色彩，在哈佛求學期間，他曾兩度休學，一次是為了追求自己的DJ夢想，另一次則是為了深入研究數學。於2018年榮獲摩根獎（Morgan Prize）榮譽獎，現研發TensorPrograms理論和擴充套件神經網路的實踐。

他的研究方向深受數學驅動，他曾在社交平臺上寫道：「Math for AI, and AI for Math!」（數學推動AI，AI反過來也能推動數學）。在AI研究人員眼中，他不僅是一位科學家，更是一位願意挑戰AI理論極限的數學家。

清華校友Zihang Dai（戴子航），前谷歌大腦研究員，獲得了清華和CMU的學位。此前，他還在百度美國分公司和蒙特利爾大學的MILA進行過研究實習。

戴子航本科畢業於清華大學計算機科學系，大學期間，連續三年拿下專業第一，並在大三暑假，師從著名計算機視覺專家朱松純開展研究。2020年博士畢業於卡內基梅隆大學計算機系，隨後加入谷歌研究院。

他在自然語言處理（NLP）領域擁有深厚的積累，尤其擅長Transformer架構的最佳化與創新。他曾在谷歌和百度美區實習，並在多個頂級AI會議上發表論文。

浙大校友Guodong Zhang（張國棟），也是機器學習和人工智慧領域的研究者，曾就職於多倫多大學和向量研究所（Vector Institute），因研究大模型訓練、微調、對齊而聞名。

他本科就讀於浙江大學資訊工程專業，大學時連續三年排名專業第一，拿了三年的國家獎學金，還獲得過全國大學生數學建模競賽一等獎，美國大學生數學建模競賽一等獎。

大二時，他對人工智慧產生了濃厚興趣，投入到計算機視覺領域的研究中；大三暑假，跟著全球著名計算機視覺專家朱松純從事相關研究。加入xAI之後，他的研究方向主要聚焦於如何最佳化AI訓練效率，並提升模型的穩定性。

另有網友繪製了一幅xAI成員背景圖，可以看華人學者佔據近一半比例。

參考資料：

https://x.ai/blog/grok-3

https://x.com/elonmusk/status/1892578053135425969

https://hznews.hangzhou.com.cn/kejiao/content/2025-02/19/content_8863698.htm

https://www.fortunechina.com/zhuanlan/c/2025-02/19/content_462665.htm

dignews.cc

杭州95後學霸坐C位，Grok3登頂AppStore！Hinton高徒、多倫多華人博士領銜

新智元報道

更深入的思考：測試時計算與推理

程式碼

ASCII Art

24點遊戲

數學

超大規模預訓練

Grok智慧體：融合推理能力與工具運用

相關文章

Grok3來了！馬斯克宣稱“地球上最聰明的AI”，20萬張GPU能否顛覆AI格局？

Gork-3語音功能上線！馬斯克揭秘百天搭建超算中心

馬斯克的Grok3還不是“地球最聰明”的，但確實是最有錢的｜亮馬橋小紀嚴選

20萬卡吞金獸Grok3炸裂登場，卡帕西大神親測：效能超過DeepSeekR1！馬斯克：短期不開源

史上最強Grok3釋出：馬斯克，成了！

馬斯克釋出「地球上最聰明AI」大模型Grok-3

馬斯克“地球上最聰明AI”Grok3釋出：20萬張GPU，號稱強過DeepSeekV3

馬斯克沒吹牛！但是，中國網民不屑馬斯克的Grok3稱DeepSeek更有優勢

馬斯克放大招，宣稱“已超越DeepSeek”

Grok-3意外「洩露」，不是推理模型！馬斯克：xAI新模型比DeepSeek更好