PyTorch靈魂人物出走,被Ilya奧特曼搶破頭!放棄大廠offer,卻選擇了ChatGPT之母


新智元報道  

編輯:桃子 好睏
【新智元導讀】PyTorch機器學習大神Horace He宣佈,正是離職加入OpenAI前CTO初創Thinking Machines。這位技術奇才,曾被OpenAI、SSI、谷歌等頂級AI實驗室爭相邀請,最終選擇了剛剛成立的初創。他的選擇,不僅是個人職業生涯的轉折,更是對AI未來發展方向的一次戰略性押注。
PyTorch大牛Horace He突然官宣,加盟Thinking Machines。
「在Meta,離職時釋出一張工牌照片是一種傳統。遺憾的是,我找不到我的正式工牌了,所以只能用臨時工牌代替」
畢業後,在Meta的PyTorch工作4年後,Horace He終於決定換一種職業,探索一些新的事物。
在最新部落格文章中,他解釋了關於離職PyTorch,以及加盟TM的兩大原因:
  • 為什麼在PyTorch待了4年?
  • 為什麼Thinking Machines對其如此有吸引力?
全文連結:https://www.thonking.ai/p/why-pytorch-is-an-amazing-place-to
前OpenAI CTO,Thinking Machines創始人Mira Murati第一時間發文,很激動能夠一起共事。
斯坦福AI實驗室教授表示,「Horace He的離職對Meta來說,是一個巨大的損失」。
PyTorch之父Soumith Chintala更是給予了高度評價:

你對PyTorch的貢獻,以及間接對AI世界的影響,將永遠被低估,甚至可能在幾年後就被抹去(就像歷史記錄常常會發生的那樣)。
所以,我想鄭重地說:這對PyTorch專案來說是一個巨大的損失。如果沒有你,PyTorch過渡到編譯模式,以及在生成式AI浪潮中保持競爭力將會難上無數倍。

那麼,如此厲害的大牛,為何離職加盟Thinking Machines?
OpenAI、SSI矽谷大廠為他爭破頭
坦白說,這件事不太好開口。
在PyTorch工作了大約4年後,我決定離開PyTorch,加入Thinking Machines擔任創始團隊工程師。
這裡,我想特別強調的是「加入Thinking Machines擔任創始團隊工程師」,而不是「離開PyTorch」。因為我一直(並將繼續)很享受在PyTorch的工作,並且我也很樂意再待上4年。
在過去幾年裡,有幾次當我跟人聊天時,對方都對我仍在PyTorch工作表示驚訝。
這不是要自誇,但這也絕對不是因為缺少機會——我曾收到OpenAI、Anthropic的職位邀請,也被xAI、SSI、Adept、Inflection等公司招募為創始工程師,還拿到許多其他你可能熟知的初創公司的職位邀請。
現在回頭看,這些機會中的許多本可能帶來更豐厚的報酬,但我從未後悔留在PyTorch。
接下來,我想分享為什麼我享受在PyTorch工作的這4年,以及是什麼促使我決定加入Thinking Machines。
PyTorch這四年,很享受
與PyTorch的緣分
我覺得,稱自己為AI的「忠實信徒」,應該很恰當。
自從高中時看到AlphaGo比賽,並讀了WaitButWhy關於AI的文章(雖然十年後再看未必經得起推敲),我就堅信AI將是我一生中最重要的技術。
相應地,從2016年進入大學起,我所做的大部分事情都與AI相關。
選修機器學習課程、建立一個本科生機器學習研究社團、發表論文,甚至連女朋友(現在已經是未婚妻)也是在一起做機器學習研究時認識的。
然而,單純做機器學習研究,有幾點讓我感到不盡如人意。
首先,雖然我發表了論文等成果,但即使在當時,我也不太確定我所做的研究是否真的「有意義」。
研究中一個令人沮喪的現實是,回顧歷史,99%的論文最終都不會成為真正推動AI進步「主流發展方向」上的一部分。
從悲觀角度看,任何花時間研究n-gram模型的博士基本上都是在浪費時間——他們的論文和論著最終都被歷史所遺忘。
雖然即使不在主流方向上的論文仍然可能有價值(比如展示現有方法的侷限性,為新方法提供可超越的基準),但這個疑慮一直縈繞在我心頭。
其次,我從未能很好地適應機器學習中那種「實驗驅動」的工作模式——我的工作風格比較不規律,時而深度思考,時而集中編碼。
而成為一名優秀的機器學習實驗者需要極強的自律性——這是一個不斷迴圈的過程:提出假設=>執行實驗=>獲取上一個實驗的結果=>提出新的假設,通常還要同時管理多個實驗階段。
在機器學習研究中,你面臨著物理資源限制(GPU),要成為一個好的研究者,你必須學會充分利用GPU資源進行實驗。
總的來說,我最終更傾向於「系統」領域。這不僅是一個我認為能發揮自己優勢的方向,我也一直很欣賞系統工作的影響力。
與其直接產生影響,不如透過提升成千上萬甚至數百萬人5%的工作效率來間接創造更大的價值!
就這樣,我找到了自己的職業定位——不是直接投身於推動機器學習技術的發展,而是專注於構建基礎架構,幫助其他人加速機器學習領域的創新。
當然,中間經歷了不少波折,但這就是我最終與PyTorch結緣的故事。

PyTorch對行業的影響力

隨著這個領域(還有資金)在過去10年的爆炸式增長,我覺得人們很容易忽略PyTorch究竟產生了多麼深遠的影響。
或許追蹤這個領域資金流向最直觀的指標就是英偉達的股價了,它主要受伺服器GPU銷售增長的推動。
我認為可以合理推測,至少75%的這些GPU都在執行某種形式的PyTorch程式碼。
這簡直令人難以置信。英偉達增長了約3萬億美元的市值,而PyTorch在這一成就中功不可沒。
不僅如此,在整個機器學習社群中,PyTorch依然是大家的「通用語言」。
Papers With Code追蹤的研究論文中有59%使用PyTorch(另有29%不使用任何機器學習框架),Huggingface平臺上絕大多數模型(超過90%?)都構建在PyTorch之上,最受歡迎的推理伺服器如vllm和sglang也都是基於PyTorch開發的。
即使在頂尖AI實驗室中,幾乎所有使用GPU的公司都在用PyTorch。OpenAI、Mistral、Deepseek和Meta主要使用PyTorch(和GPU)。Anthropic也主要在GPU上使用PyTorch,而xAI(雖然在GPU訓練上使用Jax)也透過sglang使用PyTorch進行推理!
在高中時期,我最擔心的事情之一就是自己會花上10年時間投入某個專案,最後卻發現我浪費了大好時光去完善一個無人問津的東西。
而在PyTorch工作的最大幸運之一,就是我確信自己絕對沒有做這樣的無用功。

PyTorch對我的影響

我的整個職業生涯(到目前為止)都在PyTorch度過,所以,除了PyTorch的整體影響外,我想聊聊為什麼我如此享受這裡的日常工作。
· 目標共識
創業公司最棒的事情之一是「目標共識」。因為你的大部分薪酬都與股票升值掛鉤,所以「我的同事大獲成功」和「我們所有人都大獲成功」其實是一回事。
而在大型科技公司,人們的薪酬主要與個人績效評分(和晉升)掛鉤。因此,如果你開始研究一種方法,而其他人提出了一種不同的、非常成功的方法(並取代了你的方法),你的績效評分很可能會下滑,晉升機會也會隨之渺茫。
然而在PyTorch,專案中的許多人都有著共同的使命感 ——他們真心在乎PyTorch的整體成功及其對機器學習生態系統的影響。
我當然不會說團隊中100%的人都是如此,但已經足夠多(尤其是在資深人士中),這讓工作體驗變得更加愉快。
· 真正致力於開源
Soumith(和其他領導層)在PyTorch營造重視開源的文化氛圍方面做得非常出色。
還有許多其他恰好是開源的專案,但你通常只能透過優先考慮內部專案來獲得晉升和影響力。
在PyTorch不是這樣,我可以說我在這裡的全部時間主要專注於開源影響力,而且我在評級和晉升方面都很成功。(當然,也有其他主要關注內部影響的同事同樣非常成功)。
在其他方面,重視開源也會讓整個專案更加健康。
· 不可操控的影響力
在大型科技公司中,我不太喜歡的一種現象是我稱之為「規劃導向的採用模式」。這是指兩位經理/主管/副總裁聚在一起,同意應該使用X專案(可能會淘汰Y專案),然後專案的採用被列入幾個團隊的規劃路線中。
雖然這當然有其優勢(在某些情況下甚至是完全必要的),但我發現以這種方式採用的專案往往差強人意。
此外,這些專案的成功常常是一種虛假繁榮 – 只要有某位副總裁贊助專案,它們就會繼續存在,但最終人們會厭倦它,副總裁會在內部博弈中失勢,或者副總裁只是改變了主意。基本上,在規劃導向的開發中,最重要的環節是說服一些「關鍵決策者」採用你的專案。
另一方面,開源世界是真正的自由市場。開源使用者根本不在乎扎克伯格是否全力支援某個專案。
開源使用者只關心兩點:1. 你是否解決了他們面臨的問題,2. 他們是否喜歡使用你的軟體。
Mike Schroepfer(Meta前首席技術官)也表達了類似的觀點。我甚至無法想象作為一名首席技術官獲得「真實」反饋有多難,因為你交談的每個人都知道你可以單獨決定他們的晉升或獎金。
而開源世界提供的是一種令人耳目一新的、不可操縱的真實反饋。

· 有趣的技術工作

許多工程師的一個擔憂是他們無法解決有趣的技術問題——在PyTorch上這方面絕不缺乏。
有些專案實現了用於機器學習的Python位元組碼直譯器JIT(如TorchDynamo),有些專案致力於達到矩陣乘法的光速效能,有些專案需要你經常深入研究PTX文件,有些專案全是關於符號形狀的推理(sympy、z3等),還有很多很多。
這裡要解決的問題還有很多。這裡,大家可以考慮加入PyTorch團隊。
加入Thinking Machines,這4點足矣
既然我剛剛寫了太多關於我為什麼喜歡在PyTorch工作的內容,那麼為什麼我會加入Thinking Machines?
更重要的是,為什麼Thinking Machines是那個最終說服我的機會?

一群我非常想與之共事的人

眾所周知,沒有優秀的人才,創業公司什麼都不是。而Thinking Machines確實擁有一些非常優秀的人才!
比如,有當初發布「研究預覽版」的研究員John Schulman、Barrett Zoph、Luke Metz,有在Meta、OpenAI、Character.AI等公司領導預訓練工作的專家,還有在OpenAI/Mistral領導多模態工作的人才,以及有極其出色的基礎設施工程師。
當然還有世界上最大AI公司OpenAI前CTO(以及短暫擔任過CEO的)Mira Murati。
然而,或許比團隊的實力更讓我印象深刻的是,團隊的友好氛圍。

一個驚人,且不對稱的機會

作為一家創業公司的創始工程師,一個不公平的優勢是,機會成本的不對稱性。
例如,如果我以創始工程師的身份加入Thinking Machines,然後一年後發現自己判斷失誤,轉去另一個實驗室,我的職業角色可能不會有太大變化!
我仍然可以加入一家已經成立的公司,而且職位可能與今天相當相似。
然而,如果我現在拒絕但一年後再加入Thinking Machines,我的角色將會大不相同。
當然,不只是薪酬的變化,但更重要的是,我的話語權和影響力將會大打折扣。一家公司的文化和方向主要由創始團隊確定,而這是我在OpenAI或Anthropic沒有機會獲得的。

一種與我產生共鳴的積極AI成果的方法

然而,也許最重要的是,Thinking Machines追求積極AI成果的方法——研究與產品共同設計以及開放科學——與我產生了共鳴。
如上所述,自高中以來,我就確信AI將是我們這一生中最重要的技術。然而,這並不等同於說它必然會帶來最大的益處。
總的來說,我認為自己是一個技術樂觀派。
也就是說,我相信人類的生活在過去1000年裡有了極大的改善,而這主要是由技術創新推動的。
在很多方面,AI是世界上有史以來最具技術加速主義特性的技術——一項有潛力解決我們面臨的所有其他技術挑戰的單一技術。
正因如此,AI的潛在積極影響值得我們去追求。
當然,不良後果也是可能發生的,而且由於AI的潛在影響,不良後果似乎比其他技術帶來的風險更為嚴重。
總的來說,我將AI的不良後果分為以下幾類:
  • 濫用:壞人利用AI做壞事
  • 錯位:好人使用AI,但AI本身最終做了壞事
  • 社會影響:人是好的,AI是好的,但我們最終還是得到了不好的結果(最擔憂的一點)
這樣認為的主要原因是,社會自然對錯位和濫用有強烈的「免疫反應」。當涉及到潛在有害的技術時,社會有一個明確的應對方案——如果發生了壞事,就增加限制(比如監管GPU)或法規(比如強制進行更多的安全監督)。
當然,AI不是一種普通的技術,但具體來說,我認為在真正災難性的濫用或錯位發生之前,會有很多警告訊號。
即使AI在錯位之前隱忍不發(例如,欺騙性錯位或背叛性轉變),我認為第一個這樣做的AI系統不太可能成功——它需要比人類和其他AI強大得多。
另一方面,負面社會影響似乎更加直接可信。即使現在,頂級AI實驗室的保密性確實讓我感到不舒服(雖然我理解為什麼要這樣做)——我實在受不了那些故弄玄虛、含糊其辭的言論了。
此外,AI知識在意識形態和地理上的集中似乎並不理想——隨著AI專業知識變得越來越受歡迎,絕大多數AI秘密都集中在舊金山周圍50英里的半徑內,這導致了權力不平衡和單一文化。
如果我們需要使AI與人類價值觀保持一致,那麼所有這些人都應該住在舊金山嗎?

為什麼我被Thinking Machines的使命所吸引

廣義上講,Thinking Machines的使命有兩個主要方面吸引了我。
1. 專注於產品和廣泛的AI擴散
在我看來,更廣泛的社會穩定性的最重要方面之一是社會向使用AI系統過渡的平穩程度。與結果同樣重要的是人們如何感受我們達到這個結果的過程。
例如,ChatGPT並沒有真正讓許多機器學習研究人員感到震驚——他們已經見過GPT-3,他們已經見過GPT-3提示詞能做什麼,ChatGPT只是一個便利功能。
然而,ChatGPT絕對讓社會其他人感到震驚。這是更廣泛的社會第一次意識到最先進的大語言模型可以做的所有事情,社會對此感到震驚。然而,自那以後,ChatGPT在更廣泛的社會中變得更加常態化——人們有點像經歷了「享樂適應」(人們對新事物的興奮感會隨時間逐漸減弱)。
但是,還有更多可以做的事情。即使在今天,第一次接觸ChatGPT的普通人與那些已經將AI深度整合到工作流程中的人之間仍然存在巨大差距。
此外,我相信構建能夠協助人們合作而非完全自主的AI智慧體的產品有很大潛力。我想到的一個有趣的方式是「最大化勞動力而非資本的價值」。
2. 開放科學和系統
如上所述,對社會來說,這些AI系統的構建知識如此保密似乎並不是好事。這不僅會引起人們對這些AI實驗室的不滿,還會使社會更難在這些AI系統的基礎上進行創新和發展!
例如,Deepseek最近釋出的論文和程式碼幫助更廣泛的社群更好地理解未來什麼技術會有用(比如Online RL)。
就我個人而言,這也是我當初投身PyTorch專案的重要動力之一。優質的開源系統有助於整個生態系統的發展,能讓更多人參與到AI系統的構建中來。
我還想指出,雖然開放科學/系統當然是一個很好的理想,但現實中也存在經濟因素的考量。
在我看來,這正是專注於產品開發的價值所在。像Meta或谷歌這樣的公司不需要對他們使用的實際技術高度保密——基本上,他們的大多數核心系統和方法社群都已經廣泛瞭解。另一方面,如果你的產品僅僅是一個輸入token和輸出token的API介面,那麼你唯一的優勢就是你的模型的具體能力。
公司的文化和預設做法也極其重要。這些AI實驗室有很多東西可以開源而不影響他們的競爭優勢——他們之所以不這樣做,只是因為他們的預設做法是閉源,而要改變這一點,他們需要論證為什麼某些東西應該開放。
相比之下,PyTorch在這方面採取了相反的做法。我們所有的程式碼都是開源的,我們的路線圖是公開的,我們的一些設計會議也是公開的。因此,如果你不希望某樣東西是開放的,你必須論證為什麼它應該是閉源的。
正如奧特曼所言,他認為OpenAI應該開源更多東西。然而,這不是當前最高優先順序。

關於積極AI結果的總體思考

總的來說,我認為Thinking Machines關於廣泛AI擴散和協作開放科學的使命,是一個很有說服力的策略,能夠有效應對AI帶來的社會影響問題。
當然,還有其他必要的方法(比如政策制定),但Thinking Machines的使命與我個人價值觀高度契合,也是我認為自己能夠做出貢獻的領域。
最終想法
作為創始工程師加入Thinking Machines的機會幾乎滿足了我所有的期待條件。
  1. 一個實力雄厚的團隊,既有我之前就很享受共事的夥伴,也有其他我認為會愉快合作的人才。
  2. 能夠從一開始就參與並對一家極具發展潛力的公司的方向和文化發表意見。
  3. 一個對我來說獨特且富有吸引力的使命(產品專注+開放科學),有望帶來更好的AI發展成果。
  4. 最後,從感性角度來說,開放科學和系統這一方面讓我能夠繼續做我在PyTorch工作中最喜歡的事情——與人們討論AI系統並透過開原始碼產生廣泛影響。
我之前遇到的機會幾乎沒有一個能同時滿足這些條件中的兩個,更不用說全部四個了。
當考慮這個機會時,我清楚地記得自己想,「如果連這個機會都不能讓我離開PyTorch,那我可能會永遠在PyTorch工作下去」。
儘管這是一個非常艱難的決定,但我非常期待能在Thinking Machines構建一些很酷的專案!
參考資料:
https://x.com/cHHillee/status/1896973303241400704
https://www.thonking.ai/p/why-pytorch-is-an-amazing-place-to

相關文章