隨著 Meta 加大挖人力度、OpenAI 內部動盪不斷,員工流動早已見怪不怪。但今天這位剛離職三週的員工 Calvin French-Owen 寫下的自白,提供了一個不加濾鏡的內部視角。
他在去年 5 月加入 OpenAI,恰好趕上這家公司聲量最大的一年。他見證了公司從一千人擴張到三千人,也親手推動了 Codex 專案從原型到正式上線。
外界習慣把 OpenAI 想象成一個高度集中、協同作戰的超級團隊。但真實的 OpenAI 更像一個由無數小團隊並行推進的集群系統,沒有統一路線圖,也很少節奏同步,執行勝過流程,研究方向往往不是由上而下指定,而是透過激起研究員的興趣或挑戰慾望,讓他們主動去解題。
比如 Codex 的釋出,僅用了 7 周,全靠一小撮人硬拉上線。在他看來,OpenAI 身上保留著一種老派的技術理想主義:目標是 AGI,哪怕出錯也沒關係,改了接著幹——但絕不會等大家都點頭才啟動專案。
這是一份離職者的覆盤,也是一份參與者的記錄。撕掉光環濾鏡之後的 OpenAI 遠比外界想象中更混沌,也更真實。
附上部落格地址:https://calv.info/openai-reflections
我在三週前離開了 OpenAI,我是在 2024 年 5 月加入這家公司的。
我想分享一些自己的感受,因為現在關於 OpenAI 的討論很多,但真正瞭解在那裡工作文化的一手經驗卻不多。
Nabeel Quereshi 寫過一篇很棒的文章,叫《Reflections on Palantir》,他在裡面探討了 Palantir 的獨特之處。
我也想趁記憶還新鮮,對 OpenAI 做個類似的回顧。這裡不會涉及任何商業機密,更多是一些關於這個歷史上最令人著迷的組織之一,在一個極具意義的時刻,它的現狀和氛圍的個人觀察。
先說明一下:我離開的決定並沒有任何個人上的戲劇性,事實上我對此非常糾結。作為一個曾經創辦過自己公司的創業者,再回到一個擁有 3000 人的大公司做員工,這個轉變並不容易。現在我更希望有一個新的開始。
畢竟,很難想象還有什麼事情能比構建 AGI 更有意義,而大語言模型無疑是這十年來最重大的技術創新。我感到非常幸運,曾經親眼見證了一些關鍵的發展,也參與了 Codex 的釋出。
顯然,下面這些只是我個人的看法,不代表公司立場。OpenAI 是一個龐大的組織,而我只是在其中的小小視窗。
瞭解 OpenAI 的第一件事,就是它的發展速度有多快。我剛加入時,公司只有一千多人。一年之後,已經超過三千人,而我就已經排進了公司資歷最久的前 30%。幾乎所有領導層的人都和兩三年前的職責完全不同了。
在這種極端擴張速度下,很多東西自然都會出現問題:公司內部溝通、彙報結構、產品釋出流程、人力組織與管理、招聘制度等等。
不同團隊的文化也差異很大:有的團隊始終處於衝刺狀態,有的負責大規模執行的維護,還有一些以更穩定的節奏推進。可以說,沒有所謂統一的 OpenAI 工作體驗,研究、應用和市場推進團隊的時間節奏也完全不同。
OpenAI 的一個特別之處是:所有溝通,真的是所有溝通,幾乎都發生在 Slack 上。公司沒有內部郵件系統,我在整個任職期間大概只收過 10 封郵件左右。如果你不夠有條理,那 Slack 會讓你非常分心;但如果你能精心管理頻道和通知,其實也能很好適應。
OpenAI 在研究方面非常注重「自下而上」的推動。當我剛入職時,我問了一下下個季度的計劃是什麼,得到的答覆是:「這還不存在」(雖然現在已經有了)。
好的點子可以來自任何人,很多時候事先也很難判斷哪些想法最終最有價值。與其說有一個宏大的「總計劃」,不如說是在不斷試驗中尋找成果,研究的推進更多是循序漸進、隨成果而來的。
正因為這種「自下而上」的文化,OpenAI 也是一個非常重視能力的地方。在公司內部,領導者的晉升往往取決於他們是否能提出優秀的想法並切實落地執行。很多非常有能力的領導者,在公司全員大會上演講或搞政治手腕方面並不擅長。但這些在 OpenAI 並不太重要,遠不如在其他公司那麼關鍵。好點子通常確實會脫穎而出。
公司內部有一種很強的「行動偏好」(你可以直接去做事)。不同但相似的團隊有時會在沒有協調的情況下,不約而同地想到類似的方案。我剛加入時就在做一個和 ChatGPT Connectors 類似的內部專案。
當時大概有三四個不同版本的 Codex 原型在同時推進,最後我們才決定集中力量進行正式釋出。這些專案大多由少數幾個人發起,不需要事先獲得批准。一旦專案有了起色,團隊就會自然地圍繞它迅速組建起來。
Codex 的負責人 Andrey 曾告訴我,你應該把研究人員看作是「迷你執行官」。大家都有強烈的傾向想獨立推進自己的想法,看看會有什麼結果。對應的現象是,大多數研究專案都是透過「技術激將法」(讓研究員對某個問題產生興趣)來推動的。如果一個問題被認為無聊或已經解決了,那幾乎沒人願意再去碰它。
優秀的研究管理者影響力非常大,但資源也非常有限。最出色的管理者,能夠把多個不同的研究方向串聯起來,從而促成一次更大規模的模型訓練。優秀的產品經理也是一樣的道理(特別感謝 ae)。
我合作過的 ChatGPT 工程管理者(Akshay、Rizzo、Sulman)都是我見過最有經驗、最穩的人。他們給人的感覺就像什麼都見過了。他們大多數都不過度干預,但會盡力招到合適的人才,並確保他們具備成功的條件。
OpenAI 的方向轉變非常迅速。這一點在我們過去的公司 Segment 就被非常看重——當你有了新的資訊時,果斷調整方向遠比固守既定計劃要明智。
令人驚訝的是,像 OpenAI 這樣規模的公司,竟然還能保持這樣的思維方式——Google 顯然已經做不到了。OpenAI 的決策速度非常快,一旦決定朝某個方向走,就會全力以赴地推進。
公司目前面臨著極大的外部關注。對我來說,來自 B2B 企業背景,這種情況一開始讓我頗為震驚。我經常看到媒體報道一些內部都還沒正式公佈的新聞。
有時候我跟別人說我在 OpenAI 工作,對方往往已經先入為主地對公司形成了一些看法。甚至還有 Twitter 上的使用者設了自動機器人來監測是否有新功能即將上線。
OpenAI 是一個非常注重保密的地方。我不能向外界詳細透露自己在做什麼。Slack 裡有很多不同許可權的工作區,收入和資金消耗等資料也受到嚴格保護。
OpenAI 的氛圍也比你想象的要嚴肅,部分原因是公司所做事情的影響實在太大。
一方面,我們的目標是構建 AGI,這本身就是一個需要謹慎應對的巨大挑戰;另一方面,我們又在打造一個有上億使用者依賴的產品,涉及的應用從醫療建議到心理諮詢無所不包;再另一方面,公司也正在參與一場全球最大規模的技術競賽。
我們會非常關注 Meta、Google 和 Anthropic 的動向,我相信他們也一樣在密切關注我們。世界上幾乎所有主要政府現在都在密切關注這個領域的發展。
雖然媒體上經常批評 OpenAI,但我在公司裡遇到的每一個人,實際上都是真心想把事情做好的人。由於面向普通使用者,OpenAI 是所有大型 AI 實驗室中最為公眾可見的,因此也成了最容易被攻擊的物件。
話雖如此,也不應該把 OpenAI 看成一個鐵板一塊的組織。在我看來,OpenAI 更像是最初的洛斯阿拉莫斯國家實驗室:一群科學家和工程師在探索科學前沿。這個團隊意外地催生出了歷史上最具傳播力的消費級應用,隨後又逐漸開始嘗試與政府和企業展開合作。
不同工齡、不同部門的人,在公司裡往往有著截然不同的目標和價值觀。你在 OpenAI 待得越久,可能就越是從「科研實驗室」或「非營利公益」視角來看待這個組織。
我最欣賞 OpenAI 的一點,是它在「讓 AI 惠及大眾」這件事上確實做到了「說到做到」。最前沿的模型並不只提供給籤年約的企業客戶使用,世界上任何人都可以開啟 ChatGPT,甚至無需登入就能獲取答案。
API 也向公眾開放,許多最先進甚至是專有的模型,很快就會透過 API 提供給創業公司使用。你可以想象一個完全不同的商業模式,但 OpenAI 選擇了這樣一種對外開放的方式,這一點值得高度肯定,也是公司文化的核心之一。
安全問題比你從 Zvi 或 Lesswrong 這些地方讀到的可能要更受重視。OpenAI 有大量人員在專門研究和構建安全機制。基於公司的性質,我看到更多的是對實際風險的關注,比如:濫用、偏見操控、武器構造、提示注入等問題。
而對於一些理論性風險(比如智力爆炸、AI 尋求權力)也確實有人在研究,但不是重點。大多數安全方面的工作目前並未公開發布,OpenAI 在這方面其實還應該做得更多,把這些內容介紹給外界。
不同於那些在各大招聘會上瘋狂發放周邊的公司,OpenAI 幾乎不怎麼發放公司紀念品(甚至連新員工也不例外)。公司採用的是「限時掉落(drops)」的方式,在特定時間開放庫存商品供員工自行下單。
第一次掉落的時候,甚至因為太多人搶購,把 Shopify 商店都擠崩了。公司內部還流傳著一篇帖子,教大家如何透過傳送正確的 JSON 請求繞過系統限制。
不過,說到底,這些開銷相比 GPU 成本簡直都是小數點後的零頭。舉個例子:Codex 產品中的一個小眾功能,其 GPU 花費就和我們整個 Segment 基礎設施的 GPU 成本差不多(雖然 Codex 沒有 ChatGPT 那麼大規模,但流量也不小)。
OpenAI 可能是我見過最野心勃勃的組織。你可能會覺得,擁有全球頂級消費級應用之一已經足夠了,但公司仍然在同時發力多個領域:API 產品、前沿研究、硬體、程式碼代理、影像生成,還有一些尚未公開的方向。這裡非常適合那些願意把想法付諸實踐的人。
公司非常關注 Twitter。如果你發了一條關於 OpenAI 的推文火了,很有可能內部有人會看到並認真考慮。
一位朋友曾笑稱:「這家公司靠 Twitter 的氣氛在運轉。」作為一家面向消費者的公司,也許這並不誇張。當然,公司依然非常重視資料分析,比如使用情況、使用者增長和留存等指標——但「氛圍」同樣被看得很重。
OpenAI 的團隊運作比很多地方要靈活得多。在 Codex 釋出的過程中,我們需要一些經驗豐富的 ChatGPT 工程師協助,以確保按時上線。
我們和 ChatGPT 的工程管理者們開了個會提出請求,第二天就有兩位非常給力的工程師加入團隊並立即投入工作。這裡沒有什麼「等下季度計劃」、「重新分配人手」的流程,一切推進得非常迅速。
公司的領導層也非常高可見、積極參與。這一點或許你在 OpenAI 這樣的公司會有所預期,但實際體驗依然令人印象深刻。無論是 gdb、sama、kw、mark 還是 dane 等高管,都會在 Slack 上頻繁參與討論,發表意見。沒有「掛名領導」,他們是真正在場的參與者。
OpenAI 使用一個巨大的單體程式碼庫(monorepo),主要是用 Python 寫的(不過現在也有越來越多的 Rust 服務,還有少量用於網路代理等用途的 Golang 服務)。這導致程式碼風格五花八門,因為 Python 寫法實在太多了。
你可能會遇到既有出自 Google 老員工、專為大規模系統設計的庫,也有剛拿到博士學位的研究員寫的臨時 Jupyter 筆記本。絕大多數系統都圍繞 FastAPI 構建 API,並用 Pydantic 進行資料驗證。但公司並沒有統一強制執行的程式碼風格指南。
有趣的是,在我看來,Azure 上真正可靠的服務就三個:Azure Kubernetes Service、CosmosDB(文件型資料庫)和 BlobStore(物件儲存)。Azure 並沒有像 AWS 那樣的對應產品,比如 Dynamo、Spanner、Bigtable、BigQuery、Kinesis 或 Aurora。自動擴縮容也不是常見的思考方式。
Azure 的 IAM(身份與許可權管理)也比 AWS 的要受限得多。公司在很多基礎設施方面傾向於自建。
在工程團隊方面,有一個非常明顯的趨勢是:大量來自 Meta 的人才流入 OpenAI。某種程度上,OpenAI 很像早期的 Meta:一款爆火的消費級應用、還在成長的基礎設施,以及極強的推進速度。
我見過的大部分基礎架構人才,都來自 Meta 或 Instagram,技術水平都很強。
因此,OpenAI 的很多核心基礎設施也帶有 Meta 的影子。例如公司內部重寫了類似 TAO 的系統,也有統一邊緣身份認證的嘗試,還有其他一些我可能不知道的專案。
Chat 的體系非常深入。自從 ChatGPT 爆紅之後,大量程式碼結構都圍繞「對話訊息」和「會話」這些概念展開。
這些原始結構已經深深嵌入系統中了,如果你忽視它們,可能會吃虧。我們在 Codex 中雖然有些偏離(更借鑑了 responses API 的經驗),但還是大量借用了已有的基礎。
程式碼就是一切。公司沒有什麼統一的架構委員會或統一規劃機制,通常是哪個團隊準備動手做,決策就由他們主導。結果就是,公司整體非常鼓勵行動,程式碼庫中也經常出現重複造輪子的現象。比如,我見過不下六套關於佇列管理或代理迴圈(agent loop)的庫。
不過,快速擴張的工程團隊和不完善的開發工具,確實在某些方面帶來了問題。
比如 sa-server(主要的後端服務)有點像是「垃圾收納場」,什麼都往裡塞。主分支上的持續整合(CI)比你想象的要容易出故障。即便並行執行測試,並且只測試部分依賴,整個流程在 GPU 上也可能要跑 30 分鐘。
這些問題不是無解的,但它們提醒我們,在任何公司,這類問題都是客觀存在的,而且當擴張速度非常快時,問題往往會加劇。值得肯定的是,公司內部確實有很多人在專注於改進這些開發體驗。
什麼是真正的大型消費品牌。在開始做 Codex 之前,我其實並沒有真正理解這一點。在 OpenAI,一切都圍繞著「Pro 使用者訂閱數」來衡量。
即使像 Codex 這樣面向開發者的產品,我們在設計使用者引導流程時,首要考慮的也是「個人使用體驗」,而不是團隊協作。對我這個從 B2B / 企業級產品背景過來的人來說,這種思維模式的轉變有點顛覆認知。在這裡,只要你把功能「開關」一開,第一天就會立刻湧入使用者流量。
大型模型是如何訓練的(高層次理解)。整個流程從「探索實驗」到「工程實現」是一個連續譜。大多數新想法最初都是以小規模實驗開始的。如果效果不錯,就會被納入更大規模的訓練任務中。實驗工作不僅涉及演算法本身的調整,還包括資料組合的除錯,以及對結果的細緻分析。
而當訓練規模變得很大時,這個過程幾乎就像是在搭建一個超大型的分散式系統,會出現各種邊緣情況和意外問題,最後都得靠你自己去除錯解決。
如何給 GPU 做預算。為了讓 Codex 順利上線,我們必須提前評估系統所需的 GPU 資源。
這是我第一次真正花時間去做 GPU 基準測試,也學到了一個很實用的原則:預算不能只看 GPU 的「最大負載能力」,而要從系統的響應延遲需求出發——比如總響應時間、token 數、首個 token 的生成速度等。每一代新模型上線後,流量模式、使用方式、響應特性都會變化很大,從上往下估算反而容易失準。
如何在超大 Python 程式碼庫裡協作。我之前在 Segment 工作,系統是典型的微服務架構,用的是 Golang 和 Typescript,程式碼體量相對可控。而 OpenAI 用的是一個巨大的 Python monorepo,協作方式完全不同。
這裡我學到的,是如何圍繞「多人協作」設定必要的保護機制:比如預設能跑通的開發環境、始終保持乾淨的主分支、以及避免誤用的程式碼結構。這些小細節,是支撐大規模協作的基礎。
我在 OpenAI 的最後三個月,幾乎全身心投入到了 Codex 的釋出。對我來說,這是職業生涯中最令人振奮的一次經歷。
這個專案的目標其實在 2024 年底就定下來了——2025 年要釋出一個真正可用的程式碼代理(coding agent)。到了 2025 年 2 月,公司內部已經有好幾個原型在測試程式碼任務,效果很不錯。
但那時候我們也都能感受到強烈的緊迫感:模型已經很強,必須抓住機會推出一款面向開發者的 Agent。從市面上突然冒出來的各種「氛圍程式設計」工具,也能看出這個方向正變得炙手可熱。
為了參與 Codex 的釋出,我提前結束了陪產假回到公司。回來的第一週,我們進行了兩個團隊的合併(過程稍顯混亂),隨後就立即開始了一場瘋狂的衝刺。從寫下第一行程式碼,到產品最終上線,整個過程只用了 7 周時間。
那可能是我近十年工作強度最大的一次衝刺。大多數晚上都要忙到十一點甚至更晚,凌晨五點半又被嬰兒叫醒,七點回到辦公室繼續寫程式碼,週末幾乎沒休息時間。我們整個團隊都在全力以赴,因為每一週都至關重要。這種節奏讓我回想起當年在 Y Combinator 的日子。
很難用言語去誇大我們當時的節奏有多快。我從未見過哪家公司——無論大小——能從一個想法走到完整發布、並且向所有人開放使用的產品,僅用這麼短的時間。
更何況,這個專案的範圍一點也不小:我們構建了一個容器執行時、優化了程式碼倉庫下載流程、微調了一個專為程式碼編輯最佳化的模型、處理了各種 Git 操作、建立了一個全新的互動介面、實現了聯網功能,最終打造出了一個真正讓人使用愉快的產品。
無論你對 OpenAI 有什麼看法,這家公司依然保有那種「快速釋出」的精神。
幸運的是,我們聚集到了一批「對的人」,才讓這一切變成了現實。整個核心團隊由大約 8 名高階工程師、4 名研究員、2 位設計師、2 位市場/商務人員,以及 1 名產品經理組成。
如果沒有這個組合,我覺得我們可能真的搞不成。這群人不需要過多指導,但確實需要良好的協調。若你有機會和 Codex 團隊中的任何一個人共事,請相信他們每一個都非常出色。
上線前一晚,我們五個人熬到凌晨 4 點,才把主服務部署好(這是一個耗時數小時的過程)。然後早上 8 點又準時回到辦公室,進行上線釋出和直播。我們切換上線開關,立刻就看到使用者流量開始湧入。我從未見過一個產品,僅僅是出現在 ChatGPT 的左側邊欄,就能帶來如此立竿見影的效果——這就是 ChatGPT 的力量。
在產品形態上,我們最終選擇了一種完全非同步的互動方式。這和當時的 Cursor(它後來也支援了類似模式)或 Claude Code 有很大不同。
我們的目標是讓使用者可以發起任務,然後讓 Agent 在自己的獨立環境中執行。我們押注的是——在終局狀態下,使用者應該把程式碼代理當作「同事」:發條訊息給它,它用點時間處理,然後再回來提交一個 PR。
這其實是一種冒險:當前模型的能力處在一個有點「尷尬」的階段——已經很強了,但還不夠完美。它們可以執行幾分鐘,但還無法連續工作幾個小時。使用者對模型能力的信任度也差異很大。而且,說實話,我們自己也不完全清楚這些模型的真正能力邊界到底在哪。
但從長期來看,我確實相信,大多數程式設計工作最終都會演變成類似 Codex 這種模式。在這個過渡階段,市場上各種產品的發展軌跡將會非常值得觀察。
Codex(這也許不令人意外)在處理大型程式碼庫、理解專案結構、導航跳轉方面表現非常出色。相比其他工具,我看到的最大優勢在於:它可以同時發起多個任務,並對比它們的結果輸出。
我最近看到有一些公開資料在比較不同 LLM 代理提交的 PR 數量。僅看公開資料,Codex 已經生成了 63 萬個 PR。換算下來,在上線後 53 天內,平均每位工程師就產生了 7.8 萬個公開 PR(私有 PR 數量可能還要多好幾倍)。說實話,我一生中可能從沒參與過影響力如此巨大的專案。
說實話,我最初對加入 OpenAI 是有所猶豫的。我不確定放棄自由、去有一個上司、成為大機器中的一個小齒輪,這樣的狀態是否適合我。我入職時也刻意保持低調——以防不合適時還能體面離開。
回顧這一年,我認為這是我人生中做出的最正確的決定之一。很難想象還有哪裡能讓我學到這麼多。
如果你是個創始人,正感覺你的創業專案陷入停滯,我建議你認真考慮兩個方向:
1)重新評估你是否還能創造更多「得分機會」;2)加入一家頂級實驗室。
現在是一個極其適合「動手創造」的時期,但同時也是一個探索未來、看清趨勢的絕佳時機。
在我看來,通向 AGI 的競爭現在是三足鼎立:OpenAI、Anthropic 和 Google。每家公司都會基於自己的基因,走出不同的路徑——消費級產品導向 vs 企業服務導向 vs 基礎設施和資料的極致掌控。能進入任何一家,都是一次開闊眼界的機會。
感謝 Leah 的無私支援,在我無數個深夜工作時承擔了大部分育兒任務;感謝 PW、GDB 和 Rizzo 給我這個機會;感謝 SA 團隊的夥伴們帶我入門:Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony 和 Val;更感謝 Codex 核心團隊帶給我這段終身難忘的旅程:Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。
每當一位高管離職,人們總喜歡解讀成各種戲劇性的故事,但我認為其中大約 70% 的原因其實只是組織發展階段的問題。
我確實覺得公司正處在一個「相變期」。現在公司正在大量從外部引入高階管理者。總體上我支援這種做法,我認為引入「外部基因」對公司有很大好處。
我的感覺是,打造史上增長最快的消費級產品,會自然鍛煉出一身本事。
當然,我們也是站在巨人的肩膀上。CaaS 團隊、核心強化學習團隊、人類資料團隊,以及整個應用基礎設施,讓這一切成為可能。
幾周前,Meta 那邊也進行了一些重要招聘;xAI 推出了表現不錯的 Grok 4;Mira 和 Ilya 手下都有很多優秀人才。也許這些都會改變局勢(他們的團隊確實很強),但目前他們還有不少追趕要做。