奧特曼首揭GPT-4.5內幕，一個bug搞崩10萬GPU！5人即可重訓GPT-4

文章轉載於新智元

GPT-4.5出世一個多月，鮮有人知其背後研發故事。

今天凌晨，奧特曼與三位核心研究員線上開啟播客對談，首次揭開了GPT-4.5從願景到現實的史詩級突破。

早在兩年前，OpenAI團隊定下了一個大膽的目標，打造一款比GPT-4聰明10倍的模型。

這不僅意味著LLM效能提升，更是對計算、資料、協作的極限挑戰。

從左到右：奧特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam

如今，OpenAI在2月底正式交卷，GPT-4.5情商堪稱所有模型最強的，並再次Scaling無監督學習的邊界。

這款「超級模型」究竟如何創造智慧奇蹟，全部濃縮在了這45分鐘的圓桌對談中。

一些精彩亮點：

GPT-4.5比GPT-4聰明10倍，研發用時2年，擁有上一代不具備的微妙「魔力」
訓練GPT-4.5為OpenAI提供了寶貴的技術經驗；現只需要大約5名員工，就可以從頭開始訓練GPT-4
算力基礎設施和大規模GPU擴充套件帶來的小機率問題會捅出大亂子
資料效率成為關鍵瓶頸，OpenAI下一個主要研究前沿是提高資料效率
「torch.sum bug」等趣事推動模型效能飛躍。
Scaling Law被驗證為可能長期有效的「宇宙規律」

GPT-4.5聰明10倍

奧特曼開篇說，通常他們開這種會都是為了釋出新產品，不過這次打算換個玩法，聊聊GPT-4.5開發背後的故事。

GPT-4.5推出後，使用者對它的興趣特別大，這大大超出了研發團隊的預期。

他們首先從「一個巨型模型到底需要什麼？」這個話題說起。

「一大堆人、一大把時間，還有海量的計算資源。」主要負責預訓練資料的Alex回答說。

Alex表示，他們光是準備階段就花了很多心思，至於正式的訓練，「本身就是個超級大的工程」。

在實際訓練中，研究團隊經常得做選擇：是推遲釋出，等更多問題解決；還是早點上線，邊跑邊解決問題。

這是個平衡，不能讓整個訓練過程拖得太久。

他們謙虛地認為，對於效率更高的演算法及以如何更好地利用現有資料，他們還只是「略知皮毛」。

在不久之前，我們還在受限於算力。但從GPT-4.5開始，我們更多地是處在一個受限於資料的環境裡了。

他們說這是一個顛覆性的進展，「整個世界對此還沒有充分認識到。」

兩年前著手開發GPT-4.5時，他們的目標是比GPT-4聰明10倍。

現在，他們覺得自己達到了這個目標——至少在投入的有效算力下，GPT-4.5實現了比GPT-4聰明10倍的效果。

預訓練的兩個難題

不過，實際的訓練時間還是比預想的要長不少。

這裡面主要有兩個問題。

一個是從1萬個GPU增加到10萬個GPU，問題會變得多得多。

尤其是一些提前沒預料到的小機率問題，在大規模計算時會捅出大亂子。

最容易出問題的就是算力基礎設施，由於他們的資料量實在是太大了，有些問題連硬體製造商都沒遇見過。

網路架構、單個加速器，這些都會出問題。「我們的工作就是儘量把這些變數的波動降到最低。」

另一個問題是探索前沿科技這件事本身就很難。

在訓練GPT-4.5時，OpenAI投入了幾百人的努力，耗費了大量的時間，幾乎是all in。

但如果他們現在重新訓練一個GPT-4水平的模型，大概只需要5到10個人就可以搞定。

專注於資料效率和演算法的Dan說，「我覺得做任何新東西都難。但是當你知道別人已經做成過某件事，難度就會大大降低」。

「因為最難的部分是下定決心去做一件事。知道某件事是可行的，簡直就像開了掛，瞬間就容易多了。」

Dan接著表示，如果想要將訓練規模再擴大10倍甚至是100倍，資料就會成為瓶頸，這時候就需要一些演算法上的創新，讓模型能用更多的算力從同樣的資料裡學到更多東西。

torch.sum bug趣事

研究團隊在GPT-4.5的訓練中，發現了一些特別有趣的事情。

比如，在訓練過程中不斷地最佳化機器學習演算法，做出一些調整。

尤其是團隊解決了一些關鍵問題後，他們看到了模型效能的大幅提升。

那一刻，整個團隊的能量都不一樣了，大家都特別興奮，動力滿滿，要把最後階段衝刺完成。

「那一刻真的很震撼。這對團隊士氣的提升，真的特別美妙。」

現場OpenAI的首席系統架構師Amin Chian分享了一個「torch.sum bug」趣事。

在訓練過程中遇到bug是常事，通常是找一下到底是硬體故障、資料損壞，還是機器學習相關的Bug。

但在訓練GPT-4.5時，有一次好幾個問題一直都沒有解決。

大家沒辦法就在一起討論研究這些問題到底是由不同的Bug引起的，還是同一個Bug導致的。

他們圍著桌子投票。結果呢？後來確定的那個Bug在當時得票最少！

就是個簡單的「torch.sum」Bug，來自上游的PyTorch庫，大家都覺得太不可思議了。

所有的問題都被這一行程式碼給解決了，真的特別有趣。

為了慶祝，他們還把Slack頻道從「多Bug理論」改成了「單Bug理論」，那場面可熱鬧了。

這個Bug的觸發頻率特別低，可能每100步、1000步才出一次問題，特別容易被忽略。

但他們有條紀律，在訓練過程中不能容忍這種問題出現。

整個過程就是一個堅持不放棄的故事。

壓縮即智慧

幾十年來，深度學習的核心一直是提升算力效率。而且，每一次小的改進，都能帶來顯著的疊加效應。

世界上各地不同的人發現一個提升10%效率的技巧，另一個提出提升20%的最佳化，這些看似微小的進步累積起來，就能徹底改變模型的表現。

過去，因算力受限，資料效率的研究顯得並不划算。但如今，資料效率每一次突破都將可能成為AI發展的臨界點。

因此，現在就去預測AI會有瓶頸，有點不明智。

他們還認為更好的預訓練和無監督學習能全面提升模型的智慧，幫助模型更好地泛化，這一點跟現在模型的推理能力很是互補。

預訓練本質上是在壓縮資料。壓縮資料意味著發現不同事物之間的聯絡、類比和抽象。而推理則針對某個具體問題，需要一種謹慎思考的技巧。

這種謹慎思考能解鎖很多不同領域的問題，但預訓練在跨領域壓縮資料時，學到的是一種更抽象的東西。

為什麼無監督學習會有效？研究員們的答案是「壓縮」。

可以說，理想的智慧形態就是所謂的「所羅門諾夫歸納」（Solomonov induction）。

簡單來說，模型更傾向於簡潔的解釋。與此同時，它嚴格遵循貝葉斯原理，把所有可能性都記住，隨時根據新資訊更新自己的回答。

而他們現在做的預訓練——或者說理解預訓練的一個視角——就是在做這種「壓縮」。

試圖找到一個最短的程式（或者模型），來解釋所有的資料，以此作為對理想智慧的一種近似。

Scaling Law是宇宙法則

在播客的最後，奧特曼表示，訓練GPT-4.5的整個過程，花了無數的人力、時間和金錢，其實可以看成是一場實驗。

一場驗證Scaling Law是不是還成立的實驗。

結果他們發現，Scaling Law不僅有效，而且還可能會持續很長時間。

奧特曼說他接受Scaling Law就像接受量子力學一樣，還不明白為什麼Scaling Law會是一種宇宙的規律。

對此Dan試著解釋說，模型資料壓縮得越多，智慧就越高，這個有很強的哲學依據。

他自己比較喜歡的一個解釋是，世界上資料的「關鍵概念」是稀疏的，符合冪律分佈（power law）。

比如，第100個重要的概念，可能在每100個文件裡只出現一次。

也就是說資料有很強的「長尾效應」。

所以現實是，如果你想抓到「尾巴」裡下一個重要的東西，可能得把算力和資料量翻個十倍。

而這個尾巴還很長，可以一直挖下去。

參考資料：

https://x.com/sama/status/1910363434241450171

https://www.youtube.com/watch?v=6nJZopACRuQ

點個“愛心”，再走吧

dignews.cc

奧特曼首揭GPT-4.5內幕，一個bug搞崩10萬GPU！5人即可重訓GPT-4

相關文章

OpenAI揭秘GPT-4.5訓練：10萬塊GPU，幾乎全員上陣，出現“災難性問題”

OpenAI自曝“o4”訓練中，用思維鏈監控抓住AI作弊瞬間

Deepseekv3實測來了！智商牛逼，情商不存在，自信退出價格戰

Cursor：如何構建AICoding最佳實踐？

GPT-4o的多模態生圖，讓整個設計圈都開始emo了…

Grok3來了！馬斯克宣稱“地球上最聰明的AI”，20萬張GPU能否顛覆AI格局？

康奈爾大學最新研究：AI集體出現幻覺！GPT-4o、Claude等無一倖免，國產模型資料缺失……

短劇裡周鴻禕演霸總，為360宣傳AI搜尋…

一張觸目驚心的截圖！炸了！

我讓男同事去測測豆包大模型1.5，結果他被豆包釣成翹嘴了