
文章轉載於新智元
GPT-4.5出世一個多月,鮮有人知其背後研發故事。
今天凌晨,奧特曼與三位核心研究員線上開啟播客對談,首次揭開了GPT-4.5從願景到現實的史詩級突破。

早在兩年前,OpenAI團隊定下了一個大膽的目標,打造一款比GPT-4聰明10倍的模型。
這不僅意味著LLM效能提升,更是對計算、資料、協作的極限挑戰。

從左到右:奧特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam
如今,OpenAI在2月底正式交卷,GPT-4.5情商堪稱所有模型最強的,並再次Scaling無監督學習的邊界。
這款「超級模型」究竟如何創造智慧奇蹟,全部濃縮在了這45分鐘的圓桌對談中。
一些精彩亮點:
-
GPT-4.5比GPT-4聰明10倍,研發用時2年,擁有上一代不具備的微妙「魔力」
-
訓練GPT-4.5為OpenAI提供了寶貴的技術經驗;現只需要大約5名員工,就可以從頭開始訓練GPT-4
-
算力基礎設施和大規模GPU擴充套件帶來的小機率問題會捅出大亂子
-
資料效率成為關鍵瓶頸,OpenAI下一個主要研究前沿是提高資料效率
-
「torch.sum bug」等趣事推動模型效能飛躍。
-
Scaling Law被驗證為可能長期有效的「宇宙規律」

1
GPT-4.5聰明10倍
奧特曼開篇說,通常他們開這種會都是為了釋出新產品,不過這次打算換個玩法,聊聊GPT-4.5開發背後的故事。
GPT-4.5推出後,使用者對它的興趣特別大,這大大超出了研發團隊的預期。
他們首先從「一個巨型模型到底需要什麼?」這個話題說起。
「一大堆人、一大把時間,還有海量的計算資源。」主要負責預訓練資料的Alex回答說。
Alex表示,他們光是準備階段就花了很多心思,至於正式的訓練,「本身就是個超級大的工程」。
在實際訓練中,研究團隊經常得做選擇:是推遲釋出,等更多問題解決;還是早點上線,邊跑邊解決問題。
這是個平衡,不能讓整個訓練過程拖得太久。
他們謙虛地認為,對於效率更高的演算法及以如何更好地利用現有資料,他們還只是「略知皮毛」。
在不久之前,我們還在受限於算力。但從GPT-4.5開始,我們更多地是處在一個受限於資料的環境裡了。
他們說這是一個顛覆性的進展,「整個世界對此還沒有充分認識到。」
兩年前著手開發GPT-4.5時,他們的目標是比GPT-4聰明10倍。
現在,他們覺得自己達到了這個目標——至少在投入的有效算力下,GPT-4.5實現了比GPT-4聰明10倍的效果。
1
預訓練的兩個難題
不過,實際的訓練時間還是比預想的要長不少。
這裡面主要有兩個問題。
一個是從1萬個GPU增加到10萬個GPU,問題會變得多得多。
尤其是一些提前沒預料到的小機率問題,在大規模計算時會捅出大亂子。
最容易出問題的就是算力基礎設施,由於他們的資料量實在是太大了,有些問題連硬體製造商都沒遇見過。
網路架構、單個加速器,這些都會出問題。「我們的工作就是儘量把這些變數的波動降到最低。」
另一個問題是探索前沿科技這件事本身就很難。
在訓練GPT-4.5時,OpenAI投入了幾百人的努力,耗費了大量的時間,幾乎是all in。
但如果他們現在重新訓練一個GPT-4水平的模型,大概只需要5到10個人就可以搞定。
專注於資料效率和演算法的Dan說,「我覺得做任何新東西都難。但是當你知道別人已經做成過某件事,難度就會大大降低」。
「因為最難的部分是下定決心去做一件事。知道某件事是可行的,簡直就像開了掛,瞬間就容易多了。」
Dan接著表示,如果想要將訓練規模再擴大10倍甚至是100倍,資料就會成為瓶頸,這時候就需要一些演算法上的創新,讓模型能用更多的算力從同樣的資料裡學到更多東西。
1
torch.sum bug趣事
研究團隊在GPT-4.5的訓練中,發現了一些特別有趣的事情。
比如,在訓練過程中不斷地最佳化機器學習演算法,做出一些調整。
尤其是團隊解決了一些關鍵問題後,他們看到了模型效能的大幅提升。
那一刻,整個團隊的能量都不一樣了,大家都特別興奮,動力滿滿,要把最後階段衝刺完成。

「那一刻真的很震撼。這對團隊士氣的提升,真的特別美妙。」
現場OpenAI的首席系統架構師Amin Chian分享了一個「torch.sum bug」趣事。
在訓練過程中遇到bug是常事,通常是找一下到底是硬體故障、資料損壞,還是機器學習相關的Bug。
但在訓練GPT-4.5時,有一次好幾個問題一直都沒有解決。
大家沒辦法就在一起討論研究這些問題到底是由不同的Bug引起的,還是同一個Bug導致的。
他們圍著桌子投票。結果呢?後來確定的那個Bug在當時得票最少!
就是個簡單的「torch.sum」Bug,來自上游的PyTorch庫,大家都覺得太不可思議了。
所有的問題都被這一行程式碼給解決了,真的特別有趣。
為了慶祝,他們還把Slack頻道從「多Bug理論」改成了「單Bug理論」,那場面可熱鬧了。
這個Bug的觸發頻率特別低,可能每100步、1000步才出一次問題,特別容易被忽略。
但他們有條紀律,在訓練過程中不能容忍這種問題出現。
整個過程就是一個堅持不放棄的故事。
1
壓縮即智慧
幾十年來,深度學習的核心一直是提升算力效率。而且,每一次小的改進,都能帶來顯著的疊加效應。
世界上各地不同的人發現一個提升10%效率的技巧,另一個提出提升20%的最佳化,這些看似微小的進步累積起來,就能徹底改變模型的表現。
過去,因算力受限,資料效率的研究顯得並不划算。但如今,資料效率每一次突破都將可能成為AI發展的臨界點。
因此,現在就去預測AI會有瓶頸,有點不明智。
他們還認為更好的預訓練和無監督學習能全面提升模型的智慧,幫助模型更好地泛化,這一點跟現在模型的推理能力很是互補。
預訓練本質上是在壓縮資料。壓縮資料意味著發現不同事物之間的聯絡、類比和抽象。而推理則針對某個具體問題,需要一種謹慎思考的技巧。
這種謹慎思考能解鎖很多不同領域的問題,但預訓練在跨領域壓縮資料時,學到的是一種更抽象的東西。
為什麼無監督學習會有效?研究員們的答案是「壓縮」。
可以說,理想的智慧形態就是所謂的「所羅門諾夫歸納」(Solomonov induction)。
簡單來說,模型更傾向於簡潔的解釋。與此同時,它嚴格遵循貝葉斯原理,把所有可能性都記住,隨時根據新資訊更新自己的回答。
而他們現在做的預訓練——或者說理解預訓練的一個視角——就是在做這種「壓縮」。
試圖找到一個最短的程式(或者模型),來解釋所有的資料,以此作為對理想智慧的一種近似。
1
Scaling Law是宇宙法則
在播客的最後,奧特曼表示,訓練GPT-4.5的整個過程,花了無數的人力、時間和金錢,其實可以看成是一場實驗。
一場驗證Scaling Law是不是還成立的實驗。
結果他們發現,Scaling Law不僅有效,而且還可能會持續很長時間。

奧特曼說他接受Scaling Law就像接受量子力學一樣,還不明白為什麼Scaling Law會是一種宇宙的規律。
對此Dan試著解釋說,模型資料壓縮得越多,智慧就越高,這個有很強的哲學依據。
他自己比較喜歡的一個解釋是,世界上資料的「關鍵概念」是稀疏的,符合冪律分佈(power law)。
比如,第100個重要的概念,可能在每100個文件裡只出現一次。
也就是說資料有很強的「長尾效應」。
所以現實是,如果你想抓到「尾巴」裡下一個重要的東西,可能得把算力和資料量翻個十倍。
而這個尾巴還很長,可以一直挖下去。
參考資料:
https://x.com/sama/status/1910363434241450171
https://www.youtube.com/watch?v=6nJZopACRuQ