



01.
Self-play RL 開啟 AGI 下半場
張小珺:最近這兩個月你思考最多的問題是什麼?
Guangmi Li:語言模型預訓練的正規化已經到瓶頸了,模型 scaling 的邊際效益開始遞減。接下來的路線怎麼走、這一輪技術革命是否就此卡住?這些問題會很關鍵。
張小珺:目前對這個問題有得出什麼結論嗎?
Guangmi Li:有 50%的機率,傳統意義上的 scaling law 已經失效了。另外 50% 的機率,沿著老的路線,大家繼續搭建 10 萬卡大叢集,能夠繼續走向 AGI 。現在各種證據還不夠多,還不能妄下結論,也不能下判斷證明預訓練這條路徑已經到頭了。但大家目前觀察到,純靠加引數、資料、算力的路徑已經不容易了,model size 向上 scale 也有一些問題。
從引數上看,現在最好的模型是 600-700B 總引數的 MOE 模型,這也是單臺 H100 server 可以放得下的引數量。今天,我們還沒有看到向上再 scale 3-5 倍、達到 2-3T 總引數的模型。換言之,即使可以做出 2-3T 總引數的模型,短期收益上效果也沒有那麼好。如何向上做 scaling 的規律目前大家也沒有探索清楚。
從資料上看,很多公司現在都可以達到 15-20T 高質量文字資料量,每個月也可以再增加約 2T 的新資料。但很難倍數級增加資料至 50-100T ,還是需要新的方法突破資料瓶頸。
算力角度,英偉達的 H100 現在可以做到 3.2 萬張卡、充分互聯的單一叢集,全球有 3-5 家公司都可以做到這一規模了。但在 B 系列 GPU 被規模化採用前,算力基本上不會有倍數級別提升。
這幾個基礎條件不一定可以支援在 GPT-4o ,或是 Claude-3.5 這一基礎上進一步做大幅提升。如果繼續延續這一路徑,結果可能會比 GPT-4o 好一些,但不一定能像 GPT-3 走向 GPT-4 那樣有顯著跨越的提升。
張小珺:不能支援模型在 GPT-4o 的基礎上大幅躍升的原因是什麼?
Guangmi Li:存在幾種情況:
第一,今天的模型 scale up 幅度依然不夠,未來 B 系列卡的出現可能可以解決這一問題,現在處在一個真空的死亡地帶,說明 H100 這一代卡可能沒有那麼好。
第二,也需要考慮執行問題。訓練更大的模型比較複雜,就像是發射一個重型火箭,或者類似於晶片流片的過程,涉及到的因素是很綜合的。比如,MOE 規模很大了之後,很難進一步調整。MOE 模型需要怎麼擺放?訓練 2-3 萬億引數的 MOE 本身就很難,現在業界主流基本在 600-700B 左右。
其次資料問題也很重要。團隊如何才能獲得那麼多高質量、真正可以提升模型能力的文字資料?能不能真正用好合成資料?這都是重要的問題。
合成數據至今並沒有根本性突破。大家都還是在用模型去改寫、擴充,把低質量資料變為高質量資料。而資料重複其實並不能對模型有大幅度提升。獲得更多高質量的邏輯推理資料的能力是更重要的。
前面兩個問題都是短期問題,隨著時間慢慢可以解決。第三種情況才是最擔心的一種情況:純靠語言的經典 scaling law 做 pre-train 的這個物理規律是不是就遇到瓶頸了?或者在更大引數,比如 2-3T 引數以上, scaling law 是否會失效?那我們就需要新的方法,才可以帶來更大的突破。第三種情況在 B100 GPU 推出前,發生的機率非常大。
張小珺:今年 Q1 的時候,你觀察到 GPU 資料中心和物理硬體是瓶頸,現在似乎瓶頸變得更多維度了,不只是物理硬體這一個原因了?
Guangmi Li: GPU 資料中心與物理硬體依然是瓶頸,但這個瓶頸無法短期突破。H100 這一代 GPU ,充分互聯可以做到 3.2 萬卡。H100 這一代卡用起來不算很好,每美元購買量還是很貴。因此,還是需要等 B 系列推出後,引數才能 scale up 。在此之前,我們還是需要在有限的叢集下做新的 scaling law 正規化的探索。
還有另外 50% 的機率會留給 Elon Musk 的 xAI 。Elon Musk 認為:算力決定生死。xAI 就下注在 10 萬卡叢集上,這也是第一性原理。也存在很大機率,Elon Musk 搭建了 10 萬卡集群后、訓練出更好的模型。但算力增加到 10 萬張卡,短期挑戰很大。目前, 3 萬卡的叢集,每 2 小時會出錯一次,而 10 萬卡叢集基本上 20-30 分鐘就會出錯一次,綜合利用率會下降非常多。這個現象對資料中心的運維挑戰是很大的,運維團隊需要快速定位損壞的卡、快速插拔更換後上線。
模型 scale 到 2-3T 後, MOE 就更復雜了。有一個原因是因為對 MOE 的實驗還不夠充分,其中的 bug 也很多。還會有一個說法是,和 MOE 相比,做 dense model 更容易。但 dense mode 也有一個缺點:訓練過程中 GPU 利用率不夠高。
包括剛剛提到的資料問題,合成數據並沒有突破。因此,這是一個綜合問題,並非單一因素。算力的問題存在, MOE 複雜架構的問題也存在,資料的問題也存在。大家還不知道如何利用影片資料,未來可能會有新的架構出現。
張小珺:如果 scaling law 在模型變大的過程之中失效了,那你們有看到什麼新方法、新的路線來替代 scaling law 嗎?
Guangmi Li:有 2-3 條潛在的路線,每個公司也都有自己下注的路線。
第一種路線是多模態,尤其是視覺。很多人會認為多模態的確定性很高,只靠語言無法走向 AGI ,需要語言結合視覺這種多種模態。但其實用大量視覺資料做大規模訓練這個方向上,今天還沒有任何證據可以證明可以從視覺模態訓練內湧現出智慧或邏輯能力。Tesla 的 FSD 很難定義算多模態還是單一模態。
其實 AI 最重要的還是通用泛化性,就像 AlphaGo 下棋:下圍棋可以成為世界第一,但 AlphaGo 無法做其它任務。特斯拉 FSD ,或者今天所謂的通用機器人公司,目前在某一個特定設定上採集資料並訓練模型,換到另一個新裝置上是起不到作用的,這是不具備泛化能力的。多模態模型的技術路線還是沒有像語言一樣那麼統一。也許未來會誕生一個全新的架構,但這又涉及到基礎科學的突破了。我們無法確定幾年後才可以看到這種基礎科學的突破。
影片生成目前走的是 DiT 路線,這是因為年初 Sora 給整個行業指明瞭這一路線。短期來看, DiT 向上的收益是可觀的。可以確定的是,多模態可以帶來互動能力的提升。互動能力提升後, reasoning 邏輯推理能力也會提升。
第二種路線是 10 萬卡叢集的路線,就像剛剛討論的,短期不成功可能還是歸因於算力不夠,還處在中間的死亡地帶。這種情況下,總有人要試試更大的叢集。如果,更大的叢集搭建成功後訓練出了能力更強的模型,那就會讓沒有嘗試這一路線的人傻眼。但客觀來講,十萬卡叢集充分互聯的難度比預期會更難。甚至可能十萬卡叢集是全人類目前遇到過最難的專案,比 SpaceX 發射重型火箭更復雜。
多模態和 10 萬卡叢集這兩條路線都是確定會發生的路線,只是時間問題。但這兩條路線並不夠本質,換言之,這並不能被稱為正規化級別。能夠稱之為正規化級別的路線只有一個,強化學習(reinforcement learning,RL)。
目前整個業界,無論矽谷,還是中文媒體,其實提及強化學習這一路線都還很少,換言之大家今天還不知道如何做。今天的強化學習是 self-play 強化學習,這條路線是最合理、天花板最高的。Anthropic 的 Claude-Sonnet ,從 3 迭代至 3.5 後,我們能看到它的程式碼和數學能力提升很大,就是強化學習帶來的。
用 self-play 的方法提升模型的邏輯推理能力是接下來最重要的正規化,也是一個最核心的變化。
多模態、 10 萬卡叢集、強化學習這三條路線並不矛盾,可以並行。但公司如果資源有限,就需要下注在最相信的一條路徑上。假如我是一個 AI 公司的 CEO ,我肯定會用 200%的資源押注於強化學習這一路線。這是目前最有機會走向 AGI 的路線。
張小珺: 9 月份 Anthropic 和 OpenAI 應該都會有新的模型釋出,你對於這兩個模型有什麼值得期待的嗎?
Guangmi Li:Claude-3.5-Opus 的進步幅度會很大,因為 Sonnet 版本從 3 到 3.5 進步幅度就很大。
目前還不知道 OpenAI 會發布什麼進展,但草莓已經造勢很久了,我感覺也應該還是在強化學習這條路線下。程式碼和數學能力肯定是大幅度提升的,而提升幅度不會亞於 Claude-3-Sonnet 到 Claude-3.5-Sonnet 的幅度。OpenAI 會不會發布新的模型還不好說。
02.
RL 是新的 scaling law
03.
程式碼、影片生成、機器人
張小珺:大模型熱潮之後,要再怎麼劃分 AI 賽道?
Guangmi Li:如果是新的 AI 賽道,需要靠 AI 的模型為基礎。我們自己畫過幾個圈,最大的一個圈是大語言模型,也是此次技術革命的核心。圍繞大語言模型,向外可以延伸出 3-4 個圈:搜尋、程式設計、影片理解和生成、機器人。我感覺是一個大圈套著四個小圈的關係。

04.
What's Next?



排版:Fia
延伸閱讀