機器之心報道
雖然大多數強化學習(RL)方法都在使用淺層多層感知器(MLP),但普林斯頓大學和華沙理工的新研究表明,將對比 RL(CRL)擴充套件到 1000 層可以顯著提高效能,在各種機器人任務中,效能可以提高最多 50 倍。
-
論文標題:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities -
論文連結:https://arxiv.org/abs/2503.14858 -
GitHub 連結:https://github.com/wang-kevin3290/scaling-crl
研究背景
最近在人工智慧領域裡,強化學習的重要性因為 DeepSeek R1 等研究再次凸顯出來,該方法透過試錯讓智慧體學會在複雜環境中完成任務。儘管自監督學習近年在語言和視覺領域取得了顯著突破,但 RL 領域的進展相對滯後。
與其他 AI 領域廣泛採用的深層網路結構(如 Llama 3 和 Stable Diffusion 3 擁有數百層結構)相比,基於狀態的強化學習任務通常僅使用 2-5 層的淺層網路。相比之下,在視覺和語言等領域,模型往往只有在規模超過某個臨界值時才能獲得解決特定任務的能力,因此研究人員一直在尋找 RL 中類似的能力湧現現象。
創新方法
普林斯頓大學和華沙理工的最新研究提出,透過將神經網路深度從常見的 2-5 層擴充套件到 1024 層,可以顯著提升自監督 RL 的效能,特別是在無監督目標條件任務中的目標達成能力。

這一發現挑戰了傳統觀點。過去認為訓練大型 RL 網路困難是因為 RL 問題提供的反饋極為稀少(如長序列觀測後的稀疏獎勵),導致反饋與引數比率很小。傳統觀點認為大型 AI 系統應主要以自監督方式訓練,而強化學習僅用於微調。
研究團隊從三個關鍵方面進行創新:
-
正規化融合:重新定義「強化學習」和「自監督學習」的關係,將它們結合形成自監督強化學習系統,採用對比強化學習(Contrastive RL, CRL)演算法;
-
增加資料量:透過近期的 GPU 加速強化學習框架增加可用資料量;
-
網路深度突破:將網路深度增加到比先前工作深 100 倍,並融合多種架構技術穩定訓練過程,包括:殘差連線(Residual Connections)、層歸一化(Layer Normalization)、Swish 啟用函式。
此外,研究還探究了批大小(batch size)和網路寬度(network width)的相對重要性。
關鍵發現
隨著網路深度的擴大,我們能發現虛擬環境中的強化學習智慧體出現了新行為:在深度 4 時,人形機器人會直接向目標墜落,而在深度 16 時,它學會了直立行走。在人形機器人 U-Maze 環境中,在深度 256 時,出現了一種獨特的學習策略:智慧體學會了越過迷宮高牆。

進一步研究,人們發現在具有高維輸入的複雜任務中,深度擴充套件的優勢更大。在擴充套件效果最為突出的 Humanoid U-Maze 環境中,研究人員測試了擴充套件的極限,並觀察到高達 1024 層的效能持續提升。

另外,更深的網路可以學習到更好的對比表徵。僅在導航任務中,Depth-4 網路使用到目標的歐幾里得距離簡單地近似 Q 值,而 Depth-64 能夠捕捉迷宮拓撲,並使用高 Q 值勾勒出可行路徑。

擴充套件網路深度也能提高 AI 的泛化能力。在訓練期間未見過的起始-目標對上進行測試時,與較淺的網路相比,較深的網路在更高比例的任務上取得了成功。
技術細節
該研究採用了來自 ResNet 架構的殘差連線,每個殘差塊由四個重複單元組成,每個單元包含一個 Dense 層、一個層歸一化(Layer Normalization)層和 Swish 啟用函式。殘差連線在殘差塊的最終啟用函式之後立即應用。
在本論文中,網路深度被定義為架構中所有殘差塊的 Dense 層總數。在所有實驗中,深度指的是 actor 網路和兩個 critic encoder 網路的配置,這些網路被共同擴充套件。

研究貢獻
本研究的主要貢獻在於展示了一種將多種構建模組整合到單一強化學習方法中的方式,該方法展現出卓越的可擴充套件性:
-
實證可擴充套件性:研究觀察到效能顯著提升,在半數測試環境中提升超過 20 倍,這對應著隨模型規模增長而湧現的質變策略; -
網路架構深度的擴充套件:雖然許多先前的強化學習研究主要關注增加網路寬度,但在擴充套件深度時通常只能報告有限甚至負面的收益。相比之下,本方法成功解鎖了沿深度軸擴充套件的能力,產生的效能改進超過了僅靠擴充套件寬度所能達到的; -
實證分析:研究表明更深的網路表現出增強的拼接能力,能夠學習更準確的價值函式,並有效利用更大批次大小帶來的優勢。
不過,拓展網路深度是以消耗計算量為代價的,使用分散式訓練來提升算力,以及剪枝蒸餾是未來的擴充套件方向。
預計未來研究將在此基礎上,透過探索額外的構建模組來進一步發展這一方法。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]