研究人員提出因果貝爾曼方程,在特定線上學習演算法中可更快得到最優智慧體

近日,美國哥倫比亞大學李明軒博士和團隊提出一種因果貝爾曼方程,它能使用可能包含有混雜變數的觀測資料計算出最優價值函式的理論上界。而如果使用這一理論上界設計獎勵函式的話,在一些特定的線上學習演算法中可以更快速地訓練得到最優的智慧體。
圖 李明軒(來源:李明軒)
研究團隊預期這一成果可以被擴充套件到更高維的、更接近現實應用的機器人問題中,幫助自動化設計一些獎勵函式用於訓練機器人完成複雜的任務。而用於設計獎勵函式的資料集可以不再囿於採集自同類機器人成功完成任務的資料,而是可以採集任何具有相似能力的智慧體的影片資料,甚至採集人類示範的影片資料。
在訓練智慧體完成一些缺乏明確任務進度評價的任務時,人們往往需要增加很多額外的監督訊號來幫助訓練。比如,使用強化學習演算法訓練控制機械手解決一個魔方時,最直觀的任務完成訊號只有是否能在指定時間內完成魔方這一非常宏觀的評價指標,任務完成過程中沒有任何具體定義步驟對錯的簡單標準。
而直接使用任務完成與否這一單一指標會導致強化學習演算法幾乎無法得到有效的訓練資料,因為在隨機探索過程中演算法偶然碰撞出正確控制機械手解決魔方的機率幾乎為零。
也正因此,在 Open AI 早期訓練機械手解決魔方的論文中,他們添加了很多額外的獎勵訊號用於監督諸如機械手的手指動作是否合理,以及魔方當前狀態是否符合演算法規劃的解決方案等。
另一個例子是人們在玩電子遊戲的時候如果中途沒有任何任務指引或者分數反饋,只有在遊戲結束才能知道是否勝利的話,人們就會覺得這個遊戲很難通關,或者需要嘗試很久才能猜出正確的勝利條件。
所以,在訓練智慧體過程中,研究人員往往需要針對特定任務增加很多額外的獎懲訊號作為過程監督幫助智慧體學習。這樣一種增加額外獎勵訊號並且不影響智慧體最終能學會的最優策略的演算法叫 PBRSPotential Based Reward Shaping),由華人學者吳恩達於 1999 年提出。
但是,這樣就會導致每碰到一個新的任務,都需要花費大量時間和人力來設計並調整獎勵訊號。這樣的解決方案在現代社會日益增長的智慧體需求下完全不具有可持續性。
所以,本次研究團隊考慮的是能否直接從現有資料中學習到一個合理的額外獎勵訊號呢?直觀來講是可以的,即使用蒙特卡洛法估算價值函式。而每兩個狀態之間的價值差就可以作為一個額外的獎勵訊號(智慧體從低價值狀態轉移到高價值狀態就會得到一個正向的獎勵,反之則是懲罰)。
但是,如果資料集不是由一個性能很好的智慧體產生的,又或者資料集裡包含一些沒有被觀測到的混雜偏差呢?這時直接用蒙特卡洛法估計出來的價值函式就不再是無偏的,並且可能會和最優價值函式相去甚遠。
於是,在本次論文裡研究團隊探索瞭如何使用一些因果推斷的工具來自動地從多個可能有混雜偏差的資料集裡學習到合理的獎勵函式,並從理論上證明解釋了為何此類獎勵函式能夠顯著提高特定智慧體訓練的效率,大量實驗結果也證明了本次發現。
(來源:https://arxiv.org/pdf/2505.11478
曾經,李明軒並不覺得這一演算法上的改進能帶來多少樣本複雜度上的改善,因為很多前輩論文已經論證過使用吳恩達提出的 PBRS 這一特定方式增加額外獎勵訊號在很多情況下並不會影響樣本複雜度。對此,李明軒的導師也曾表示感到遺憾,因為這完全解釋不了他們在實驗上觀測到的大幅效能提升。
不過在李明軒即將放棄之前,他又再次重溫了近年來一些線上探索演算法的複雜度分析論文,同時這次他著重閱讀了相關論文附錄中的證明細節。就在這時,李明軒突然發現幾個不同論文裡用到的中間結論聯絡在一起,似乎正好可以幫他證明自己想要的樣本複雜度結論。
這一瞬間的直覺後來被證明是正確的,並且結論也非常的整潔漂亮,讓我有種難以言說的巧合感。有時,偶爾能在寫程式碼的間隙,體會到類似於剛找到最後一塊拼圖的證明的快樂。他表示。
日前,相關論文以《從混雜離線資料中自動實現獎勵塑造》(Automatic Reward Shaping from Confounded Offline Data)為題被 2025 國際機器學習大會(ICMLInternational Conference on Machine Learning)收錄 [1]
圖 相關論文(來源:https://arxiv.org/pdf/2505.11478
目前,研究團隊正在探索如何把這一理論工作拓展到更大規模的問題中如電子遊戲(atari games)以及一些需要連續狀態和動作空間的機器人控制問題之中。
參考資料:
1.https://arxiv.org/pdf/2505.11478


相關文章