
來源 | 知乎
作者 | 趙鑑,中科大博士
(前言:這篇文章我從祖師爺評上圖靈獎的時候開始寫的,但不停的在刪了重寫,刪了重寫,到現在為止才出一個我勉強接受的版本。我從我的視角來描述下我覺得這些年來強化學習的發展風向。先疊個甲,本人學術不精,本文所有觀點都乃我一家之言,歡迎大家批評指正。)
最近在幫忙給強化學習立標準,我發現這是一件非常痛苦的任務。因為隨著這兩年強化學習的大力發展,強化學習衍生出了許許多多的子課題方向,除了最經典的online RL以外,
例如offline model-free RL,model-based RL,RLHF,multi-agent,risk-sensitive,inverse RL等等,要給這些子課題找共性非常困難。
而在傳統教科書中,強化學習的標準制定時由於這些子課題還未出現,導致定義早已過時。舉個例子,例如強化學習強調智慧體跟環境互動,而offline RL方向偏說我就不跟環境互動。再例如強化學習強調無需人類標籤還是採用獎勵訊號,RLHF說我就不是這樣。
所以我打趣說,這就像以前府裡有個RL的老太爺。老太爺年輕氣壯的時候,所有的子子孫孫都說自己是RL府裡的。結果隨著日子發展,RL府裡的少爺們走了不同的方向,一個個飛黃騰達,有些混的比老太爺都好了。這時你說要在RL幾個兒子裡找到相同特性,只能說有點不合時宜了,勉強只能說他們都留著RL的血脈吧。
於是我只能根據強化學習這10年左右的發展時光,看看每個階段給強化學習做了怎麼樣的註解。
強化學習一階段
大概在十年前,在我剛做RL的時候,其實RL沒有定義,只有描述,大家認為RL是一種解決馬爾可夫決策過程的方法,典型演算法包括DQN、PPO。當然那時我們有一種歷史侷限,就認為這個描述是個充要條件。也就是認為只有value-based演算法(DQN),policy-based演算法(PPO)這種才算是強化學習,其他統統不算。
同時這個階段,有大量的強化學習研究者開始湧入這個方向,大家總體分為兩撥,學術界的學者試圖研究通用的強化學習演算法,而工業界的人則在給強化學習找應用場景。
那像作者這樣天資愚笨的同學自然在通用演算法上沒有辦法做出太多創新,於是大家開始給強化學習的問題定義做細緻擴充套件,出現了多智慧體強化學習, 安全強化學習等等的強化學習子方向。
從後驗角度出發,其中某些子方向的問題定義其實缺乏實踐依據,導致強化學習產生了一個後遺症:給人留下了沒法用的汙點。
強化學習二階段
隨著第一批強化學習研究生的畢業,強化學習也進入了大應用時代。最開始,人們對強化學習應用的要求也非常嚴格,在強化學習應用的論文描述裡必須有以下內容:
1.非常準確的狀態空間和動作空間定義2.必須存在狀態轉移函式,不允許單步決策,也就是一個動作就gameover3.必須有過程獎勵,且需要存在犧牲短期的過程獎勵而獲取最大累計回報的case案例
說個開玩笑的話,如果DS的文章放到幾年前RL的審稿人手裡,他大機率會得到這樣的回覆:這只是採用了策略梯度的方式將不可導的損失/獎勵函式用於最佳化神經網路引數而已,請不要說自己使用了強化學習。
這導致像作者這樣的old school,在看到最新的強化學習應用文章時,總會試圖問文章作者幾個基礎的問題,狀態是啥,動作是啥,獎勵是啥。但其實現在很多文章已經不考慮這些問題了。
那時大家普遍認可的應用方向是遊戲AI,因為遊戲AI符合上述所有的定義,並且遊戲環境較為容易獲得。但較為可惜的是,以強化學習為核心的遊戲AI應用市場份額不大,隨著PR價值的慢慢淡去,這個領域漸漸容納不下日益增長的強化學習研究生。
而在落地其他工業場景的時候,由於模擬器的不完善,導致強化學習難以開展智慧體訓練。如果模擬器投入程度不高,同時又存在sim2real這個難以逾越的問題,市場慢慢對其失去了信心。
大家只好開始自謀生路。
強化學習三階段
作為經歷過二階段的研究者們發現,強化學習落地的真正難點在於問題的真實構建,而非近似構建或策略求解等等方面的問題。所以首先強化學習的概念擴大了,從原先任務只有求解策略的過程是強化學習,變成了構建問題+求解策略統稱為強化學習。
典型如offline model-based RL和RLHF,其中核心的模組變成了透過神經網路模擬狀態轉移函式和獎勵函式,策略求解反而在方法論中被一句帶過。
我個人覺得這件事是具有強化跨時代意義的,因為理論上這個過程可以被解耦,變成跟強化學習毫無相關的名詞概念,例如世界模型概念等等。非常感謝RL方向大牛研究者的持續輸出,是他們工作的連續性,保證了強化學習的火焰沒有在這次迭代中熄滅。
繼續發展下去,人們發現:可以解決一切問題的強化學習被證明,沒有有效的互動環境下的就沒法達到目標,有這種有效互動環境的實際應用場景卻非常少。導致把決策問題的過程步驟:問題建模、樣本收集、策略訓練、策略部署的週期拉得更長了,這幾個步驟不是跟線上強化一樣那麼緊湊,是斷開了鏈路的。
於是神奇的事情發生了:中間過程的任何一個步驟都變成了強化學習!
但實話實說,即使出現了這樣程度的概念擴大,強化學習的應用落地仍然不太樂觀。
直到大模型訓練把整套邏輯發揚光大了。
強化學習四階段(猜測未來)
直到現在,我們有一次在討論強化學習和監督學習分界線的時候,大家都一時語塞。某數學系的老哥給出一個定義。
監督學習最佳化的是 非參分佈下的含參loss function強化學習最佳化的是 含參分佈下的非參loss (cost/reward) function?公式如下:

但我說這個公式可以做輕微推導:

這時我們得到了一個暴論:監督學習只是強化學習的一個特例。
具體的case也不難獲得,例如在二分類問題中,狀態是輸入特徵,輸出是0/1,獎勵是分類正確了給1,分類錯誤了給0。基於PG的推導公式跟二分類entropy loss是完全一致的。無監督的例子跟強化學習的關係也可以得到類似的推導。
那我們熟知的概念:機器學習分為監督學習、無監督學習和強化學習。
變成了:機器學習就是強化學習,監督學習和無監督學習只是其中的特例。
那麼強化學習的應用也就會變得越來越多,讓人們覺得它越來越有用。
後記
寫到這一塊我開始杞人憂天,難以下筆。我開始思考這種發展對於RLer來說是否健康的。
持反對意見的領域就是文章開頭的祖師爺sutton,祖師爺理論上是這一波RL概念擴大收益最大的人,但祖師爺在talking上表達了他的觀點:

甚至在某次和小夥伴的交流中,祖師爺說RLHF是scam,持完全的否定態度。
但作為一個強化學習研究者,並嘗試去進行AI應用落地的人來說,至少這波RL概念擴大,讓RLer吃上了飯,甚至吃上了好飯,應該還是要對此心懷感激的吧。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
