MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者 | skydownacai

TL;DR

本文主要介紹逆強化學習的演算法原理, 講解如何從專家資料中找到一個獎勵函式來解釋專家行為。由於逆強化學習演算法眾多，全面的介紹所有演算法超出了本文的範疇。本文主要介紹基於以IQ-Learn為代表的最大邊際逆強化學習演算法。並在最後介紹基於IQ-Learn思想的南大的工作《Generalist Reward Models: Found Inside Large Language Models》 (下文簡稱GRM)。本文的主要內容如下:

• 什麼是逆強化學習?
• 如何求解逆強化學習?
• 最大邊際逆強化學習
• 模仿學習是分佈匹配問題，而逆強化學習與模仿學習互為對偶問題
• IQ-Learn
• GRM

什麼是逆強化學習?

強化學習(Reinforcement Learning, RL) 是給定互動環境與獎勵函式後求解一個最優策略使得最大化期望累積獎勵, 並生成優質軌跡。

而逆強化學習(Inverse Reinforcement Learning, IRL) 則是反其道行之：假設我們有一批採集於專家策略的離線軌跡資料 , 我們希望找到一個獎勵函式來解釋資料中的行為。即認為專家策略的生成是透過一個內在獎勵函式得到的。

如何求解逆強化學習?

正如上述所說，逆強化學習希望從專家軌跡資料中恢復獎勵函式。那麼建立求解IRL正規化的核心在於建立從獎勵函式到專家策略的對映，從而透過專家資料求解反問題來恢復 。事實上，透過建立不同的與的關係，我們可以衍生出不同的IRL演算法分支。下面便是兩種具體分支(其他演算法不再具體展開)：

基於最優性條件建模

通常專家策略採集到的資料是高質量的軌跡資料。因此這類方法直接認為專家策略實際上是以為獎勵函式的最優策略. 給定任意獎勵函式, 如果我們定義函式是以為獎勵函式執行RL得到的最優策略集合, 那麼根據假設有.

從而IRL 求解的是逆問題，即給定的資料後，我們希望求解。因此這類演算法的一個核心在於如何利用MDP的最優性條件來恢復。

• 一種是透過線性規劃來直接建模在下的MDP的在最優性 [1]，
• 一種則是本文所講的最大邊際演算法, 最大化的值函式與其他策略的值函式的差距來建立最優性。

直接機率建模

這類方法以最大熵逆強化學習[3]為代表, 直接透過獎勵函式建模了。以確定性環境為例，給定軌跡

該演算法認為專家策略對應的軌跡機率滿足:

且專家資料 . 因此我們可以透過例如極大似然估計與Bayes等方法來估計 .

最大邊際逆強化學習

基於最大邊際IRL演算法最早出現在 2004年的吳恩達的工作 [2], 其基本求解正規化如下:

其中是給定獎勵函式下專家策略的值函式與實際最優策略的值函式的差(即邊際),是獎勵函式空間,是給定獎勵函式下策略在初狀態分佈下的期望累積獎勵，即:

為什麼最大邊際演算法是合理的?

如果我們仔細看一下邊際在不同獎勵函式上的取值便可知其合理性。我們把獎勵函式分成兩類。第一類是使得成為最優策略的獎勵函式集合 , 即,

另一類則是沒有使得成為環境最優策略的獎勵函式集合, . 根據定義我們容易知道:

因此透過求解最大邊際目標函式得到的獎勵函式, 必然使得，從而能夠使得專家策略成為環境的最優策略，這滿足我們對真實的專家獎勵的假設: 即是專家獎勵上的最優策略。

如何求解最大邊際IRL?

如果我們仔細觀察求解目標 (1) 的式子可以發現，要求解，我們需要對每一個固定的獎勵函式 , 求解出專家值函式與最優值函式。

實際上，前者是可以直接從專家軌跡資料中估計出來，而後者需要求解一個RL問題，如果不進行近似或化簡，整個問題是intractable的。實際上圍繞如何化簡求解衍生出了不同工作。

本文後面所講的IQ-Learn的一個非常重大的貢獻則是利用了Inverse Bellman Operator 直接得到了最優策略與最優值函式，從而將巢狀最佳化變成了單目標最佳化。下面我們仍然以最早期的2004年的吳恩達的工作 [2] 為例，來直觀的感受下IRL的一種求解方式，怎麼將整個問題變成tractable的。

我們考慮離散的狀態空間與動作空間。假設每個狀態有一個特徵向量 , 我們建模獎勵函式為引數與特徵向量的內積，且只與狀態有關, 即:

根據我們在 (2) 中的值函式定義, 對任意引數與策略 , 我們有值函式

其中

為feature expectations. 因此給定專家軌跡資料集

對於任意引數獎勵函式引數 , 我們都可以透過得到專家值函式的估計:

主要到求解目標(1) 還需要對每個知道。在[2] 中，為了使得這一項變得tractable, 演算法過程會迭代收集策略，得到一個策略集合，並透過近似得到。具體來說，考慮第次迭代步數 , 假設我們已經有一個策略集合(當 k= 0的時候隨機初始化一個策略) 與對應的 feature expectations 的估計, 那麼給定任意的引數向量 , 我們有

從而最大邊際IRL目標函式(1) 更新新的引數近似變成了下面問題:

可以看到上述目標函式對於來說是線性的，易處理的。當我們得到後，我們執行 RL演算法求解基於上的最優策略並加入策略池子。再開始新的迭代。在原始論文中，我們對邊際做閾值控制，來判斷什麼時候停止演算法。原始論文中的演算法步驟如下:

Abbeel, P., and Ng, A. Y. 2004. Apprenticeship learning via inverse reinforcement learning. In Proc. ICML, 1–8. https://ai.stanford.edu/~ang/papers/icml04-apprentice.pdf

正則下的最大邊際IRL正規化

回顧最早期工作 [2]中提出的最大邊際IRL正規化

我們在前文中論證了該正規化的合理性，並以[2]為例講解了一個實際的求解演算法。然而該正規化在提出後，求解是十分困難的。為了增加該正規化的可求解性與魯棒性，後續工作為該正規化添加了正則化約束，來保證該問題更易求解的。為了方便論述，我們首先增加一些符號的定義。我們仍然考慮離散的狀態空間與動作空間。我們定義狀態動作對在整個軌跡中的的折扣訪問機率為:

那麼容易驗證 (2) 中的值函式定義滿足 :

是獎勵向量與訪問機率向量的內積。從而最大邊際IRL目標 (1) 等價於

我們容易注意到, 整個問題關於和都是線性的。給定一個，內層關於的求解可能有多個最優策略，同樣外層的也有可能有多個最優解。因此在最大熵相關工作[3,5] 後, 後續的工作對內外層分別添加了正則化元素，保證整個問題是一個(strongly) concave-convex，於是可以透過對偶等理論，簡化整個問題。具體來說，有兩個改動:

• 考慮最大邊際熵正則下的值函式. 我們定義

即是獎勵函式下，熵正則係數為的策略的值函式。容易驗證:

考慮熵增則值函式的一個非常大的好處是，最優策略有且只有一個. 後續工作如IQ-Learn 則充分利用了這一點

• 對獎勵函式新增一個concave的正則項 , 其中是一個convex函式. 如果是strongly convex, 那麼我們可以保證求解的是唯一的。

於是在這兩個改動下，最大邊際IRL目標(1) 變成了

可以看到原始的最大邊際 IRL (1) 的解是正則後的目標 (5) 中取的情況。注意問題(5)中有一個常數項，不影響最優性。因此為了符號上的簡單，我們下面的論述都將它去掉。因此正則後的最大邊際IRL為求解下面雙變數函式熵的max-min 問題

在 GAIL的工作 [6] 中, 對上述函式的max-min求解做了更深入的分析 (基於了[4]中有關訪問機率的一些分析)，在下一節中會介紹主要的結論。如果不感興趣的同學可以直接跳到下下節中有關IQ-Learn的介紹。

模仿學習與逆強化學習的內在關係

這一節，我們會介紹 GAIL[6] 中對正則下的最大邊際IRL目標 (5) 的一些理論分析，最終揭示模仿學習和逆強化學習的內在關係。我們考慮獎勵向量來自於整個實數空間, 即 . 下面我們逐步說明：

• 對目標函式的求解，可以在訪問機率空間進行，而不是策略空間進行。同時函式關於在下是強凸的。
• 我們說明目標函式是max-min可交換的。在強凸下存在唯一最優值點
• 模仿學習本質上分佈匹配問題
• 正則下的IRL問題在max-min互動後得到的對偶問題是分佈匹配問題, 從而說明模仿學習與逆強化學習互為對偶問題。

Bellman Flow Constraint : 策略與訪問機率是一一對應的

注意到我們的目標函式變數是, 函式值依賴於與。關於的單調性與凹凸性未知，這就帶來的分析的麻煩。好在，[4,9] 中指出了策略值與訪問機率值的一一對應關係。我們定義多邊形

其中為轉移機率。容易驗證是一個凸集。集合中關於向量的約束稱為 Bellman Flow Constraints。我們定義策略誘匯出來的方位機率空間為

[4,9] 指出，如果我們把訪問機率看成一個關於的對映，那麼實際是從到的一一對映。即, 並且不同的有不同的。更具體的，給定中的任意一個向量 , 我們可以構造誘匯出的策略

可以證明的訪問機率向量為本身，即。從而同樣可以得到與滿足

正則下的IRL目標關於訪問機率是強凸的

基於上面的觀察，我們可以得到, 正則下的IRL目標函式 (6) 實際上可以寫成

其中函式為的軌跡上的策略熵，即，

[6] 中嚴格證明了，是的強凹函式，因此在下是關於的強凸函式

正則下的IRL目標是min-max 可交換的, 在強凸下具有唯一的最優點

回顧上面的分析，我們可以得到正則IRL的目標函式 (6)，即，對內層的求操作，可以等價的轉化為對訪問機率的一個強凸函式的求min操作。我們記

於是正則IRL的求解問題(5), 滿足

其中 (a) (c) 利用了上一節討論的實際上是從到中的一一對映，而(b)是利用了強對偶性，即是關於凸的，關於凹的. 注意到本來關於就是強凸的，因此在強凸下，同時也是關於強凹的，從而存在唯一的最優點，在一一對映下，也存在唯一的最優點

模仿學習本質上是分佈匹配問題

在論述模仿學習與逆強化學習互為對偶問題前，我們首先論述模仿學習本質上是分佈匹配問題。模仿學習的目標是在不知道真實的獎勵函式下，單純給定專家策略的軌跡資料後，我希望學習到一個策略使得兩者的值函式相近，甚至後者超越專家策略。我們仍然考慮無正則下的值函式。回顧我們在(3)中對值函式的分解有：

如果我們假設獎勵函式向量是有界的，例如

可以看到，即使我們不知道真實的獎勵函式是什麼，只要是有界的，那麼我們都可以透過最小化，專家策略與當前策略的訪問機率分佈距離，都可以使得值函式的差距變小。因此模仿學習的主要工作都集中在，如何透過專家的軌跡資料來最佳化當前的策略的軌跡分佈，從而逼近的軌跡分佈。例如GAIL[6]求解的問題實際上即為專家軌跡分佈與當前軌跡分佈的JS距離，即

逆強化學習是模仿學習的對偶問題

根據(7)，正則下的 IRL目標(5) 是max-min可交換的，即

在交換後右側的對偶原問題中，固定一個策略，我們考慮內層最大化的求解可以得到

其中是的共軛函式。如果我們考慮是一個常數函式，那麼容易得到

於是交換後的原問題實際上為:

即尋找一個策略使得軌跡與專家策略的軌跡分佈相同, 即，同時希望最大化誘匯出來的策略熵。可以看到這實際上就是一個典型的分佈匹配問題。因此我們的正則下的IRL目標，即

實際上是上述分佈匹配問題的對偶問題

IQ-Learn : Inverse Soft-Q Learning for Imitation

下面我們介紹 2021年的工作 IQ-Learn，講解這篇工作透過數學變換，將正則下的IRL目標(5) 變得tractable的。本文的講解的方法與原文還不一樣，但是本質的思想是一樣的，且更容易方便理解。回顧目標(5), 我們希望最大化熵正則下的值函式的邊際來求解IRL，即

該問題intractable的原因在於對於每個你都需要知道對應的RL後的最優值函式

實際上，注意到我們的值函式是熵正則下的值函式, 即定義(4)，此時最優策略是唯一的，且具有顯示的表示式。如果我們定義獎勵函式下的的最優策略為, 對應的每個狀態和狀態動作對處的最優值函式分別為,，那麼根據 Bellman optimality equations 中與的關係我們可以得到

即，如果我們知道了每個獎勵函式下的最優熵正則Q函式, 我們就能得到RL後的最優值函式。作者最聰明的一點在於，巧妙觀察了Bellman equations 中獎勵函式與Q函式中的關係，將問題化簡。給定任意一個獎勵函式與策略, 根據Bellman equation，我們有策略的Q函式滿足 :

同樣的給定任意一個獎勵函式 , 最優策略的Q函式滿足 :

觀察 (9)與(10) 我們可以知道：知道後求解Q函式很難，但是如果反知了Q函式，求解很容易。作者文中的推導都是基於(9)進行，這裡我們基於(10)進行。根據 (10), 我們可以得到:

也就是說，如果我知道了，我可以很輕易的知道，對應的獎勵函式是什麼。因此我們可以定義inverse Bellman operator , 給定任意向量 , 我們定義

根據定義可以知道，如果我們認為 Q 是某個獎勵函式下的熵正則最優值函式，那麼實際上就是找到使其滿足最優性的對應的獎勵函式。也就是說如果我們以作為獎勵函式求解最大熵RL，那麼對應的最優值函式實際上就是 Q。即獎勵函式與Q函式的tuple, , 滿足Bellman optimality equation. 於是給定任意獎勵函式 , 對應求解後的最優值函式為，由於滿足Bellman optimality equation, 那麼必然有:

因此 inverse Bellman operator 建立了一個從Q vector space 到 reward vector space的對映，如圖

作者在[6]中證明了 inverse Bellman operator 在離散狀態動作空間下是一個從reward space 到 Q space 的一個一一對映。從而我們可以將正則IRL目標(5) 中對 reward space 求max 的操作，轉換成對Q space 求max 的操作，同時利用的一一對映屬性, 替換邊際函式內的：即

注意到我們對的定義(11)，給定任意一個 Q ，以作為獎勵函式的最優Q值函式就是Q本身，從而根據(8)

如果我們繼續考慮正則項滿足

其中是一個convex 函式 (從而也是)，那麼我們正則IRL目標可以繼續寫成:

其中

可以看到原始 max-min問題，透過把求解空間從reward space 替換成Q space 與 inverse Bellman operator的介入，巧妙的解決了內層需要求解的問題，使得整個問題變成了單目標的最佳化。具體的演算法這裡不再過多展開。詳情請看論文。

GRM : Generalist Reward Models

最後我們介紹基於IQ-Learn中 inverse Bellman Operator 思想的南大的工作《Generalist Reward Models: Found Inside Large Language Models^[1]》。根據我們在上一節中對inverse Bellman operator的介紹可以知道，任意一個動作狀態對上的實值函式Q，我們都可以透過對其作用來找到一個獎勵函式，即，使得求解上的RL最大熵策略的值函式，就是 Q 本身。 GRM的工作則是充分利用了這一點。注意到我們的LLM token-level的生成實際上是以詞表為動作空間，前文token序列的拼接作為狀態的MDP。給定任意一個前文狀態, next token的生成策略是一個詞表上的softmax 策略, 即:

其中是transformer引數為下輸出的 logits。注意到實際上就是一個上的函式, 那麼如果我們根據(11), 定義獎勵函式

那麼容易知道, 滿足最大熵RL的Bellman optimality equation. 從而以為token-level 獎勵函式，跑係數為, 折扣為的最大熵RL 得到的最優Q值函式為. 注意到在LLM token-level MDP中，環境的轉移是確定性的，且我們通常考慮折扣 , 從而獎勵可以寫為:

其中表示前文token序列與生成token 的拼接。於是我們可以從任意logit函式得到一個內在獎勵

誘導內在獎勵本質上是模仿獎勵

一個核心的問題是，以logit函式誘匯出來的內在獎勵，，在logit函式具有什麼屬性下是好的? 因為RL的目標是最大化期望累積獎勵，因此我們評判獎勵函式好不好，可以直接看上對應的軌跡累積獎勵，看是否那些具有高獎勵的軌跡是我們想要的。考慮最大長度為 T 上的軌跡生成。給定一個軌跡序列其中是是生成的token。為方便起見，我們定義和

考慮 , 注意到softmax策略滿足

於是根據(12)中logit誘匯出來的內在獎勵的定義, 任意一軌跡對應的累積獎勵為:

其中, , (a)根據 (13), 最後一行是因為我們定義RL的決策最大長度為 T ，因此terminal state的value 等於0. 因此，基於上面的推導，如果我們基於內在獎勵作為token-level 獎勵，跑無約束RL，那麼本質上求解的是：

即希望策略最佳化到對應的策略的高機率軌跡上，因此實際上給我們提供了一個模仿策略生成的獎勵函式。因此的好壞，本質上依賴於的高機率軌跡的好壞。即如果的高機率軌跡是好的，我們在的上誘匯出一個內在獎勵上跑RL，可以將我們的actor model對齊到的高機率區域 (模仿)，從而產生的高機率軌跡。

GRM總結

1、任意一個LLM的token 生成策略 , 都可以對logit 函式作用inverse bellman operator , 誘匯出一個內在獎勵

使得滿足Bellman optimality equation.

2、給定任意一個LLM生成策略 , 在其誘匯出來的內在獎勵上跑無約束RL, 本質上最佳化的是

會將 actor model 與的高機率分佈對齊。因此本質上提供了一個模仿生成的token-level 獎勵。

3、結合(1)(2) 所論述，內在獎勵的好壞，依賴於的生成質量的好壞。因為的高獎勵區域是的高機率區域。

參考文獻

[1]Andrew Y. Ng and Russel Stuart. Algorithms for inverse reinforcement learning. In ICML, volume 1 of 2, page 2, 2000.[2]Abbeel, P., and Ng, A. Y. 2004. Apprenticeship learning via inverse reinforcement learning. In Proc. ICML, 1–8. https://ai.stanford.edu/~ang/papers/icml04-apprentice.pdf[3]B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey. Maximum entropy inverse reinforcement learning. In AAAI, AAAI’08, 2008.[4]U. Syed, M. Bowling, and R. E. Schapire. Apprenticeship learning using linear programming. In Proceedings of the 25th International Conference on Machine Learning, pages 1032–1039, 2008. https://www.schapire.net/papers/SyedBowlingSchapireICML2008.pdf[5]B. D. Ziebart, J. A. Bagnell, and A. K. Dey. Modeling interaction via the principle of maximum causal entropy. In ICML, pages 1255–1262, 2010.[6]Jonathan Ho and S. Ermon. Generative adversarial imitation learning. In NIPS, 2016[7]Divyansh Garg, Shuvam Chakraborty, Chris Cundy, Jiaming Song, and Stefano Ermon. Iq-learn: Inverse soft-q learning for imitation. In Advances in Neural Information Processing Systems 34, pages 4028–4039, 2021[8]Yi-Chen Li and Tian Xu and Yang Yu and Xuqin Zhang and Xiong-Hui Chen and Zhongxiang Ling and Ningjing Chao and Lei Yuan and Zhi-Hua Zhou. Generalist Reward Models: Found Inside Large Language Models. Arxiv 2506.23235.[9]Puterman, M. L. (1994). Markov decision processes: Discrete stochastic dynamic programming. John Wiley and Sons.

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

長文解讀！逆強化學習與內在獎勵

TL;DR

什麼是逆強化學習?