MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者｜AIQL

在本文中，我們將深入探討Deepseek採用的策略最佳化方法GRPO，並順帶介紹一些強化學習（Reinforcement Learning, RL）的基礎知識，包括PPO等關鍵概念。

策略函式（policy）

在強化學習中，表示在狀態下采取動作的條件機率。具體來說，它是由策略函式決定的。

詳細說明

表示在時間步時的狀態（state）。
狀態是環境對智慧體的當前描述，例如在遊戲中可能是角色的位置、速度等資訊。

表示在時間步時智慧體採取的動作（action）。
動作是智慧體在給定狀態下可以執行的操作，例如在遊戲中可能是“向左移動”或“跳躍”。

是策略函式（policy），表示在狀態下選擇動作的機率。
如果是確定性策略，會直接輸出一個確定的動作；如果是隨機策略，它會輸出一個動作的機率分佈。

在 PPO 中，是新策略和舊策略在狀態下選擇動作的機率比。
這個比值用於衡量策略更新的幅度，並透過裁剪機制限制其變化範圍，確保訓練的穩定性。

舉例說明

假設我們有一個簡單的遊戲環境：

狀態：角色的位置。
動作：可以執行的動作是“向左”或“向右”。
策略：在某個位置下，策略可能以 70% 的機率選擇“向左”，以 30% 的機率選擇“向右”。

在 PPO 中，我們會比較新舊策略在相同狀態下選擇相同動作的機率，從而計算機率比，並用於最佳化目標函式。

總結

表示在狀態下選擇動作的條件機率，由策略函式決定。在 PPO 中，這一機率用於計算新舊策略的比值，從而控制策略更新的幅度。

近端策略最佳化（PPO）

PPO（Proximal Policy Optimization）是一種用於強化學習的策略最佳化演算法，由 OpenAI 提出。它透過限制策略更新的幅度，確保訓練過程的穩定性。

核心思想

PPO 的核心在於限制策略更新的幅度，避免因更新過大導致效能下降。它透過引入“裁剪”機制，控制新舊策略之間的差異。

公式

PPO 的替代目標函式用於最佳化策略，公式如下：

其中：

期望符號表示對查詢和輸出的期望:

: 查詢從分佈中取樣。
: 輸出由舊策略生成。

對輸出的每個時間步求平均:

是輸出序列的長度。

其核心目標函式為：

其中：

是新舊策略的機率比。
是優勢函式，衡量動作的相對好壞。
是裁剪引數，通常為 0.1 或 0.2。

步驟

取樣：使用當前策略與環境互動，收集資料，在語言模型中，可以類比為生成補全（generating completions）。
計算優勢值：基於收集的資料計算優勢值函式。
最佳化目標函式：透過梯度上升最佳化目標函式。
更新策略：重複上述步驟，直到策略收斂。

優點

穩定性：透過裁剪機制，避免策略更新過大。
高效性：相比 TRPO，PPO 實現更簡單，計算效率更高。

補充

在強化學習中，策略的目標是最大化期望回報，而不是最小化損失。所以，在PPO中使用的是梯度上升，原因在於它的最佳化目標是最大化目標函式（如強化學習中的期望回報），而不是最小化損失函式（如分類或迴歸問題）。

Advantage（優勢函式）

定義

Advantage函式用於衡量在某個狀態（State）下，採取某個動作（Action）相對於平均表現的優劣程度。它的數學定義為：, 其中：

是動作值函式，表示在狀態下采取動作後，未來累積回報的期望。
是狀態值函式，表示在狀態下，按照當前策略採取動作後，未來累積回報的期望。
是優勢函式，表示在狀態下采取動作比平均表現好多少（或差多少）。

作用

Advantage函式用於指導策略更新：
如果，說明動作比平均表現更好，策略應該更傾向於選擇這個動作；
如果，說明動作比平均表現更差，策略應該減少選擇這個動作的機率。
在PPO等演算法中，Advantage函式通常透過GAE（Generalized Advantage Estimation）來估計。

直觀理解

Advantage函式就像一個“評分”，告訴模型某個動作在當前狀態下是好還是壞，以及好（或壞）的程度。

KL Penalty（KL散度懲罰）

定義

KL Penalty是基於KL散度（Kullback-Leibler Divergence）的一種正則化手段。KL散度用於衡量兩個機率分佈之間的差異。在強化學習中，KL Penalty通常用於限制當前策略和參考策略之間的差異。其數學定義為：其中：

是當前策略（由模型引數決定）。
是參考策略（通常是更新前的策略或某個基線策略）。
是KL散度，用於衡量兩個策略之間的差異。

作用

KL Penalty用於防止策略更新過大，確保當前策略不會偏離參考策略太遠。這樣可以避免訓練過程中的不穩定現象（如策略崩潰）。
在PPO等演算法中，KL Penalty通常被新增到目標函式中，作為正則化項。

直觀理解

KL Penalty就像一個“約束”，告訴模型在更新策略時不要“步子邁得太大”，以免失去穩定性。

Advantage和KL Penalty的關係

Advantage 用於指導策略更新，告訴模型哪些動作更好。
KL Penalty 用於約束策略更新，防止策略變化過大。
在PPO等演算法中，Advantage和KL Penalty共同作用，既鼓勵模型選擇更好的動作，又確保更新過程穩定可靠。

舉例說明

假設我們訓練一個機器人走迷宮：

Advantage：機器人發現“向右轉”比“向左轉”更容易找到出口，於是Advantage函式會給“向右轉”一個正的值，鼓勵策略更傾向於選擇“向右轉”。
KL Penalty：為了防止策略突然變得只選擇“向右轉”而忽略其他可能性，KL Penalty會限制策略的變化幅度，確保策略更新是平滑的。

總結

Advantage（優勢函式）：衡量某個動作比平均表現好多少，用於指導策略更新。
KL Penalty（KL散度懲罰）：限制策略更新的幅度，確保訓練過程的穩定性。

群體相對策略最佳化（GRPO）

GRPO 是一種線上學習演算法（online learning algorithm），這意味著它透過使用訓練過程中由訓練模型自身生成的資料來迭代改進。GRPO 的目標直覺是最大化生成補全（completions）的優勢函式（advantage），同時確保模型保持在參考策略（reference policy）附近。

其目標函式為：

為了理解 GRPO 的工作原理，可以將其分解為四個主要步驟：

生成補全（Generating completions）
計算優勢值（Computing the advantage）
估計KL散度（Estimating the KL divergence）
計算損失（Computing the loss）

1. 生成補全（Generating completions）

在每一個訓練步驟中，我們從提示（prompts）中取樣一個批次（batch），併為每個提示生成一組個補全（completions）（記為）。

2. 計算優勢值（Computing the advantage）

對於每一個序列，使用獎勵模型（reward model）計算其獎勵（reward）。為了與獎勵模型的比較性質保持一致——通常獎勵模型是基於同一問題的輸出之間的比較資料集進行訓練的——優勢的計算反映了這些相對比較。其歸一化公式如下：

這種方法賦予了該方法其名稱：群體相對策略最佳化（Group Relative Policy Optimization, GRPO）

GRPO透過最佳化PPO演算法，解決了計算優勢值時需要同時依賴獎勵模型（reward model）和價值模型（value model）的問題，成功移除了value model（價值模型），顯著降低了推理時的記憶體佔用和時間開銷。Advantage（優勢值）的核心價值在於為模型輸出提供更精準的評估，不僅衡量答案的絕對質量，還透過相對比較（與其他回答的對比）來更全面地定位其優劣。

3. 估計KL散度（Estimating the KL divergence）

在實際演算法實現中，直接計算KL散度可能會面臨一些挑戰：

計算複雜度高：KL散度的定義涉及對兩個機率分佈的對數比值的期望計算。對於複雜的策略分佈，直接計算KL散度可能需要大量的計算資源；
數值穩定性：在實際計算中，直接計算KL散度可能會遇到數值不穩定的問題，尤其是當兩個策略的機率分佈非常接近時，對數比值可能會趨近於零或無窮大。近似器可以透過引入一些數值穩定性的技巧（如截斷或平滑）來避免這些問題；
線上學習：在強化學習中，策略通常需要在每一步或每幾步更新一次。如果每次更新都需要精確計算KL散度，可能會導致訓練過程變得非常緩慢。近似器可以快速估計KL散度，從而支援線上學習和即時更新。

Approximating KL Divergence 提出的近似器可以根據當前策略和參考策略的差異動態調整估計的精度，從而在保證計算效率的同時，儘可能減少估計誤差，其定義如下：