後訓練時代如何延續ScalingLaw？這是你該讀的LLM後訓練綜述

機器之心報道

編輯：Panda

現如今，微調和強化學習等後訓練技術已經成為提升 LLM 能力的重要關鍵。

近日，一份圍繞 LLM 後訓練的綜述報告收穫了不少好評，其整理相關論文和工具的資源庫已經收穫了超過 700 star。

該綜述來自阿聯酋人工智慧大學、中佛羅里達大學、谷歌 DeepMind 和牛津大學等多所機構，涵蓋透過強化學習增強 LLM 的技術、監督式微調、測試時擴充套件以及 LLM 後訓練基準評估等內容。

論文標題：LLM Post-Training: A Deep Dive into Reasoning Large Language Models
論文地址：https://arxiv.org/abs/2502.21321
資源庫：https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

機器之心在下面簡要整理了該綜述報告的內容主幹，更多詳情請訪問以上鍊接。

近些年，大型語言模型（LLM）的能力在不斷提升，應用領域也在急速擴充套件。儘管如此，仍有問題存在。

比如 LLM 可能出現所謂的「幻覺」，即生成誤導性內容或不正確的事實；也可能在較長的會話中難以保持邏輯一致性。此外，LLM 中的推理概念仍然是一個備受爭論的話題。雖然推理模型可以給出看似邏輯連貫的響應，但它們的推理與人類那樣的邏輯推理有著根本的不同。這種區別至關重要，因為這有助於解釋為什麼 LLM 雖然可以產生令人信服的輸出，但卻仍然會在相對簡單的邏輯任務上遇到困難。

與操縱顯式規則和事實的符號推理不同，LLM 以隱式和機率的方式執行。在這篇綜述報告中，LLM 的「推理（reasoning）」是指基於資料中的統計模式生成邏輯上連貫的響應，而不是顯式的邏輯推理或符號操作。

此外，僅透過下一 token 預測訓練得到的模型可能無法與使用者的期望或道德標準對齊，尤其是在模糊或惡意場景中。這些問題表明，為了解決 LLM 輸出中的可靠性、偏差和上下文敏感性問題，還需要專門的策略。

LLM 的訓練過程大致可分為兩個階段：預訓練和後訓練。

預訓練階段通常依賴在大規模語料庫上的下一 token 預測目標，後訓練階段通常則包括多輪微調和對齊。後訓練機制的目標是透過最佳化模型行為來改進模型行為以及實現與人類意圖的對齊（包括減少偏見和不準確度）。

要讓 LLM 適應特定領域的任務，通常涉及到微調等技術。這些技術雖然可以實現針對具體任務的學習，但也存在過擬合的風險，並且還會產生高計算成本。

為了解決這些難題，強化學習（RL）被引入進來；這能讓模型使用動態的反饋和最佳化序列決策來提升適應能力。此外，包括低秩適應（LoRA）、介面卡和檢索增強生成（RAG）在內的 scaling 技術也可提高計算效率和事實準確性。

這些策略加上分散式訓練框架，促進了大規模部署，並進一步提高了 LLM 在不同應用中的可用性，見下圖 1。透過這些目標明確的後訓練技術，LLM 可以更好地與人類意圖和道德倫理要求對齊，最終提高其在現實世界中的適用性。下面總結了關鍵的後訓練階段。

微調

微調（Fine-Tuning）是讓已經預訓練的 LLM 適應具體的任務或領域，具體做法是基於精選資料集來更新引數。

儘管經過大規模預訓練的 LLM 通常具有很好的泛化能力，但微調也確實可以增強其在具體任務上的能力，包括情緒分析、問答和醫療診斷。這個過程通常是監督式的，可以使模型與任務要求對齊，但也會帶來過擬合、高計算成本和對資料偏差的敏感性等難題。

為此，LoRA 和介面卡等引數高效型技術可透過更新顯式引數來學習特定於任務的適應，從而顯著減少計算開銷。隨著模型的專業化，它們可能會在領域外泛化方面遇到困難，為此需要權衡考慮模型的專業性或多功能性。

強化學習

在傳統的強化學習（Reinforcement Learning）設定中，智慧體需要與結構化環境互動，採取離散的動作在狀態之間轉換，同時最大化累積獎勵。適用強化學習的領域都應具有定義良好的狀態 – 動作空間和明晰的目標，比如機器人、棋盤遊戲和控制系統。

而 LLM 領域的強化學習有很大不同。LLM 並不是從一個有限的動作集中進行選取，而是從一個巨大詞彙表中選取 token，而它們不斷演進的狀態則是由不斷增長的文字序列構成。這樣一來，規劃和 credit 分配就會變得非常複雜，因為 token 選取的效果通常要到後面才會顯現。

另外，基於語言的強化學習中的反饋存在稀疏、主觀和延遲的特點，因此通常依賴於啟發式評估和使用者偏好，而不是明確的效能指標。

不同於通常針對單個目標進行最佳化的傳統強化學習，LLM 還必須平衡多個有時相互衝突的目標。將基於過程的獎勵（例如，思維鏈推理）與基於結果的評估（例如，響應質量）相結合的混合方法有助於改進學習效果。因此，LLM 的強化學習需要專門的最佳化技術來處理高維輸出、非穩態目標和複雜的獎勵結構，確保響應保持上下文相關性並與使用者期望對齊。

規模擴充套件

規模擴充套件（Scaling）對於提高 LLM 的效能和效率至關重要。這能幫助提升模型在任務上的泛化效能，但同時也會帶來顯著的計算挑戰。為了平衡效能和資源效率，需要在推理時採取有針對性的策略。

思維鏈（CoT）推理和思維樹（ToT）框架等技術透過將複雜問題分解為順序或樹狀結構的步驟來增強多步驟推理。此外，基於搜尋的技術可以迭代探索可能的輸出，幫助改進響應並確保更高的事實準確性。這些方法與 LoRA、介面卡和 RAG 等方法相結合，可以提升模型處理複雜、特定領域大規模任務的能力。

RAG 可透過動態檢索外部知識來提高事實準確性，從而緩解靜態訓練資料的侷限性。
分散式訓練框架可利用並行處理來管理大規模模型的高計算需求。
測試時擴充套件可根據任務複雜性動態調整引數來最佳化推理。
修改深度、寬度或活動層可以平衡計算效率和輸出質量，使其適應資源有限或多變的條件。

儘管擴充套件方面進步頗多，但挑戰仍在，例如收益遞減、推理時間更長以及環境影響，尤其是在測試時而不是訓練期間執行搜尋技術時。為了高質量、高效地部署 LLM，確保可訪問性和可行性是至關重要的。

背景資訊

該綜述報告的第二部分介紹了 LLM 後訓練相關的背景資訊，其中包括基礎的形式化描述、基於強化學習的序列推理、以及用於語言建模的早期強化學習方法。但這裡我們就略過了，詳見原報告。

表 1 概述了近期的模型，包括它們的引數、架構型別和所採用的蒸餾 RL 方法。

圖 2 則總結了 LLM 的推理方法，其中展示了透過思維鏈（CoT）提示、自我反饋和情景記憶等方法增強推理能力的途徑。同時也突出展示了多種基於強化學習的最佳化技術，包括 GRPO、RLHF、DPO 和 RLAIF。

強化 LLM

從方法論的角度來看，為了將強化學習整合到 LLM 推理中，通常要遵循以下核心步驟：

1、監督式微調（SFT）：從預訓練語言模型開始，在包含高質量、人工製作的示例樣本的監督資料集上，對模型進行微調。此階段可確保模型獲得符合格式和樣式的基線。

2、獎勵模型（RM）訓練：收集微調模型生成的輸出並進行人工偏好標註。然後對獎勵模型進行訓練以復現這些基於標籤的分數或排名，從而有效地學習將響應文字對映到標量值的連續獎勵函式。

3、強化學習微調：最後，透過策略梯度演算法（例如 PPO）最佳化主語言模型，以最大化獎勵模型的輸出。透過迭代此迴圈，LLM 可學習在準確性、有用性和風格連貫性等關鍵維度上生成人類更偏好的響應。

4、獎勵建模和對齊：開發複雜的獎勵函式（借鑑人類偏好、對抗性反饋或自動化指標）以引導模型獲得連貫、安全且適配上下文的輸出。為了在多步推理過程中有效分配 credit，這些獎勵至關重要。

在早期，將 LLM 與人類偏好對齊的強化學習演算法是經典演算法，例如 PPO 和信任域策略最佳化（TRPO），這些演算法最佳化策略的方式是最大化預期累積獎勵，同時透過智慧體目標函式和 KL 散度正則化對策略更新施加約束。

針對可擴充套件的基於偏好的最佳化，已經出現了這些方法的改進版替代方案，例如直接偏好最佳化（DPO）和組相對策略最佳化（GRPO）。這些方法是將對齊目標重新表述為基於人類標註的偏好資料的排名式對比損失函式。

不同於依賴顯式獎勵模型和評價網路的 PPO 和 TRPO，DPO 和 GRPO 分別利用對數似然比和組獎勵比較來直接最佳化策略，從而無需顯式價值函式近似，同時還能保留偏好一致的學習動態。

這一節涉及的具體內容如下：

獎勵建模

顯示顯式獎勵建模
隱式獎勵建模
結果獎勵建模
過程獎勵建模
使用自適應獎勵模型的迭代式強化學習

策略最佳化

勝算比偏好最佳化（ORPO）
LLM 中的近端策略最佳化（PPO）
基於人類反饋的強化學習（RLHF）
基於 AI 反饋的強化學習（RLAIF）
信任區域策略最佳化（TRPO）
直接偏好最佳化（DPO）
離線推理最佳化（OREO）
組相對策略最佳化（GRPO）
多樣本比較最佳化

圖 3 給出了 PPO、GRPO 和 DPO 的比較。

基於純強化學習的 LLM 微調

冷啟動強化學習階段
拒絕取樣和微調
面向推理的強化學習
用於人類對齊的第二個強化學習階段
蒸餾以獲得較小模型

圖 4 的維恩圖說明了在實現高效的微調和部署時，系統、資料和模型之間的相互作用。它涵蓋了用以提升效能和可擴充套件性的加速器（Groq、vLLM）、適應器（LoRA、PEFT）、共同最佳化架構（FlashAttention）、資料壓縮（TokenMerging）、Scaling Law（Chinchilla）和模型壓縮（GPTQ）等策略。

LLM 中的監督微調

如圖 2 所示，微調是 LLM 後訓練配方的基本組成部分。這一節總結了不同型別的 LLM 微調機制，具體包括：

指令微調
對話（多輪）微調
CoT 推理微調
特定於具體領域的（專業）微調
基於蒸餾的微調
偏好和對齊 SFT
高效微調

下表概括性地總結了現代的 LLM 框架和方法。

測試時擴充套件方法

強化學習微調的是模型的策略，而測試時擴充套件（TTS）通常是在推理過程中增強模型的能力，這個過程無需更新模型。圖 5 給出了 TTS 方法的分類情況 —— 基於其底層技術進行了分類。

具體來說，包含以下技術：

集束搜尋
Best-of-N 搜尋（拒絕抽樣）
計算最優擴充套件
思維鏈提示
自我一致性解碼
思維樹（Tree-of-thoughts）
思維圖譜（Graph of Thoughts）
基於置信度的取樣
針對驗證者進行搜尋
透過最佳化實現自我改進
蒙特卡洛樹搜尋（MCTS）
行動-思維鏈推理
預訓練與測試時擴充套件

圖 6 則比較了 LLM 的推理策略，從直接提示法（不使用推理地將輸入對映到輸出）到更結構化的方法。

思維鏈（CoT）引入了逐步推理，而自我一致性（CoT-SC）則是生成多個 CoT 路徑並選擇最常出現的答案。Mutiple CoT 會獨立探索不同的推理路徑。思維樹（ToT）則是將推理構造為樹，從而實現回溯和細化，而思維圖譜（GoT）則是透過對思維進行動態聚合和連線來實現這一點。

LLM 後訓練評估基準

為了評估 LLM 後訓練階段的表現，人們已經提出了很多涉及多個領域的基準：

推理
強化學習對齊
多語言評估
通用理解
對話和搜尋

結構良好的評估框架可確保全面瞭解 LLM 在各種任務中的優勢和侷限性。

這些基準在 LLM 後處理階段起著至關重要的作用，模型在此階段經過微調、校準、對齊和最佳化，可以提高響應準確性、穩健性和道德合規性。本節分組介紹了主流的基準。表 3 概述了這些基準分組下的關鍵資料集。

未來方向

最後，作者團隊還收集了與 LLM 後訓練方法相關的論文並分析了它們的趨勢，如圖 7 所示。

可以看到，自 2020 年以來，強化學習在最佳化 LLM 方面的地位有了顯著提升（圖 7a），其中還突出了對互動式方法的需求，例如人機互動強化和可擴充套件性。

與此同時，由於自我獎勵語言模型的出現，人們對獎勵建模（圖 7b）的興趣也在穩步上升，但該領域仍在努力應對獎勵 hacking 問題，以及設計解決獎勵 hacking 的穩健型、可感知問題的獎勵函式。

解碼和搜尋（圖 7c）方法包括思維和蒙特卡洛策略，其目標是透過迭代自我批評來增強模型推理能力，但這些技術也需要可靠的不確定性估計器，以防止計算開銷過高。

安全性、穩健性和可解釋性同樣已成為核心關注點（圖 7d），這個方向的研究者推動了偏見感知型和不確定性感知型強化學習方法的發展，這些方法超越了與人類不確定性的相關性，可以維護使用者信任並防止對抗性攻擊。

個性化和適應性（圖 7e）也是關鍵領域 —— 在為特定領域定製 LLM 時，必須權衡考慮隱私風險，特別是涉及企業資料或敏感個人資訊時。

與此同時，過程與結果獎勵最佳化（圖 7f）仍然是一個懸而未決的問題：雖然基於過程的獎勵有助於指導漸進式改進，但以結果為中心的指標更簡單，但可能無法捕捉關鍵的中間決策步驟。

除了獎勵結構之外，針對新任務微調 LLM 時仍然會遇到災難性遺忘和潛在的資料洩露等問題，這就凸顯了對引數高效型方法和隱私保護策略（如差分隱私和聯邦學習）的需求。

人工反饋雖然是對齊的核心，但其成本高昂且範圍有限；Constitutional AI 和 RLAIF 等方法希望實現部分監督的自動化，儘管它們也引發了人們對偏差校準和模型自洽性的新擔憂。

最後，測試時擴充套件和動態推理框架也帶來了進一步的挑戰：模型必須學習何時為複雜查詢分配更多計算，如何有效地調整驗證模組，以及如何在面對對抗性輸入時保持穩健的效能。這些融合的研究方向（涵蓋獎勵建模、解碼策略、可解釋性、個性化和安全微調）凸顯了強化學習在 LLM 中作用的多樣性，並共同塑造了大規模語言模型開發的未來軌跡。

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]