邱錫鵬老師團隊發現SFT與DPO破壁統一:內隱獎勵作為橋樑

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
大型語言模型(LLM)的後訓練是將其應用於實際任務的關鍵階段,主要包括監督微調(SFT) 和基於人類反饋的偏好學習(如DPO)。傳統觀點認為SFT僅是DPO的"熱身步驟",兩者缺乏理論關聯。本文突破性地證明:SFT與DPO本質都在學習隱式獎勵函式,且共享相同的策略-獎勵最優子空間。這一發現不僅統一了兩類方法,還揭示了傳統SFT的缺陷——KL散度項在最佳化中退化為常數,導致模型更新缺乏約束。透過理論推導與實驗驗證,論文提出簡單有效的改進方案,顯著提升模型效能(相對增益達25%),為LLM對齊提供了新視角。

  • 論文:A Unified View of SFT and DPO Connections via Implicit Reward
  • 連結:https://arxiv.org/pdf/2507.00018v1

1. 理論基礎:SFT與DPO的統一視角

分佈匹配的再形式化

後訓練的核心目標是最小化專家資料分佈)與策略模型分佈)的差異。傳統模仿學習使用以下目標:
其中  是f-散度(如KL散度), 約束策略偏離預訓練模型的程度。

關鍵定理:隱式獎勵的橋樑作用

定理1 將分佈匹配轉化為雙層最佳化問題:
核心洞察
  • 內層  學習特定獎勵函式  下的最優策略
  • 外層  最佳化獎勵函式以匹配專家分佈
  • SFT是當  取總變差(Total Variation)時的特例,此時目標退化為MLE損失:

傳統SFT的缺陷

在退化的SFT目標中,KL項  是零階常數,無法提供梯度約束:
"KL項缺失導致DPO訓練的起點遠離基礎模型,影響最終效能。"這解釋了為何SFT模型容易過擬合專家資料,喪失預訓練知識。

SFT和DPO在策略-獎勵子空間的最佳化路徑

2. 方法改進:學習率調整與替代目標

小學習率策略

理論依據:KL項缺失使SFT更新步長過大。作者提出:
  • 將SFT學習率從  降至 (Llama3)或 (Mistral)
  • 透過減小單步更新幅度,間接模擬KL約束效應

基於f散度的新目標

為保留KL項的約束力,作者從f散度匯出新目標函式:
  • Pearson χ²散度:引入平方機率差項約束KL
  • Squared Hellinger散度:透過機率差係數調製梯度兩者避免對數/指數運算,保障數值穩定性。
訓練目標對比
散度型別
訓練目標(簡化形式)
總變差 (傳統)
Pearson χ²
Squared Hellinger

3. 理論擴充套件:Logits與Q函式的關聯

定理2:Logits作為隱式Q函式

在SFT過程中,語言模型的Logits)對應隱式獎勵的Q值:
符號解釋
  • :滿足公式(4)的隱式獎勵
  • :折扣因子
  • :僅依賴狀態的偏移項(不影響動作排名)
價值主導假設
"狀態間  的差異遠小於  的差異,故Logits可代理狀態價值。"這意味著可直接用Logits的log-sum-exp估計 ,無需蒙特卡洛取樣。

4. 實驗驗證

小學習率的顯著提升

在Llama3-8B和Mistral-7B上的實驗結果:
  • SFT階段:小學習率僅帶來輕微改進(+0.5–1.0% LC-Win)
  • DPO後:相對效能提升20–25%,絕對勝率增加5–6%
"SimPO在Mistral上從15.6% → 21.5%,驗證KL約束的重要性。"

小學習率SFT對DPO/SimPO效果的提升對比

替代目標函式的優勢

  • Pearson-SFT + DPO:絕對勝率最高提升3.6%(Llama3)
  • 關鍵發現:SFT階段的強表現未必導向更好的DPO結果
"保留KL項的替代目標雖削弱SFT效能,但顯著提升DPO結果。"

不同訓練目標的DPO後效能對比

Logits的價值函式屬性

  • 在MATH-500推理步驟上計算Kendall等級相關係數(KLCC)
  • 不同模型/資料切片的估值排名相關性接近1
"Zephyr與Llama3-instruct的估值排名高度一致,間接驗證定理2。"

模型間狀態估值排名相關性熱力圖

5. 討論與影響

SFT的獎勵穩定作用

  • SFT快速將初始隨機獎勵  收斂至合理區間(150步內)
  • 早期退出實驗:150步後DPO效能趨於穩定,後續訓練僅微調

 收斂曲線與對應DPO效能

哲學意義:LLM的環境意識

隱式獎勵的發現引發思考:
"LLM是否可視為具有預設環境認知的實體?"這為AI意識討論提供了新視角。

多目標學習的失敗啟示

嘗試聯合最佳化SFT與DPO目標(公式36):
結果:交替訓練導致效能震盪,SFT階段削弱DPO增益。根本矛盾:SFT假設資料為最優軌跡,而DPO依賴偏好衝突。

交替訓練的效能震盪記錄

結論

  1. 理論統一:證明SFT與DPO均透過隱式獎勵最佳化策略,打破二者割裂認知。
  2. 方法創新
    • 小學習率SFT顯著提升DPO效能(+25%相對增益)
    • 基於f散度的新目標保留KL約束,進一步改善結果
  3. 深度洞見
    • Logits在SFT中充當隱式Q函式,擴充套件了DPO的結論
    • SFT的核心作用是校正初始獎勵的隨機性
  4. 未來方向:探索更穩健的SFT-DPO多目標最佳化框架,驗證隱式獎勵的可解釋性。
這篇文章的核心價值:為LLM對齊提供首個SFT-DPO統一理論框架,同時提出簡單高效的實踐方案,兼具學術突破性與工程落地價值。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章