DPO-Shift:一個引數可控改變DPO分佈,緩解似然偏移

在人工智慧領域,如何引導大語言模型產出貼合人類偏好的內容,已成為備受矚目的研究焦點。強化學習從人類反饋中學習(RLHF)作為該領域的重要方法之一,雖成效顯著,但也暴露出多階段最佳化流程複雜、計算負擔沉重等弊端。而直接偏好最佳化(DPO)及其衍生變體作為離線演算法,憑藉簡單易用、穩定性強等優勢,近來廣受關注。
DPO主要透過最大化選定響應與拒絕響應間的獎勵差距,來實現對模型的高效訓練。不過,在DPO訓練過程中,一種名為似然位移的現象逐漸浮現:選定響應與拒絕響應的機率往往同步下降,致使模型對那些既未被明確偏好、也未遭堅決拒絕的響應,賦予了意外升高的機率。當前研究普遍將這一現象歸咎於模型容量侷限、訓練樣本特性等因素。
本文透過觀察當今廣泛應用於模型微調的資料集,發現選定響應與拒絕響應在內容層面存在較高相似度,這或為似然位移的誘因。基於此,為助力模型精準區分兩類響應,本文提出一種創新策略:在Bradley-Terry模型中,於拒絕響應的獎勵前增設引數函式,藉此削弱語義相似響應間的對抗性,進而緩解似然位移問題。 
理論層面,本文針對選定響應的對數似然、獎勵差距這兩個關鍵指標函式展開了一系列理論分析。研究結果表明,DPO-Shift方法在提升選定機率與維持獎勵差距之間,存在著明確的權衡關係,且這一權衡機制由引入的引數函式調控,同時該權衡結果還緊密依賴初始模型效能及資料質量,這與現有研究結論高度契合。一系列實驗充分驗證了DPO-Shift方法的有效性,它能夠顯著緩解DPO訓練中的似然位移問題。透過科學合理地設定引數函式,模型可在響應機率與獎勵準確性間實現靈活、可控的權衡。在MT-Bench以及勝率實驗等下游任務測試中,DPO-Shift展現出超越DPO的效能,同時可以觀測到更簡潔,質量更高的生成內容。
為了更好的幫助大家瞭解這項工作,機器之心最新一期線上分享邀請到華南理工大學在讀研究生楊晞亮,為大家進行詳細介紹 DPO-Shift。
分享主題:DPO-Shift:一個引數可控改變DPO分佈,緩解似然偏移
分享摘要:本文聚焦DPO方法中的似然位移問題,提出DPO-Shift方法。該方法在Bradley-Terry模型的拒絕獎勵中新增引數函式,以可控地調整機率分佈。理論與實驗分析表明,透過調節該引數函式,可以在提高選定機率和犧牲獎勵差距間進行權衡。一系列下游任務上的驗證實驗進一步證明了本方法的優越性。
嘉賓簡介:楊晞亮是華南理工大學在讀研究生,此研究為其在港中文(深圳)擔任研究助理時完成。其主要研究興趣包括擬蒙特卡羅方法,標準化流,大模型偏好對齊,無似然推斷等。
論文連結:https://huggingface.co/papers/2502.07599
專案連結:https://github.com/Meaquadddd/DPO-Shift
直播時間:北京時間 3月 5 日 19:00-20:00
直播預約:
本次直播設有 QA 環節,歡迎大家加群一起來聊。
機器之心 · 機動組
機動組聚焦於學術研究、工程實踐與產業應用,篩選前沿、專業、實用內容,不定期組織學術研討、技術交流與實戰分享等。歡迎所有 AI 領域技術從業者關注。
點選閱讀原文,檢視往期回顧。


相關文章