ICLR2025|小型AI也能懂人類?中山大學全新方法ADPA讓小模型對齊實現大突破!

©PaperWeekly原創·作者 | 高世平
單位 | 中山大學碩士生
研究方向 | 語言模型偏好對齊
背景
在 AI 的世界裡,大型語言模型(LLMs)憑藉強大的引數量和計算能力,已經能夠生成與人類偏好高度一致的回答,成為 ChatGPT 等明星產品的核心。然而,這些“大塊頭”模型對算力和記憶體的需求極高,難以在手機、邊緣裝置等資源受限場景中普及。
於是,小型語言模型(SLMs)成為了備受關注的替代方案——它們輕量、高效,卻面臨一個棘手的問題:在對齊人類偏好後,效果往往不佳,通用效能甚至會下降。這種現象被研究者稱為“對齊稅”(Alignment Tax),彷彿小模型在努力“理解”人類時,付出了額外的代價。
1.1 小模型對齊的難題:Hugging Face的坦言
Hugging Face 首席科學官(CSO)之一托馬斯·沃爾夫(Thomas Wolf)在 2024 年 月釋出著名的 SmolLM 小模型系列時,也直言不諱地指出小模型在對齊方面的不足。
他在 上表示:“另一個問題是模型對齊,即如何微調這些模型以遵循指令。我們已經為大型模型開發了一些非常有效的資料集和方法(如監督微調 SFT、直接偏好最佳化 DPO、近端策略最佳化 PPO 等),但如果你嘗試即時 SmolLM 演示,你會發現對齊後的小模型在這方面仍存在不足”。來源:
https://x.com/Thom_Wolf/status/1825094850686906857
這一坦言揭示了目前 SLMs 的對齊仍存在很多挑戰。
1.2 新突破:大模型帶小模型“飛”
針對這一難題,一項由中山大學 & Meta AI 最新研究提出了一種創新解決方案,利用已經對齊好的大模型“手把手”教小模型,透過知識蒸餾(KD)讓小模型直接繼承大模型對於人類偏好的理解能力。
該研究的核心在於,透過大模型的分佈粒度的指導和 O(1) 的樣本複雜度,小模型不僅能學會“什麼是好的回答”,還能明白“什麼是不好的”,從而大幅提升對齊效果。
目前這項工被國際機器學習頂級會議 ICLR 2025 接受,成功入選 Spotlight
論文標題:
Advantage-Guided Distillation for Preference Alignment in Small Language Models
論文地址:
https://openreview.net/pdf?id=xsx3Fpo3UD
論文倉庫:
https://github.com/SLIT-AI/ADPA
方法介紹
研究團隊提出了兩種創新方法,以下是詳細介紹:
2.1 雙重約束知識蒸餾(DCKD
DCKD 利用偏好資料,從對齊好的大模型(教師模型)向未對齊的小模型(學生模型)傳遞知識。
為了讓小模型同時捕捉正向(喜歡的回答 )和反向(不喜歡的回答 )訊號,DCKD 在傳統知識蒸餾的基礎上增加了一個額外的 KL 散度約束。公式如下:
其中, 和  分別是教師模型和大模型在輸入  下生成正向輸出 (wining response)和反向輸出 (losing response)的機率分佈, 是超引數,用於平衡正向和反向訊號的權重。
這種設計讓學生模型不僅要模仿教師模型對正確答案的預測,還要理解教師模型對錯誤答案的判斷。這樣,學生就能更全面地掌握教師的決策邏輯,透過“雙重約束”(正向和反向訊號)提升對偏好的理解能力。
2.2 優勢引導蒸餾(ADPA
ADPA是這項研究的亮點,作為“主菜”,它透過引入“優勢函式”(Advantage Function)進一步最佳化訓練過程,顯著提升小模型的對齊能力。具體來說,優勢函式的計算基於經過直接偏好最佳化(DPO)訓練的大模型(對齊模型)和一個未訓練的參考模型(未對齊模型)。
優勢函式的計算:ADPA 中的優勢函式  透過比較對齊後的教師模型(DPO Teacher,)和參考教師模型(reference Teacher,)在同一輸入下的輸出機率分佈之差來計算,告訴學生在特定情況下哪些行為更符合人類偏好。
原論文附錄 中給出了其完整的證明過程。這種設計利用了大模型對齊後的分佈優勢,捕捉偏好與非偏好的相對差異,作為小模型最佳化的指導訊號。優勢函式的在強化學習中用於衡量特定動作(或輸出)相對於平均行為的優劣。
基於最大化優勢函式期望的目標,ADPA 的損失函式被定義如下:
其中,,其中  是學生模型針對提示  生成的響應, 是提示  的真實響應。 表示監督微調損失,用於保留基本能力並避免過度最佳化,超引數  用於平衡監督微調項和優勢引導蒸餾項(這裡借鑑了 RPO 中使用 SFT 項避免過度最佳化的思路)。
透過這種明確的獎勵引導,學生模型能直接學習到偏好相關的動作,而不僅是模仿輸出分佈,從而更高效地實現偏好對齊。
2.3 ADPA+——DCKD,後ADPA  
研究還提出了 ADPA+,它對 DCKD 訓練後的學生模型進行 ADPA 訓練。ADPA+ 首先使用 DCKD 進行初步知識蒸餾,讓小模型初步模仿大模型的行為,然後透過 ADPA 利用優勢函式進一步細化對齊效果。
實驗表明,ADPA+ 在效能上遠超單獨使用 DCKD 或 ADPA,尤其在小模型(如 Danube3-500M)上表現更優。
DCKD 先透過分佈對齊讓學生模型大致掌握教師的偏好知識,打下基礎;然後 ADPA 利用優勢函式提供更精確的指導,最佳化學生的偏好對齊能力。ADPA+ 的流程如下:
實驗
測評方法上,論文主要使用了 MT-BenchAlpacaEval,和OpenLLM LeaderboardOLL)。由於小模型的能力還不足以與 GPT-4 相媲美,比較勝率會引入較大的噪聲,導致不同方法之間難以比較,所以論文中在測試 AlpacaEval 時,使用 ADPA 訓練的小模型作為基線。
文中使用的教師學生模型組合有:Llama3.1-8B->Llama3.2-1BMistral7B->Danube3-500M, Danube2-1.8BLlama2-13B->Llama2-7B;文中使用的指令微調資料集為 Deita-10K,使用的偏好資料集為:DPO-MIX-7K 和 HelpSteer2
實驗結果如下:
實驗結果表明,DCKD 和 ADPA 顯著優於基線方法(如 DPOSimPOVanillaKD 等)。
以 LLaMA-3.2-1B 為例,在 DPO-MIX-7K 上,DCKD 和 ADPA 分別比 DPO 提升了 0.10 和 0.48 的 MT-Bench 評分,而 ADPA+DCKD與 ADPA 結合)進一步提升至 4.02,勝率在 AlpacaEval 中達 53.8%。在 Open LLM Leaderboard 上,ADPA+ 也展現出最佳平均效能(如 43.07 on HelpSteer2)。
ADPA 為何有效?消融實驗的啟示
4.1 消融實驗
ADPA 的優勢函式中引入了參考教師,論文中對此進行了消融實驗,嘗試在優勢函式中去掉 ,僅保留 ,損失函式改變為:,相當於反向的交叉熵損失函式。
此外,論文中還嘗試了更多的消融實驗,如 DCKD 中取消教師的 DPO 訓練階段(僅使用 SFT 後的教師),或者取消反向訊號(不喜歡的回答 )上的蒸餾。消融實驗的結果如下:
可見 ADPA 中優勢函式的 reference 教師,以及 DCKD 中對教師進行 DPO 訓練和加入反向訊號的蒸餾都會提升學生模型的對其效果。
4.2 細粒度獎勵的好處——O(1)級別的樣本複雜度:
ADPA 能提供分佈級別的對齊訊號,這一點有何優勢?文中從樣本複雜度上進行了理論分析,並對不同粒度的獎勵訊號進行了對比實驗。
文中先定義了獎勵訊號的樣本複雜度為:在這種獎勵訊號的指導下,找出狀態  下的最優動作  所需要的樣本數量級。然後分別對本文提出來的分佈級優勢、token 級獎勵和 sequence 級獎勵的樣本複雜度進行分析:
分佈級優勢(distribution-level advantage),即:
這種獎勵機制透過教師模型和參考模型的策略分佈直接計算優勢函式 ,只需利用當前狀態  下教師模型  和參考教師  的策略分佈,無需對未來狀態或動作進行取樣。
這種方法不依賴於額外的環境互動或模擬,因此每次計算僅涉及當前狀態和動作,樣本需求是常數級別的,即 O(1)。
token級獎勵(distribution-level advantage),即:
這種獎勵機制模型需要評估當前狀態  下所有可能的動作  的獎勵,其中  是動作空間的大小(例如詞彙表大小)。
為了準確計算每個動作的獎勵,模型需要對詞表中每個動作都取樣一次,這意味著需要  次計算或採樣。因此,樣本複雜度為 
序列級獎勵(sequence-level reward),即:
在序列級獎勵中,當前動作  的價值依賴於從當前時間步  到序列結束  的所有未來獎勵。
為了評估這一影響,模型需要考慮從  開始的所有可能序列。每個時間步有  個可能的動作,剩餘  步的序列總數為 。這意味著需要模擬或計算指數級的序列數量來估計當前動作的價值。因此,樣本複雜度為 
論文中也對不同的獎勵級別進行了實驗,其中分佈級優勢使用 ADPA 進行最佳化,而 token 級和 sequence 級獎勵使用 PPO 進行最佳化,並以 ADPA 作為基線,在 AlpacaEval 上(GPT-4Turbo 作為 judger)進行了測評,結果如下:
可見,雖然 ADPA 的細粒度獎勵和更低的樣本複雜度使得小模型更加受益。
4.3 其他基於 函式的蒸餾方法
傳統策略蒸餾工作中,函式或優勢函式常透過 softmax 或 argmax 操作後,結合 KL 散度或交叉熵損失進行蒸餾,而 ADPA 是以最大化優勢期望作為目標。
為了對比這幾種基於優勢的蒸餾方法,論文使用 ADPA 作為基線,在 AlpacaEval 的指令上進行勝率比較。由於優勢函式可視為 函式的偏移,softmax 和 argmax 結果相同,故分別以 KL 散度和交叉熵為目標進行蒸餾。
以 ADPA(勝率 50.0%)為基準,Q-argmax KD 勝率 41.8%Q-softmax KD 的勝率為 28.2%。這提示在蒸餾過程中,保留優勢函式的原始分佈特徵可能對效能提升更為關鍵。
結語
從大模型“一枝獨秀”到小模型“迎頭趕上”,AI 對齊技術正在迎來新的轉折點。這項被 ICLR 2025 接受併入選 Spotlight 的研究意義重大,不僅在於技術突破,更在於它讓我們看到:即使是“小個子”模型,也能透過“借力”大模型和最佳化方法(如 ADPA+),變得更聰明、更貼近人類需求。
結合 Hugging Face 的 SmolLM 實踐和這項創新,我們或許正站在輕量 AI 普及的門檻上。你覺得未來小模型會有多大的潛力?歡迎留言討論!
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章