MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | PaperWeekly

想微調出一個偏好對齊大模型，但是卡不夠？

要不考慮加個獎勵模型輔助解碼，或是上下文學習？好像會變得很慢……

別急！這裡有一種低資源實現偏好對齊的新方案——弱到強解碼（Weak-to-Strong Decoding，WSD），優雅搞定又快又好的偏好對齊！

論文標題：

Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

論文連結：

https://arxiv.org/abs/2506.07434

程式碼連結：

https://github.com/F2-Song/Weak-to-Strong-Decoding

收錄會議：

ACL 2025 Findings

也非常歡迎關注我們在 Alignment 的一系列工作，涵蓋資料、後訓練、推理等多個視角：

一種多位置 list-wise 對比學習的 LLM 偏好微調演算法：

Preference ranking optimization for human alignment (AAAI 2024)

https://ojs.aaai.org/index.php/AAAI/article/view/29865

從資料多樣性角度探索其對偏好微調模型的聯絡和影響：

Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment (LREC-COLING 2024)

https://aclanthology.org/2024.lrec-main.1251

一種新穎、好用、高效的上下文偏好學習演算法：

Instantly Learning Preference Alignment via In-context DPO (NAACL 2025)

https://aclanthology.org/2025.naacl-long.8/

一種能準確定位事實相關 token 位置、維持全域性事實性和多樣性平衡的推理演算法：

Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text Generation (ACL 2025)

https://arxiv.org/abs/2503.08057

研究動機：低資源和效果好總難兩全

無論選 RLHF，DPO 還是 SimPO，利用後訓練/微調從一個基座模型得到偏好對齊模型是毫無疑問的最有效最主流的方案。但對小團隊或個人開發者來說，微調一個較大尺寸的模型（比如 72B）太費卡了，更不必說如果資料覆蓋的領域不全，還會有對齊稅的問題。

即便已經有一些低資源偏好對齊的方案，比如用獎勵模型輔助解碼或是上下文學習實現解碼時對齊（Decoding-time Alignment），效果往往也不夠令人滿意，且部署時有諸多限制，還可能大幅拖慢模型推理效率。

那麼，怎麼才能又好又快地從基座模型實現偏好對齊呢？

到底咋回事：預實驗找出背後困難所在

早在 2023 年 [1] 研究者們就已經發現，預訓練得到的基座模型本身就隱含很好的偏好對齊能力，微調則是將之啟用。然而，直接令基座模型生成符合偏好的內容還是很難。

這必然令人好奇：從隱含偏好對齊能力到將之體現出來，阻礙這一過程的難點到底是什麼，又能否高效解決？我們有了一些猜想。

想象 LLM 正在和使用者對話：在使用者發言結束後，LLM 可以有多種回覆的方式（迎合、反駁、吐槽等），不同方式也會令使用者產生不同程度的偏好，我們所期待的偏好對齊模型則應總能給出最大化偏好的回覆。

但對於基座模型，這還容易嗎？我們於是做了第一個預實驗：

我們收集了一批使用者的 query，並分別預設一個符合主流偏好的回覆（對齊回覆）；然後，使用基座模型對每條 query 再取樣出 9 條回覆（普通回覆）。

最後，比較對齊回覆和普通回覆的質量（透過獎勵排名體現），並計算在給定使用者 query 後，在已有的 10 條回覆中，基座模型直接生成對齊回覆的難度（透過困惑度排名體現）：

▲ 圖1 預實驗（a）

可以發現，儘管在偏好方面往往能佔據上風（獎勵排名靠前），但想讓基座模型在眾多合理的生成路徑中，直接挑中對齊回覆返回使用者，卻相當不容易（困惑度排名居中），這就是上述的難點所在。

既然如此，有沒有辦法能減弱這一困難？

我們發現，雖然讓基座模型從 0 到 1 的給出對齊回覆很難，但若能先給一部分開頭，模型接續生成後續內容就容易許多，這可以透過計算給定對齊回覆的部分開頭後，隨後 50token 的困惑度變化趨勢來驗證：給的開頭越多，生成後續內容的難度越低，且最陡峭的變化就在一開始的幾個 token！

▲ 圖2 預實驗（b）

看來，好的開始真的是成功的一半：）

弱到強解碼：大小模型聯合實現偏好對齊

我們提出的弱到強解碼 WSD（Weak-to-Strong Decoding）正是基於上述發現執行的！

設想一下，小尺寸語言模型容量較小，往往不足以單獨上線使用；但微調它所需的資源也很少！

如果能用這樣一個經過對齊微調的小模型（也稱作草稿模型）給出對齊回覆的開頭，再切換到大尺寸基座模型 上繼續解碼，就等同於得到一個大尺寸的偏好對齊模型。這可被形式化為：

隨之出現的問題則是，怎麼確定將推理流從草稿模型切換到基座模型的合理位置呢？

因為基座模型本身的自迴歸解碼特徵，不斷提供草稿模型生成的開頭部分也是讓基座模型的輸出風格像偏好對齊遷移的過程，那麼推理流的切換過程也可以由此確定：基座模型不斷檢查草稿模型輸出的內容，並在自身 confidence 到達一定閾值後，使推理流切換到自身繼續執行。

這一機制和推測解碼（Speculative Decoding）異曲同工，但檢查的方向相反，後者僅當超過閾值時才接受草稿模型的內容，而在 WSD 中接受內容則發生在未至閾值前。我們還增加一項視窗平滑使檢查更穩健，最終的模型 confidence 由下式得到：

WSD 的執行流程則如下圖所示：

▲ 圖3 WSD 過程示意圖

我們也另外收集了一批聚焦通用領域的偏好資料，用於訓練出一個小尺寸的草稿模型——Pilot-3B，並配合 WSD 使用。

實驗表現：效果好、效率高、還沒對齊稅

我們在 AlpacaEval 2、ArenaHard、HH-RLHF 等 5 個主流偏好對齊基準上進行評測。實驗結果顯示，所提出的 WSD 方法幾乎在所有情況下都取得最佳表現！

▲ 表1 偏好對齊實驗結果

而且，WSD 方法得以保持基座模型在下游任務（數學、程式碼）的效能，甚至有所提升，這不同於以往微調模型可能帶來的對齊稅問題（例如，Pilot-3B 相比訓練之前的檢查點，在這兩項任務上的效能即有所下降）：

▲ 表2 下游任務實驗結果

我們還詳細分析了不同設定（如超引數的不同設定、草稿模型選擇等）對偏好對齊任務/下游任務效能的影響、推理流切換的特徵，以及 WSD 在不同尺寸基座模型上的可擴充套件性分析。詳情敬請檢視論文內容。

我們最後以基座模型直接推理的時間開銷為基準，並比較了不同方法在效率上的效能，發現 WSD 在這方面也非常有優勢：

▲ 表3 相對解碼時間比率結果

總結與展望

依託於語言模型的自迴歸特性和方法的精巧設計，WSD 在多個方面都實現了強勁的效能表現。同時，WSD 框架靈活、高效，具備進一步定製和推廣的空間。我們也設想了一些可能的情況：

1. 對草稿模型進行定製，以進一步挖掘 WSD 的潛力或滿足其他場景的需求；

2. 在推理流切換後，透過推測解碼進一步提速；

3. 進一步複雜化切換機制，疊加不同檢查條件，比如我們在 [2] 中採用的事實性檢查機制。

最後也感謝各位老師、同學、朋友們的關注！十分歡迎對我們的論文/程式碼倉庫 Star、Fork、引用，希望能有更多朋友加入討論、應用和進一步推廣！

參考文獻

[1] Zhou, Chunting, et al. "Lima: Less is more for alignment." *Advances in Neural Information Processing Systems* 36 (2023): 55006-55021.

[2] Luo, Wen, et al. "Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text Generation." *arXiv preprint arXiv:2503.08057* (2025).

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

卡不夠別硬微調！3B草稿寫開頭，北大團隊「弱到強解碼」一把帶飛大模型對齊

研究動機：低資源和效果好總難兩全

關於我們

相關文章

什麼是大模型所需要的知識？人大提出DPA-RAG高效對齊檢索器與大模型偏好

全模態對齊終於有了開源參考：北大團隊釋出align-anything，資料、演算法、評估一網打盡！

無需RLHF顯著提升GPT-4效能，北大團隊提出對齊新正規化「殘差修正」|NeurIPS2024Oral

推理時也能做偏好最佳化，無需額外重訓練，來自上海AILab港中文等

中科院領銜萬字長文，全面系統梳理多模態LLM對齊演算法

ICLR2025|小型AI也能懂人類？中山大學全新方法ADPA讓小模型對齊實現大突破！

多模態幻覺新突破！NUS、復旦團隊提出跨模態偏好最佳化新正規化，幻覺率直降55.5％

院士領銜萬字長文，全面系統梳理多模態LLM對齊演算法

8B模型超越GPT-4o！通義實驗室提出多輪對齊SDPO，讓LLM更擅長多輪互動

AGI會在人類未知的地方欺騙人類嗎？揭露超級對齊正規化下的“弱至強欺騙”現象