學習對齊答案和未對齊答案之間的殘差，要比直接學習問題到答案之間的對映更容易。

背景

當下大語言模型（LLMs）雖然展現出強大的能力，但也可能產生不可預測甚至有害的輸出，例如冒犯性回應、虛假資訊傳播或隱私資料洩露。這些問題不僅對使用者構成潛在威脅，也可能對社會產生廣泛影響。因此，確保這些模型的行為與人類的意圖和價值觀相一致，成為一個亟需解決的重要挑戰。

儘管基於人類反饋的強化學習（RLHF）提供了一種解決方案，但其實現過程卻面臨諸多瓶頸，包括訓練架構的高度複雜性、對引數的極高敏感性，以及獎勵模型在不同資料集上的不穩定性等。這些因素導致 RLHF 的實施難度高、效果難以保障，且復現性較差。

為應對這些問題，北京大學團隊提出了一種全新的高效對齊正規化——Aligner。Aligner 的核心理念是透過學習對齊答案與未對齊答案之間的修正殘差，繞過傳統 RLHF 繁瑣的流程。

借鑑殘差學習和可擴充套件監督的思想，Aligner 將對齊過程簡化為複製和殘差修正兩個步驟，並採用 Seq2Seq 模型學習隱式殘差，從而最佳化對齊效果。

與需要訓練多個模型的 RLHF 方法相比，Aligner 的實現更加簡潔高效。其僅需在待對齊模型後附加一個額外模組即可完成對齊，計算資源的需求主要取決於對齊目標，而非原始模型的規模。

實驗結果表明，僅透過一次訓練，7B規模的 Aligner 模型即可顯著提升 11 個不同前置模型的表現，在幫助性和無害性上分別平均提高了 68.9%和 22.8%。特別地，Aligner-7B 對 GPT-4 的幫助性和安全性提升尤為顯著，分別提高了 17.5% 和 26.9%。

為了推動社群對殘差修正正規化的進一步研究，北京大學對齊小組開源了 Aligner 的訓練程式碼和資料集。此外，團隊還開源了基於最新開源與閉源模型（如 GPT-4o, o1 等）精心構建的修正資料集 AlignerTails。該資料集涵蓋通用任務、安全性、共情能力、文字總結和推理等多個領域，並將持續更新（目前已超過 10 萬條資料）。

值得一提的是，相關研究成果已被 NeurIPS 2024接收為口頭報告（Oral Presentation，Top 0.45%）。

論文地址：

https://arxiv.org/abs/2402.02416

專案主頁：

https://pku-aligner.github.io/

Github專案程式碼：

https://github.com/PKU-Alignment/aligner

AlignerTails資料集：

https://huggingface.co/datasets/aligner/alignertails

對齊新正規化：殘差修正

2.1 如何實現殘差修正？

為了克服這些挑戰，北京大學團隊提出了一種新的高效對齊正規化 —— Aligner，其核心在於學習答案對齊與未對齊之間的修正殘差，從而繞過繁瑣的 RLHF 流程。僅需要一次訓練，對齊器 Aligner 便可提升 11 個不同開閉源模型的在 3H 標準下（幫助性、無害性和誠實性）的效能。

Aligner 的核心洞察在於：

學習對齊答案和未對齊答案之間的殘差，要比直接學習問題到答案之間的對映更容易。

借鑑殘差學習和可擴充套件監督的思想，Aligner 透過簡單的複製和殘差修正步驟簡化了對齊過程，使用 Seq2Seq 模型學習隱式殘差，以最佳化對齊效果。

具體而言，Aligner 在一個偏好資料集上進行微調，以學習偏好和非偏好回答之間的修正殘差，然後巢狀在前置模型上以實現修正對齊。

相較於 RLHF 需要訓練多個模型的複雜性，Aligner 僅透過在待對齊模型後附加一個額外模組即可實現對齊，且所需計算資源主要取決於對齊效果的期望，並非上游模型的規模。

實驗結果顯示，僅需要一次訓練，7B 的 Aligner 模型可以提升 11 個不同前置模型平均 68.9% 幫助性和 22.8% 無害性。

2.2 為何是殘差？

對齊器（Aligner）巢狀在前置模型之上，透過將前置模型的初始答案重分佈調整為更有幫助性和無害性的答案，使得 LLM 的輸出更符合人類意圖。

基於“修正比生成更簡單”的理念，Aligner 在訓練過程中直接學習未對齊分佈到對齊分佈之間的“殘差”，而不是像 SFT 那樣學習從問題到答案分佈的直接對映。這使得 Aligner 能夠更加平滑地掌握對齊後分布的特徵及其對映關係。

從工作流的角度看，Aligner 的設計類似於殘差塊，透過複製和修正方法改進原始答案，而無需改變前置模型的引數。Aligner 的這種快捷新增方式，不僅保留了前置模型的原始架構，還增強了其輸出的符合性和預期效果。

在可解釋性方面，Aligner 展現了其獨特的特性。作者基於表徵工程和啟用操縱進行了實驗，透過線性人工斷層掃描（LAT）對 Aligner 的生成過程進行層視覺化。

下圖中較高的值表示某一層的修正更為活躍。其中，（a）顯示了增強的修正動作，而（b）更傾向於複製原始回答。這表明 Aligner 具備根據原始回答選擇複製或修正的能力。此外，兩個圖之間的明顯差異主要出現在早期層，表明 Aligner 的修正決策在早期層已被做出。

特別地，作者還提取出了中間層中用於控制複製或修正正規化的表示控制向量，並將其直接應用於基座模型（Llama2-7B）進行實驗。

結果顯示，在 Aligner 啟用中新增或減去表示向量的比例，顯著影響修正幅度，表現為從完全複製原始回答到大幅增加修正程度。這一現象為 Aligner 將修正正規化內化為一種表示提供了強有力的證據。

可控修正

對齊器還可以支援可控修正，透過在修正過程中引入外部的指令反饋，進一步提升對齊效果。具體來說，在對齊器推理時，除了輸入前置模型的問題和回答外，還額外加入定向修正的指令，用於實現特定維度的最佳化。例如，可以新增“請讓它變得更安全”的指令，以增強輸出在安全性維度上的表現。

在實驗中，作者選用 GPT-4 和 Llama3-70B-Instruct 作為前置模型，評估了對齊器在幫助性、無害性和同理心三個維度上的修正效果。結果表明，加入外部指令反饋的對齊器在這三個維度上的修正表現均優於未加入定向指令的直接修正方式。這表明，透過引入定向指令，可以實現對齊器的細粒度最佳化，從而更精準地調整模型輸出。

這種可控修正能力為對齊器的未來發展提供了新的方向。例如，進一步探索如 InstructAligner 這樣的路徑，有望在更多工場景中實現定製化和精確化的對齊目標。

基於對齊器 Aligner 的多輪對齊流程

多輪 RLHF（基於人類反饋的強化學習）在實踐中常面臨誤差累積和獎勵機制失效

等問題。

一方面，用於獎勵建模的偏好資料集可能因偏離前置模型的實際答案分佈而導致獎勵崩潰，這種偏差在多輪最佳化中不斷累積，最終使模型輸出出現顯著偏差。

另一方面，獎勵模型可能出現過度最佳化（over-optimization）的現象，導致模型在某些方面被過度激勵（例如，為生成更長的回答而忽視安全性），從而破壞輸出的整體質量。

引入對齊器（Aligner）為解決這些問題提供了新的思路，其優勢主要體現在以下幾個方面：

1. 遷移能力：Aligner 具備從不偏好的分佈（dispreferred distribution）遷移到偏好分佈（preferred distribution）的能力，能夠更有效地調整輸出分佈，使其更符合人類偏好。

2. 緩解獎勵崩潰：透過 Aligner 修改前置模型的回答，生成更高質量的輸出。一方面，這些輸出（A 和 C）可以直接用於構造偏好資料集；另一方面，這一偏好資料集的答案分佈與前置模型的回答更接近，從而有效緩解因偏好資料集分佈與前置模型輸出分佈不一致（OOD）而引發的獎勵崩潰問題。

3. 高效資料生成：Aligner 作為一種高效的合成數據生成器，提供了一種低成本且可復現的方法來構建偏好資料集，為模型最佳化奠定了更穩健的基礎。

如上圖，作為一種資料增強工具，Aligner 可以將前置模型的回答 A 增強為改進後的回答 A*，從而形成一個合成偏好資料集。該資料集可以用於透過 RLHF/DPO 進一步訓練前置模型。重複這一過程可以實現多輪 RLHF 或 DPO。

弱到強對齊新正規化（Weak-to-Strong Alignment）

隨著 AI 系統在各種任務中達到人類水平的表現，並從事越來越複雜的人類難以理解的活動，持續提供可靠反饋並確保其行為與人類意圖一致愈發困難。這引出了一個重要的問題——超級對齊 SuperAlignment Problem：

如何向先進的 AI 系統提供監督訊號，並確保它們始終與人類價值意圖保持一致？

弱到強泛化（Weak-to-Strong Generlization）探索了一種可行的類比，它利用弱模型提供的監督訊號來增強強模型的效能。OpenAI 在 NLP 分類、國際象棋難題和獎勵建模任務中進行了初步試驗，發現透過使用弱模型生成的弱標籤對強預訓練模型進行微調可以獲得積極的效果。這種正規化類似於“教學”的概念，即弱模型指導強模型。

對齊器探索了一種基於弱到強泛化的新正規化，利用弱模型的修正能力來提升強模型的效能。這種方法以弱模型生成的監督訊號為基礎，透過對強模型進行微調，展現了類似“教學”的效果，即由弱模型引導強模型不斷最佳化。

基於對齊器的弱到強修正（Weak-to-Strong Correction via Aligner）是這一新正規化的核心。其關鍵在於使用弱的對齊器模型對強前置模型的回答進行修正，從而生成更高質量的標籤，用於微調強模型並提升其表現。

在實驗中，作者透過三種方法——SFT、RLHF 和 DPO，使用弱對齊器生成的標籤訓練了不同規模的強模型（7B、13B 和 70B）。

下圖展示了這一流程。經典方法通常面臨一個權衡：強模型可能模仿弱模型的行為，從而降低效能；但也可能借助自身的推理能力，從標籤中獲得“頓悟”，實現改進。而基於對齊器的弱到強修正，透過在弱標籤的質量與強模型推理能力之間找到平衡，展現了迭代最佳化強模型的潛力。

在這一過程中，使用者輸入提示後，弱對齊器生成改進的回答，結合使用者提示與強模型的初始回答，作為微調強模型的高質量標籤。透過這種方法，對齊器不僅能夠充分利用強模型的推理能力，還能透過其修正能力，促使強模型在每次迭代中不斷自我最佳化。

這種基於對齊器的弱到強修正方法為解決複雜任務中的超級對齊（SuperAlignment）問題提供了全新的思路。它高效整合了對齊器與強模型的能力，為實現更高效、更精準的自我最佳化模型奠定了基礎。

基於 Aligner 的弱到強修正在弱標籤的質量和強模型的推理能力之間找到了平衡，具有迭代自我最佳化前置強模型的潛力。

持續關注

總而言之，Aligner 具有以下幾個顯著優勢：

資源高效。Aligner 不需要額外的模型（如 actor、critic、reward 或 reference 模型），而是透過一個在偏好資料集上訓練的小型模型，直接學習修正殘差。以對齊 70B 規模的大語言模型為例，Aligner-7B 的訓練引數量比 DPO 方法少 11.25 倍，比 RLHF 方法少 22.5 倍，大幅降低了資源消耗。

即插即用。Aligner 的即插即用特性以及與模型無關的設計，使其非常適合用於基於 API 的模型。一旦完成訓練，Aligner 可以無縫應用於各種前置模型，而無需額外的引數調整。

實驗結果表明，Aligner-7B 在包括 API-based、開源、安全對齊、不安全對齊等 11 個不同型別的模型上，顯著提高了幫助性和無害性。此外，Aligner-7B 將 GPT-4 的幫助性提高了 17.5%，安全性提高了 26.9%，有效推進了幫助性和安全性的帕累托最優前沿。

可解釋且有效。從可解釋性和表示學習的角度來看，Aligner 展現了卓越的能力：它能夠根據初始答案的質量，在原始響應和額外修正之間找到平衡。Aligner 的早期層負責決定參考程度，中間和後期層實施具體的修正決策。這種高效利用自身能力和原始答案資訊的方式，使得即使是一個小型的 Aligner 也能學習複雜的修正模式，並以最小的推理成本引導強大的模型生成優質輸出。

“我們提出對齊器這一對齊新正規化後，迅速得到了業界的廣泛關注。釋出僅一個月，多家科技公司已經開始使用這一訓練正規化，應用於多場景的下游對齊任務。”北京大學人工智慧研究院楊耀東助理教授表示，“Aligner 的輕量化設計、高效訓練流程，以及對大模型引數的無感依賴，使其有望成為大模型對齊領域的全新替代方案，推動對齊技術的進一步發展。”

本開源專案由北京大學對齊小組開發並進行長期維護，團隊專注於人工智慧系統的安全互動與價值對齊，指導老師為北京大學人工智慧研究院楊耀東助理教授。核心成員包括吉嘉銘、周嘉懿、邱天異、陳博遠、王愷樂、洪東海、樓翰濤、王旭堯、張釗為、汪明志、鍾伊凡等。

團隊就強化學習方法及大模型的後訓練對齊技術開展了一系列重要工作，包括 Aligner（NeurIPS 2024 Oral）、ProgressGym（NeurIPS 2024 Spotlight）以及 Safe-RLHF（ICLR 2024 Spotlight）等系列成果。近期，團隊針對 OpenAI o1 技術的深入分析累計點選量已超過 15 萬。

北大對齊小組專注於人工智慧安全與對齊領域的研究和分享。

知乎官號：北大AI對齊小組

B站官號：北大AI對齊小組

更多閱讀