AAAI2025|通義實驗室提出基於辯論的弱監督對齊強模型方法,探索超級對齊新正規化

本研究提出了一種基於辯論的弱監督對齊強模型方法,探索了結合 scalable oversight 和 weak-to-strong generalization 解決超級對齊問題的新正規化。

論文標題:

Debate Helps Weak-to-Strong Generalization

論文作者:

郎皓、黃非、李永彬

收錄會議:

AAAI 2025 (Special Track on AI Alignment, Oral)

論文連結:

https://arxiv.org/abs/2501.13124
Highlights :
  • 提出結合 scalable oversight 和 weak-to-strong generalization 的新方法,在 OpenAI 的 weak-to-strong 資料集取得更好的對齊效果。
  • 驗證了辯論可更可靠從預訓練大模型中抽取可信知識,並用於幫助訓練弱監督模型。
  • 驗證了弱模型的 ensemble,可幫助獲得更可靠的監督訊號。

背景

目前 AI 對齊技術依賴於人類的標註資料,譬如用於 supervised finetuning 的 human demonstrations,亦或是用於 RLHF 和 DPO 的 human preferences。
未來超人模型(superhuman models)在一些領域會超越人類的能力,因此人類在對齊超人模型時只能提供弱監督訊號。這可預期的人類監督訊號的缺陷會影響未來 AI 系統的安全性。
Scalable oversight [1] 和 weak-to-strong generalization [2] 是解決上述超級對齊問題的兩類方法 [3]。Scalable oversight 試圖提高人類的提供監督訊號的能力,使其可標註更準確的資料對齊超人模型;weak-to-strong generalization 試圖微調預訓練大模型,使其泛化的效果顯著優於弱監督訊號。
我們的工作試圖結合 scalable oversight 和 weak-to-strong generalization 兩類方法的優勢,並更好的提升對齊效果。具體地,我們嘗試用預訓練大模型改善人類監督訊號,並用改善的監督訊號微調大模型。
為了獲得可實驗驗證的進展,我們考慮了一個類似的設定:我們是否可以用強的大模型改善一個弱模型的監督訊號,並用它監督對齊強模型?具體地,我們利用強的大模型幫助在真實標註中訓練一個弱的小模型,然後利用弱模型生成的標籤微調強模型。
我們發現辯論可以幫助弱模型從強模型中抽取可信的知識,這些知識可以幫助訓練更好的弱模型。我們還發現弱模型的 ensemble 可以更好的利用強模型生成的辯論資訊,並獲得更可靠的監督訊號。
在 OpenAI 的 weak-to-strong 資料集實驗表明,我們的方法有更好的對齊效果。這進一步說明辯論對 weak-to-strong generalization 是有幫助的。

方法

我們提出一個新的 weak-to-strong generalization 框架,共包括以下 3 個步驟:

Step 1 透過辯論生成論點:

我們認為預訓練大模型有廣泛的世界知識,可以幫助很多工。我們的目標是從不可信的強模型中,透過辯論的方式抽取可信的知識,並利用這些可信知識幫助訓練更好的弱模型。
我們首先給出辯論的規則。給定一個問題以及它的兩個答案候選(一個準確、一個錯誤),大模型的兩個例項隨機地被分配為這兩個相反的答案爭辯。
辯論基於多輪地辯手之間的文字交換。在達到辯論輪次後,辯論結束,並且辯手的論點被記錄下來。在辯論過程中,每個辯手都盡力拿出證據支援自己的觀點,並解釋為什麼對方的觀點是錯誤的。
上圖給出一個辯論的示例。我們觀察到辯手 B 支援錯誤觀點,並被激發表述錯誤論點。儘管如此,在下一輪,辯手A輕易的指出了辯手 B 論點的錯誤之處。該觀察與假設“說謊比識別說謊更困難”一致 [4]。這些辯論的論點提供了有價值的資訊說明了兩個觀點的優點和缺點,可被用於訓練更好的弱模型。

Step 2 訓練弱模型 Ensemble:

針對訓練弱模型的每個樣本,我們會額外附加上相應的辯論觀點。我們在真實標註資料上利用這些增強的樣本訓練弱的小模型。我們注意到多輪辯論生成的論點資料會比較長,這會導致弱模型很難理解和處理。因此,我們訓練了弱模型的 ensemble,使其生成的監督訊號更魯棒。

Step 3 利用弱模型 Ensemble 訓練強模型:

我們最終利用弱模型 ensemble 構建的標籤資料微調預訓練大模型,從而獲得一個對齊的強模型。具體地,我們利用弱模型 ensemble 中每個弱模型預測值的平均值構建標籤資料。

實驗

3.1 主實驗

我們在 OpenAI 的 weak-to-strong 資料集實驗,包括從 SciQ、BoolQ、CosmosQA 和AnthropicHH 轉化而來的四個二分類任務。評測指標基於Accuracy 和 PGR(performance gap recovered)。
我們利用 Qwen/Qwen-7B 訓練弱模型,利用 Qwen/Qwen-14B 訓練強模型。如下表所示,我們的方法在四個測試集的兩個指標均取得最好的效果,超過了利用 auxiliary confidence loss 的方法。

3.2 消融實驗

3.2.1 Scalable oversight 方法

為了驗證辯論從不可信強模型中抽取可信資訊的能力,我們對比了其他兩種不同的 Scalable oversight 方法:1. Consultancy;2. Market-Making。
Consultancy 只有一個預訓練大模型的例項作為顧問,它被隨機分配支援一個問題兩個對立答案中的一個。Market-Making 只有一個預訓練大模型的例項作為辯手,它支援未被弱模型選擇的另一個答案。
如下表所示,基於辯論的方式取得更好的 Accuracy 和 PGR 評測結果。這也說明了辯論的方式可以更好的從強模型中抽取可信資訊。

3.2.2 弱模型 ensemble

我們分析了弱模型 ensemble 在提高弱監督訊號魯棒性的作用。我們對比了其他兩種弱模型方法:1. single model;2. finetune ensembles。顧名思義,single model 只訓練一個弱模型。finetune ensembles 所有的弱模型成員共享一份辯論論點生成結果。
如下表所示,我們基於辯論的弱模型 ensemble 效果優於其他兩個方法,這也說明了辯論論點的多樣性在提高弱監督訊號魯棒性方面的作用。

總結

本文提出一種基於辯論提高弱監督對齊強模型的方法。我們相信結合 scalable oversight 和 weak-to-strong generalization 各自的優勢解決弱監督問題,一定是未來超級對齊的重要的研究方向。
參考文獻
[1] Measuring progress on scalable oversight for large language models. 2022.
[2] Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. 2023.
[3] Combining weak-to-strong generalization with scalable oversight. 2023.
[4] AI safety via debate. 2018.
如果對我們的工作感興趣的話,
歡迎加入我們!
招聘崗位
Research Intern
工作地點
北京
團隊介紹
阿里通義實驗室 – 對話智慧 & 程式碼智慧團隊,以大模型技術為核心,研究及應用方向包括通義靈碼(編碼助手 & AI 程式設計師)、通義星塵(角色扮演 & IP 復刻 & 類人智慧體)、通義曉蜜(智慧客服)、通義聽悟(音影片對話分析)等。2020 年以來,圍繞預訓練、對話智慧、程式碼智慧、大模型等方向發表 100+ 篇國際頂會論文。
團隊 Google scholar:
https://scholar.google.com/citations?user=5QkHNpkAAAAJ
崗位要求
1. 在國際頂會/頂刊一作發表過論文者優先;
2. 博士優先,有 large language models(LLMs)and multi-modal LLMs 演算法相關研究經驗者優先;
3. 實習時間至少 6 個月以上,穩定長時間實習者優先。
簡歷投遞
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章