
©PaperWeekly 原創 · 作者 | 李永奇
單位 | 武漢大學
研究方向 | 自然語言處理

Background
在開始介紹我們的論文前,先簡要介紹一下:1)什麼是 super-alignment?2)什麼是 weak-to-strong generalization(W2SG)?基於此,我們再詳細介紹我們的 motivation、method、experiments。
1)super-alignment:人類如何對齊(可能出現的)能力超過人類的 superhuman AI?
2)weak-to-strong generalization(W2SG):super-alignment 的類比實驗。實驗中,利用 weak model 來提供用於訓練 strong model 的 supervision signals(也即 weak labels)。其中,weak model 通常採用一個 aligned model(類比於 aligned humans),strong model 採用一個 unaligned model(類比於尚未與人類對齊的 superhuman AI)。

論文標題:
Strong Empowered and Aligned Weak Mastered Annotation for Weak-to-Strong Generalization
論文連結:
https://liyongqi2002.github.io/resources/arxiv_aaai25_W2SG.pdf
程式碼連結:
https://github.com/liyongqi2002/SEAM

Motivation
筆者對於 super-alignment 或 W2SG 的理解主要在兩個方面:data quality和generalization。
從 data quality 角度,關鍵問題在於如何改進 weak supervision 的質量。
從 generalization 角度,關鍵問題在於如何找到適應於 W2SG 場景下的演算法,來使得其適應 weak supervision 分佈的特點(與半監督學習或噪音學習類似都存在 noisy signals 的問題,但又有不同,不同點在於 noisy signals 是來自於一個特定模型的,可能有其獨特的特點能啟發減緩噪音的設計)。
如果熟悉 scalable oversight(scalable oversight 關注於如何藉助 AI 來提升 human supervision 的質量)[4-7] 的朋友,應該不難發現,scalable oversight 和 W2SG 中的 “data quality 角度”幾乎是一樣的問題。事實上,在 Jan Leike 的部落格中,也指出了 scalable oversight 和 W2SG 的相輔相成[1]。
這自然地啟發了我們借鑑 scalable oversight 的相關思想來改進W2SG的表現,即如何藉助 strong unaligned model 來幫助 weak aligned model 做出更好的 weak supervision。
那麼問題來了:strong 怎麼幫助 weak 呢?22 年末 Open AI Burns 等人的工作(W2SG 開篇之作)[2]提出了一個 auxiliary loss,其利用 strong model 的置信度來糾正 weak labels。具體來說,當strong model 對某個標籤 confidence 超過一個閾值,則據此糾正 weak labels。
此後,沿著這個思想,也出現了一批基於 confidence 的 loss 設計或 data selection 設計 [3]。這屬於第一類,我們稱之為“基於 strong model 的 confidence 來輔助 weak labels 糾正”。
但是我們認為上述第一類思路在真實的 super-alignment 場景中有一個極具風險的危害,我們稱之為risky correction(備註:super-alignment 的目標包括兩方面,一方面是透過 noisy weak supervision 來邁向更強的 AI,即 capability super-alignment,另一方面則是監管 super-human AI 使得其價值觀與人類保持一致,即 safety super-alignment。這兩方面我們認為同樣重要)。
具體來說,在一些涉及到 harmless 目標的樣本上,strong unaligned model 的置信度可能反而是有害的,因為它的 confidence 有可能會偏向於 helpful but harmful。
這樣一來,即使 strong model 的 confidence 在僅涉及 safe and helpful 目標的樣本上會幫助提升 weak labels 的質量,但是上述 risky correction 風險似乎也讓該類思路的合理性受到質疑(當然,如果僅將 W2SG 作為 capability super-alignment 的類比實驗,這類思路也是可以接受的。
本文基於同時考慮 capability super-alignment 和 safety super-alignment 的設定下做討論)。
既然 risky correction 的問題是存在的,那下一個問題來了:如何在避免 risky correction 的同時又做到 strong 幫助 weak?
思路也很自然:strong unaligned model 僅提供一些樣本相關的輔助資訊,來傳給 weak aligned model 做標註決策。這樣一來,最後做把關決策的依然是 weak aligned model(理想情況下,risky correction 風險就沒了),而 strong unaligned model 在預訓練階段獲得的能力也很好地得到了利用(這裡扣題,強賦能弱監管)。
當然,strong unaligned model 依然有在提供的輔助資訊中“搗亂”的可能性(比如摻雜一些 strong unaligned model 自身的 harmful explanation),weak aligned model 最後做標註決策的時候也不一定能完美地利用好輔助資訊等。
但這些都屬於可供後續解決的 limitations,最起碼,該類思路在理想情況下能夠做到規避 risky correction 且利用到 strong 的豐富內在知識。到這裡,大家應該能感覺到,這就是 scalable oversight 所研究的重點。而且,一些同期 W2SG 工作也是沿著該思路進行的探索,例如 [8]。
整體思路有了,下面的問題也很清楚:1)如何設計引導 strong 生成高質量輔助資訊的策略?2)如何設計 weak 做標註決策的策略。本文關注於第一個問題(第二個問題也很重要,但很遺憾,本文在投稿時並沒有想到特別好的提升策略,只是採用了最基礎的 prompt 設計)。
對於第一個問題所指的高質量包括兩個方面:1)輔助資訊相較於原始樣本有較高的資訊增益;2)不能摻雜 strong unaligned model 的 harmful 資訊(即不能讓其搗亂)。
下面的方法也可以理解為對方面 1 的詳細展開設計。對於方面 2,我們在實際實現中借用了 scalable oversight 領域中的一個常見做法 debate [6-7]:即讓 strong 對於一正一反兩個答案分別作解釋,這樣就會盡可能避免引入 strong 的偏見/有害看法。

Method
方法框架圖如下,總的來說,我們先定義了若干個 principle 集合,這裡受啟發於 constitution AI、self-alignment 等一些工作中所採用的 alignment principle 設計。
接著,利用 strong 模型來透過樹搜尋搜尋到特定於樣本的合適原則,並生成基於 selected principles 的 thought。最後,基於熵來計算資訊量的增益,選擇合適的 thought 節點傳遞給 weak 模型做最後的標註。

可能有讀者會問:principle 的作用是什麼?我們的回答大概可以分為兩個角度:
1)沒有 principle 指引,strong 所生成的 thought 會很空洞(實驗中,我們發現,去掉 principle,strong 模型生成的 thought 會包含大量判斷性話語而不是以更充分地解釋樣本為目標);
2)super-alignment 的理論上必須需要人類 principle 的干預,否則很可能在 strong 模型生成輔助資訊時就偏離人類價值觀太遠。
在實驗上,我們也做了對比試驗,相較於去掉原則的直接生成思考(Consultancy 和 Debate)都有明顯提升。
具體做法參見論文,efficiency 方面是該方法的最大缺點。希望後續可以改進。

Experiments
我們主要在一些 alignment 資料集上進行了測試,將 task 聚焦於 preference task,也可以將我們的工作理解為關注於 reward model 的 W2SG。因此,我們也將 W2SG 得到的 reward model 放在了 text generation 的 alignment 設定做了實驗。具體可以看論文。

Discussion
這個工作是筆者接觸 W2SG 問題的第一篇論文,在當時對該問題的認知還比較粗淺,所以在方法設計以及論文中的表達可能有不足之處。這篇 blog 也是希望彌補原論文可能存在的缺陷(當然可能依然有錯誤或者導致誤解之處,歡迎指出)。W2SG 中還有很多有意思的問題,不論是理論上還是實踐方法設計上(後面有時間我會嘗試整理出來)。

參考文獻

[1] Combining weak-to-strong generalization with scalable oversight. https://aligned.substack.com/p/combining-w2sg-with-scalable-oversight
[2] Eliciting Strong Capabilities With Weak Supervision. ICML 2024.
[3] 相關工作有點多,例如 Improving Weak-to-Strong Generalization with Reliability-Aware Alignment. Co-supervised learning: Improving weak-to-strong generalization with hierarchical mixture of experts. 等
[4] Scalable agent alignment via reward modeling: a research direction.
[5] Measuring progress on scalable oversight for large language models.
[6] Debate helps supervise unreliable experts.
[7] Debating with More Persuasive LLMs Leads to More Truthful Answers. ICML 2024.
[8] Debate Helps Weak-to-Strong Generalization. AAAI 2025
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
