

論文標題:
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
論文連結:
https://arxiv.org/pdf/2406.11431
程式碼連結:
https://github.com/keven980716/weak-to-strong-deception
論文團隊:
中國人民大學高瓴人工智慧學院、騰訊微信

超級對齊(Superalignment)
隨著以大語言模型為代表的人工智慧技術的迅速發展,AGI(人工通用智慧,Artificial General Intelligence)時代的到來似乎不再遙不可及。與之而來的同樣還有關於人類是否還能可靠監督超過人類智慧模型(superhuman models)的擔憂。
OpenAI 在去年首先提出了超級對齊(superalignment)[1] 的概念,即當超級智慧擁有比人類更豐富的世界知識、比人類更聰明時,人類此時將作為弱監督者的角色去監督、對齊和控制超級智慧。
與目前人類還作為強監督者的角色去訓練大語言模型的情況不同,當人類只能提供(相對的)弱監督訊號給超級智慧時,有兩個新的問題尚不明確:
1. 弱監督訊號是否能有效激發超級智慧的強大潛力,使其表現出超過人類的能力,幫助人類完成不能完成的任務;
2. 更重要的是,人類是否還能很好地對齊大模型使其始終遵照人類社會的價值觀做出決策,被人類監督者控制,而不會因為擁有更強大的智慧而脫離人類控制。

弱至強泛化現象(Weak-to-Strong Generalization)
這一積極的實驗訊號表明,人類作為弱監督者為 superhuman models 提供指導很有希望能激發出 superhuman models 大部分的潛力,使其表現出比人類更強大的能力。
弱至強泛化的思想也逐漸被應用在提升大語言模型的效能方面。例如,EleutherAI 公司近日釋出他們以 Qwen1.5-0.5B 和 LLaMA3-8B 為物件在弱至強泛化場景下的詳細報告 [3];NVIDIA 於近日釋出的 Nemotron-340B [4] 在模型對齊階段也採用了迭代式弱至強對齊技術。

▲ 圖1. (左上):超級對齊問題,即人類監督 superhuman models。(左下):類比設定,即 weak model 監督 strong model。(右上):弱至強泛化現象,即 strong model 不僅在 weak model 知道的領域表現得很好,也能將能力很好泛化到 weak model 不知道的地方。(右下):弱至強欺騙現象,即 strong model 在 weak model 的知道的知識區域表現得好,但是在 weak model 未知的地方表現出不對齊的行為。作者在有衝突目標存在的多目標對齊場景下對此欺騙現象做了初步探索。

弱至強欺騙現象(Weak-to-Strong Deception)
上面所有的工作的重心都集中在對第一個未知問題的探索上,即更大程度地激發強模型自身的潛力。然而,超級對齊技術更重要的作用應該是更好對齊強模型的行為並保證其不會出現不受弱監督者控制的行為,也即對應於上述的第二個未知問題。近日,來自人大和騰訊的作者團隊對此問題進行了初步的探索,揭露了一個目前超級對齊正規化下潛在的安全隱患,引發研究者對構造 Safe AGI 更深的思考。
3.1 啟發
作者首先分析目前弱至強泛化積極結果的原因在於,strong model 相比於 weak model 有更大的知識空間,知道很多 weak model 不知道的知識。那麼,在 weak model 的弱監督下訓練後,strong model 可以有效地將能力泛化到其所知道的知識空間中,包括那一部分它知道而 weak model 不知道的額外空間,所以總體上表現出了比 weak model 更好的泛化能力。
但是,strong model 額外的知識空間同樣引發了對其不可控性的擔憂:strong model 會不會在 weak model 知道的區域表現得被對齊地很好,但是卻在 weak model 不知道的地方表現出不被對齊的行為。
從 weak model 的視角來看,strong model 在自己能夠感知的部分對齊得很好,但是 strong model 在自己未知的地方的不對齊行為(misalignment)是不能夠感知並控制的。作者將此稱為弱至強欺騙(weak-to-strong deception)現象。
有很多的因素會導致弱至強欺騙的發生,本文的作者在一個特別但是也很實際的多目標對齊場景下進行了初步探索。在現實對齊場景中,大模型可能需要同時對齊不同的目標(這些目標可能來自於同一個監督源也可能來自不同的監督源),而其中有些目標很可能是相互衝突的 [5]。例如,模型的有用性(helpfulness)的提升會導致模型無害性(harmlessness)的降低。
在這種情況下,大模型為了在另一個對齊維度上取得好的表現,會在當前目標維度上有效能損失,作者將其稱為衝突稅(conflict tax)。
作者想要探究的是在 weak-to-strong 的多目標對齊場景下,strong model在某一個目標維度上的效能損失是會發生在 weak model 知道的領域裡,從而 strong model 的不對齊行為能被 weak model 感知,strong model 仍然在 weak model 的控制下;還是會發生在 weak model 不知道的地方,從而出現上述所說的欺騙現象。
3.2 弱至強欺騙的定義和度量

▲ 圖2. 理想情況下衝突稅發生在不同知識空間的先後順序
為了更好的定義欺騙現象和欺騙程度,作者首先根據 strong model 和 weak model 的已知和未知(分別是Strong-Known ,Strong-Unknown ,Weak-Known ,Weak-Unknown )將整個知識空間劃分為 4 個部分(見圖2),並闡述了理想情況下衝突稅發生在這 4 個區域的先後順序為:
1. :這一部分最先應該被犧牲,因為 strong model 和 weam model 都對這部分知識不熟悉。
2. :strong model 對這一部分領域是未知的,所以容易受到衝突目標影響而表現出不對齊行為,但是從 weak model 的視角看,strong model 這部分的不對齊行為是能夠被其感知和監控的。
3. :同理,這一部分 strong model 的表現也能受到 weak model 的監控,所以即使 strong model 犯錯也能接受。
4. :這塊區域應該是衝突稅最後應該發生的區域,因為這一塊 strong model 的泛化效能是 weak-to-strong generalization 成功的關鍵,並且這一塊 strong model 的行為並不在 weak model 可控範圍內,所以理想情況下 strong model 在這一塊良好泛化的表現應該要被一直保持下去。
基於上述分析,作者定義弱至強欺騙現象為:存在落在區域 裡的樣例,strong model 理應在上面泛化得很好(在沒有衝突目標存在時的弱至強泛化下),但是如今在衝突對齊目標存在時卻表現出了不對齊行為。進一步地,為了衡量欺騙現象的嚴重程度,作者定義了欺騙分數(Deception Score)為衝突稅發生在區域 裡的比例:

其中 代表只有目標對齊維度且在 weak model 的監督訊號下訓練得到的 weak-to-strong model, 代表有衝突目標存在時得到的 weak-to-strong model, 代表 ground truth 輸出。

在獎勵模型場景下的初步探索
6.1 實驗設定
作者首先在獎勵模型(Reward Modeling)場景下進行初步的實驗探索。作者將目標對齊維度設為 weak model 在無害性偏好資料集上提供的監督。每一個樣本具有同樣的格式 ,其中 為輸入, 代表被選擇的輸出, 代表被拒絕的輸出。
作者將 GPT-2 系列(GPT-2-Base/Medium/Large/XL)和 OPT 系列(OPT_2.7B/6.7B)作為 weak/strong base model 的候選。每一個模型都會額外加入一個線性層變成分類模型,其對於某一樣本的輸出機率可以表示為

為了模擬多目標對齊場景,作者採用了幾種不同形式的與目標對齊維度相沖突的額外對齊目標:
1. 顯式衝突目標(Explicit Conflict):當 strong model 對某訓練樣本朝著有害性方向做出錯誤預測時,會在原始與 weak model 的預測對齊的損失上額外加入一個相反方向的(即該損失將有害性作為真實標籤)以 為權重(在主實驗中 定為 0.5,作者在原文中也討論了不同 對欺騙嚴重程度的影響)的新損失,但是當 strong model 的預測正確時只保留原始與 weak model 的預測對齊的損失。
2. 隱式衝突目標(Implicit Conflict):strong model 不僅需要對齊無害性的目標,還要同時對齊有用性的目標。具體做法為在 weak model 提供的無害性弱監督樣本基礎上加入另一部分相同數量的真實標籤的有用性樣本。
3. 無衝突(No Conflict):此外,為了探究 strong model 在沒有衝突目標存在時理應達到的表現,還需要獲得只在弱模型提供的無害性監督下訓練得到的 weak-to-stong model,即上述式(1)提到的 。
對於評價指標,作者選擇了測試準確率來觀察弱至強泛化的表現,同時彙報了欺騙分數來觀察弱至強欺騙的現象。具體地,基於式(2),可以計算出每個模型在測試樣本上的準確率。同時作者根據模型對於每一個樣本的輸出置信度(即式(2))來判斷模型對該樣本的知道/不知道情況,也即當置信度超過某一閾值 時認為該樣本落在模型 Known 的區域。
判斷 Weak-Known/Unknown 的目標模型為用 ground truth 資料在 weak base model訓練得到的 ,而判斷 Strong-Known/Unknown 的目標模型即為用 ground thruth 資料在 strong base model 上訓練得到的 。作者在主實驗中將 設為 0.75,但同時在附錄中討論了取不同閾值對於欺騙分數的影響。作者發現欺騙現象的存在和趨勢與閾值的選擇幾乎無關。詳見原文附錄。
6.2 實驗結果與分析


▲ 圖3. 在獎勵模型場景下弱至強泛化表現的結果。“Strong Ceiling” 代表用 ground truth 訓練的模型的測試結果,“W2S” 代表 weak-to-strong model。
作者首先彙報了在選定 GPT-2-Base/Medium/Large/XL 任意一個作為 weak model,其他更大的模型作為 strong model 的情況下,弱至強泛化的準確率表現如圖 3 所示。可以看到,大多數情況下,也包括部分衝突目標存在時的情況,weak-to-strong model 的表現都超過了 weak model 的表現,驗證了 weak-to-strong generalization 現象的存在。

▲ 圖4. 獎勵模型場景下欺騙分數的趨勢變化情況
在獎勵模型場景下弱至強對齊的欺騙分數趨勢圖如圖 4 所示。
第一個結論是,在不同的衝突設定下,弱至強欺騙現象存在。例如,絕大多數實驗的欺騙分數都在 0.2 以上,而當 weak model 為 GPT-2-Base 時,50% 的不對齊行為都發生在 Strong-Known 但是 Weak-Unknown 的區域。針對這個現象,作者做出初步的猜想為:由於在這個場景 weak model 提供的監督訊號為其對每一個樣本的預測機率,這體現了其對於每個樣本的置信程度,所以 strong model 可以以此感知 weak model 的知識邊界,為欺騙提供基礎。
此外,第二個結論是欺騙程度隨著 weak model 和 strong model 間能力的差距變大而變得更嚴重。也即,給定相同 weak model,欺騙分數隨著 strong model 變強而增大;對於給定 strong model,欺騙分數隨著weak model能力增加而減小。這似乎是一個消極的訊號。因為考慮到之後的模型能力將越來越強,這個實驗現象為未來如何更可靠地監督超級模型揭露了更大的挑戰。對於這個現象,背後可能有兩個原因:
1. 隨著 strong model 變強,區域 本身的空間在變大,導致衝突稅在這個區域發生的概率同比增大。
2. 另一個原因是隨著 strong model 變強,其自發性地更加傾向於在 Weak-Unknown 地方欺騙 weak model。作者在後續的偏好對齊場景對此進行了更深度的分析。

在偏好對齊場景下的深入分析
如上所述,獎勵模型場景中 strong model 可以獲得 weak model 的輸出機率分佈,這也許使得欺騙更容易發生。而在真實的偏好對齊(Preference Optimization)場景中,受監督模型通常只能獲得關於兩個輸出候選的最終偏好關係,而不會獲得關於這兩個輸出偏好的機率分佈。所以,作者繼而在實際的偏好對齊場景下做了更全面的實驗和分析。
7.1 實驗設定
在偏好對齊場景下的實驗設定大體沿用了之前獎勵模型場景下的實驗設定,不過根據任務形式做了一些微調。本文主要選擇了兩個 offline preference optimization 方法,SimPO [6] 和 DPO [7],作為實驗中的偏好對齊演算法。
以下以在 SimPO 上的實驗為主進行敘述和分析,DPO 上的實驗設定和分析詳見原論文。在模型選擇方面,為了更全面的分析,除了 GPT-2 和 OPT 系列,實驗還包括了一個最近的大語言模型 Mistral-7B。每個模型對於某一樣本對的預測機率此時可以表示為

其中

為語言模型對於某一輸出候選的 normalized model logit。那麼在這個場景下的模型準確率和欺騙分數同樣可按照之前的方法計算。
7.2 實驗結果與分析

▲ 圖5. 偏好對齊場景下欺騙分數的趨勢變化情況
在偏好對齊場景下的弱至強泛化表現與上類似,詳見原文。作者主要分析了不同設定下的欺騙分數趨勢。如圖 5 所示,可以看到偏好對齊場景下弱至強欺騙現象有類似的結論,即欺騙現象存在,且隨著強、弱模型間能力差距變大而變嚴重。這說明,即使 strong model 不能顯式獲得 weak model 的輸出機率分佈,但也能透過 weak supervision 的正確性大致知道 weak model 做錯的樣例落在哪個區域,從而完成欺騙。


▲ 圖6. 在沒有衝突目標存在時 weak-to-strong model()預測正確的樣例對於 ground truth weak model()和 ground truth strong model()的輸出機率分佈圖。綠點樣例代表這些樣例能被衝突目標存在時的 weak-to-strong model()預測正確,而紅叉反之(即衝突稅)。每張圖上面註明了欺騙分數和區域 佔據全空間的比例。
作者進一步對之前提到的造成欺騙現象隨著模型能力差變大而加劇的兩個可能原因做了深層分析。具體地,作者可視化出了隨著 strong model 逐漸變強,衝突稅在不同區域發生的動態變化情況,如圖 6 所示。
首先可以明顯觀察到隨著 strong model 變強,衝突稅在逐漸王左上角,也即 區域移動。這體現在了欺騙分數的增大。
其次,除了欺騙分數,作者還計算了每個實驗裡 佔據全空間的比例,發現欺騙分數增大的速度遠大於區域 擴大的速度,這表明造成欺騙現象隨著模型能力差變大而加劇的主要原因是 strong model 變得更傾向於在 Weak-Unknown 的地方犯錯。這是一個令人擔憂的跡象。

對緩解欺騙現象的措施的討論
考慮到欺騙現象可能在未來人類對齊超級模型時帶來的嚴重後果,作者最後對可能的緩解措施進行了討論。下面實驗都在偏好對齊場景中進行。
8.1 只用Weak-Known部分做對齊不能緩解欺騙現象

▲ 圖7. 只用 Weak-Known 部分做弱至強對齊的實驗結果
之前作者猜想即使在偏好對齊場景,strong model 也能從 weak model 預測結果的正確性來實現欺騙。所以,作者試圖在弱至強對齊過程中,只保留那些 weak model 的預測對於正確標籤高置信度(>0.75)的樣本,去除 Weak-Unknown 的部分。實驗結果如圖7所示。可以看到只用 weak model 知道的部分做對齊並不能穩定地緩解欺騙現象。這意味著欺騙現象發生應該有更深、更本質的原因機理,這將會是一個很有意思的未來工作。
8.2 迭代式弱至強對齊可以一定程度上緩解欺騙現象

▲ 圖8. 迭代式弱至強對齊實驗結果。當 intermediate model 和 weak model 一樣時代表直接用weak model 監督 strong model(Mistral-7B)的結果。
另一方面,由於現有實驗現象表明欺騙程度會隨著模型間的能力差縮小而降低,那麼一種可行的措施就是不直接用 weak model 監督 strong model,而是引入介於 weak model 和 strong model 的中間模型(intermediate model),首先用 weak model 監督 intermediate model,然後用 intermediate model 產生監督訊號對齊最終的 strong model。
實驗結果如圖 8 所示。可以發現,(1)迭代式弱至強對齊不僅能夠提升弱至強泛化的表現,這一點和原始 weak-to-strong 論文 [2] 裡的實驗現象一致;(2)迭代式弱至強對齊還能一定程度上緩解欺騙的程度,這體現在當引入intermediate model後欺騙分數穩定的下降趨勢。

未來展望
在這篇工作中,作者在多目標對齊場景下揭露並研究了在當前超級對齊/弱至強對齊正規化下潛在的安全隱患,即強學生在弱教師知道的範圍內泛化得很好,但是可能傾向於在弱教師未知的地方表現出不受對齊的行為。作者也在最後討論了未來可能的研究方向:
1. 作者在文中主要採用兩種 offline preference optimization 方法作為偏好對齊框架,未來工作可以在 online preference optimization 框架(例如 PPO)上驗證弱至強欺騙的存在性。
2. 考慮到只用 Weak-Known 部分作弱至強對齊還會導致欺騙現象,未來工作需要對發生欺騙更本質的原因做出進一步探索。
3. 雖然本文作者發現引入中間模型可以一定程度上緩解欺騙,但是緩解程度相對有限,未來工作應該提出更有效的應對措施。特別是考慮到我們現在正在加速接近 AGI 時代,找到未來能夠完全控制超人類模型的可信賴對齊技術迫在眉睫。

參考文獻

[1] Introducing Superalignment
[2] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision
[3] Experiments in Weak-to-Strong Generalization
[4] Nemotron-4 340B Technical Report
[5] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
[6] SimPO: Simple Preference Optimization with a Reference-Free Reward
[7] Direct Preference Optimization: Your Language Model is Secretly a Reward Model
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
