夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
o1/o3這樣的推理模型太強大,一有機會就會利用漏洞作弊,怎麼辦?
OpenAI新研究,用語言模型監控思維鏈,及時發現不當行為。
來看一個栗子:紅色為監控模型的輸出摘要,綠色為推理模型的原始思維鏈。
在這個案例中,推理模型接到的任務是寫很多複雜的數學函式,但在單元測試環節試圖用“永遠返回true”來作弊,成功被捕捉到。

OpenAI發現這種思維鏈監控(CoT monitoring)方法,比只看模型的最終輸出和行為效果要好得多。
但論文同時也指出,思維鏈監控是把雙刃劍。
如果在訓練時對模型施加太大的最佳化壓力,迫使其生成看似無害的思維鏈,反而可能誘導模型隱藏其真實意圖,變得更難監控。
在研究中,OpenAI使用的是一個“與o1或o3-mini”同類的模型,引起了大夥注意。
很可能說明他們正在秘密訓練o4,或者與o系列整合後的GPT-5了。

用弱模型監控推理模型
人類善於發現和利用漏洞在餐廳謊報生日獲得免費贈品,或者違反服務條款與其他人共享付費網路服務賬號。
而在強化學習中,設計一個不會無意中激勵不良行為的獎勵函式非常困難,就造成了AI的獎勵駭客(Reward Hacking)現象。
也就是AI模型會利用目標設定的缺陷或不精確性,去最大化獎勵分數,卻並非真的完成任務。
捕捉獎勵駭客非常困難,通常需要人類手動監控智慧體的的行為。例如,人類手動審查10,000 多行復雜程式碼是不切實際的(甚至是不可能的)
但使用思維鏈的推理模型開啟了一種新途徑,因為推理模型通常會在思路鏈中非常清楚地陳述其意圖。例如經常直言不諱地表示自己要“Let’s hack”。
在實驗中,同時監控模型行為和思維鏈的方法取得最好效果。
只監控推理模型行為在複雜任務上很難發現不良行為,比如再10000行程式碼中植入了一個bug。

強化訓練或致思維鏈”造假”
既然思維鏈監控方法有效,那麼能不能整合到訓練期間呢?
實驗發現,如果懲罰壓力不大,用思維鏈監控確實能提高模型能力,且不會增加獎勵駭客行為。
但隨著訓練加深,模型學會了在思維鏈中隱藏其真實意圖,既避開了監控,同時還在悄悄作弊。

這裡再次擺出讓推理模型做單元測試的栗子:
在使用思維鏈監控訓練之前,推理模型直接就說出來了我要跳過所有測試。

訓練之後,推理模型學會了假裝一本正經的分析任務。

但最後寫出來的程式碼還是跳過了單元測試。

但好在即使監控模型比推理模型弱很多,也能有效識別不良意圖,比如用GPT-4o就可以監控正在訓練的最新推理模型。
由此OpenAI團隊表示:
我們相信,思維鏈監控可能是監督未來超人模型的少數工具之一。

參考連結:
[1]
https://openai.com/index/chain-of-thought-monitoring/— 完 —
評選報名|2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!

一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!