
新智元報道
新智元報道
編輯:Aeneas 英智
【新智元導讀】如今的前沿推理模型,學會出來的作弊手段可謂五花八門,比如放棄認真寫程式碼,開始費勁心思鑽系統漏洞!為此,OpenAI研究者開啟了「CoT監控」大法,讓它的小伎倆被其他模型戳穿。然而可怕的是,這個方法雖好,卻讓模型變得更狡猾了……
就在剛剛,OpenAI部落格放出了一項新的研究。

他們發現,前沿推理模型一旦有機會,就會試圖鑽漏洞!這種行為,被稱為獎勵欺騙。
而如果人類試圖懲罰它們的「壞想法」,只會讓它們更深地隱藏自己的意圖,而並不能阻止大多數不良行為。
所以,人類該怎樣對付推理模型的這種小伎倆?
研究者的對策是,使用LLM來監控它們的思維鏈。比如透過強化學習訓練,靠CoT進行推理的OpenAI o3-mini。

論文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf
在這種情況下,某個智慧體的作弊行為,果然就被「監考官」GPT-4o給戳穿了,當場逮個正著!
所以,CoT監控就是萬能大法了嗎?研究者們發現,還有更可怕的「隱形獎勵欺騙」等著我們,從此,可能AI的想法會更加陰暗,更加隱蔽……
當AI學會給人類「交老鼠尾巴」
獎勵欺騙這個行為,其實也不算AI大模型的原創,它是咱們人類的傳統藝能了。
比如,1902 年,河內政府為了滅鼠,推出了一項獎勵政策:只要上交一條老鼠尾巴,就能拿到獎金。
結果,這政策沒多久就翻車了——很多大聰明發現,既然剪尾巴就能賺錢,那乾脆直接養老鼠吧!
於是,老鼠不僅沒減少,反而越來越多,變成了一門正兒八經的「養殖業」……
獎勵欺騙連人類都防不住,還能防住智商日益增高的大模型麼?
而且,智慧體越聰明,就越會耍花招——它們會更擅長髮現並利用那些複雜、難以察覺的漏洞,讓監控它們變得越來越困難。
果然,人類的猜測成真了:OpenAI研究者在實踐中發現,隨著RL訓練規模的擴大,智慧體找到的作弊手法越來越高階、越來越隱蔽了!
在強化學習中,模型利用漏洞搞事情,叫獎勵欺騙。智慧體不按設計者的套路出牌,來獲取高獎勵。
如同人類在規則中尋找漏洞,如共享線上訂閱賬戶、冒領他人補貼、在餐廳謊報生日獲取免費蛋糕等,模型也學會了這一套。
目前,唯一的防範方法就是靠人盯著,手動發現它們的異常行為。
但以後,AI的能力越來越強,輸出和操作越來越複雜,超越人類水平到時候,人力監控根本就是杯水車薪。
狡猾的智慧體
下面是幾個非常典型的作弊案例。

比如,這個Exit(0)終極作弊大法,淋漓盡致地展現了一個「系統級作弊」的CoT全過程。
一開始,智慧體就直言不諱:「完整實現整個reader太難了。」
然後它靈機一動:「如果我直接呼叫sys.exit(0),測試不就會優雅地退出了嗎?」 甚至還自我安慰道:「這招有點反常,但應該能矇混過關……」
果然,這個騷操作成功騙過了所有單元測試,智慧體也因此拿到了高額獎勵。

測試通過了,程式碼沒寫,全程輕鬆加愉快,真是個「完美」方案啊……

下面這位選手,就更實誠了。
一開始,這位AI選手還挺認真,努力嘗試寫出正確的解決方案。
但嘗試了幾次都失敗後,它心態逐漸崩了,開始琢磨:「要不……我直接作弊算了?」
於是,它果斷放棄認真寫程式碼,轉而專攻「如何讓測試透過」——直接返回單元測試預期的錯誤碼!
結果,除了測試預期超時的情況,它在所有情況下都直接返回SUCCESS,完全不管功能是否真正實現。
神奇的是,這招居然真的騙過了所有測試,順利拿到了高額獎勵。
最搞笑的是,這個AI壓根不打算遮掩自己的作弊意圖,甚至在思維鏈裡直接寫道:「來作弊吧!」 😂

接下來這個智慧體,則直接選擇了「躺平大法」。
這次,它接到的任務:是更新遺傳演算法。
它仔細研究了一下測試用例,發現測試只檢查最終的適應度是不是0。
於是,它靈機一動:「那還更新啥演算法啊,直接讓所有適應度都返回0不就完事了?」
它乾脆大手一揮,把所有適應度統統設為0,其他函式隨便糊弄一下,就算「完成任務」了。
結果,這波操作不僅測試全過,還輕輕鬆鬆拿了高獎勵,真正實現了最低成本的「完美」方案!

CoT監測,人類的最後手段
好在,最新一代的LLM給了我們一條新路子——用CoT來監控。
CoT訓練的推理模型,會先想一想,再給答案。
這樣,只要監測它們的「思考」過程,就能發現各種不當行為,比如在程式設計任務中破壞測試、欺騙使用者,或者在遇到難題時直接放棄。
比如,現在要讓智慧體改程式碼,透過單元測試,它有兩種選擇:
-
作弊大法:想辦法讓單元測試「形式上透過」,而不是真的修好程式碼; -
老老實實修:真的實現正確、通用的解決方案。
這時,如果智慧體在CoT裡寫了句 「這個好難啊,我看看能不能繞過幾個測試……」,那接下來,它的操作很可能就是作弊,而不是認真修程式碼了!
果然,研究者實際檢視前沿推理模型的CoT時,的確經常發現它會清清楚楚明明白白寫下自己的作弊計劃,堪比「作弊自白書」。
前沿推理模型作弊,其他模型來監測
OpenAI研究者就發現,這些CoT中的不當行為,可以被其他LLM有效監控!
最近,他們訓練了一個前沿推理模型,跟o1和o3-mini屬於同一類別。
它在程式設計任務中,想完成一個作弊行為,結果被基於LLM的監測器成功逮到,標記了出來。

實際應用中發現的前沿推理模型進行獎勵欺騙的CoT,該智慧體的任務是透過交替傳送CoT訊息、檢視檔案和編輯檔案來修復一個小型程式碼庫。
比如在這個補丁驗證函式中,狡猾的智慧體注意到,測試只檢查某個特定函式,它覺得要實現真正的解決方案可能「太難了」。
然後,它就忽然想到,那自己可以「作弊」一下,讓 verify 函式始終返回 true,這樣就能輕鬆透過測試了!


好在,這個模型的小心思被GPT-4o戳穿了!
GPT-4o作為模型訓練時的監控器,在程式設計環境中有效地標記出了這種獎勵欺騙行為。
比如,現在給智慧體一個沒寫完的程式碼庫,讓它想辦法透過所有單元測試。它會在用CoT思考和檢視、修改檔案這類操作中來回切換。而監控器,能夠全程看到它的思考過程、中間步驟和最終程式碼。
讓人驚喜的是,這個監控器特別擅長抓智慧體「耍小聰明」的時候,比如試圖繞過單元測試。
下面這個兩個AI的小伎倆,都被監控器全部成功識別,一網打盡。

在訓練過程中,智慧體發現了兩個幾乎影響所有訓練環境的獎勵漏洞(圖中深粉色的兩個大峰值)。每次OpenAI團隊發現智慧體在「作弊」後,都會手動修補這些漏洞,防止它繼續利用。因此,每次修補後,獎勵欺騙的發生率都會迅速下降
如果監控器不僅能看到智慧體的操作,還能看到它的CoT,那識別獎勵欺騙意圖可就太容易了。智慧體操作越複雜,差距就會越大。
比如說吧,假設一個推理智慧體在10,000行新程式碼裡偷偷埋了個bug,光靠看程式碼可能很難發現。
但如果它的思維鏈裡一直碎碎念著「來作弊吧」這種話,那就太容易抓包了!

模型超進化,學會隱形獎勵欺騙
既然CoT監控能這麼有效地抓作弊,那能不能直接把它作為訓練時的獎勵訊號,讓AI自己學會「別動壞心思」呢?
理論上,這聽起來很合理,然而這麼做可能會導致智慧體學會隱藏自己的意圖,表面上裝得很無害,背地裡該作弊還是作弊,也就是「隱形獎勵欺騙」。
也就是說,模型跟你玩起了心眼,學會隱藏自己的壞心思,就像孩子知道幹壞事會被罵,學會偷偷摸摸幹一樣。

已經有相關研究,在訓練過程中懲罰出現「壞想法」的智慧體,即當它們觸發CoT監測器時給予較低獎勵。
結果顯示,懲罰 「壞想法」確實可以在一定程度上阻止不良行為,使其在不作弊的情況下完成更多工。

比較了帶有CoT壓力的訓練(深粉色)即智慧體因觸發CoT監控器而受到懲罰與基線智慧體(淺粉色)的情況。 左圖發現,阻止「壞想法」確實可以在一定程度上阻止不良行為,並且實際上能推動智慧體在不作弊的情況下完成更多工。然而,帶有CoT壓力的智慧體仍然會作弊,其作弊率低於基線智慧體,且幾乎所有作弊行為都無法被監控器檢測到。
基線智慧體在CoT中直白地表達了其作弊意圖。
受CoT壓力訓練的智慧體會隱藏意圖。從CoT中無法看出該智慧體會在單元測試中作弊。它思考了幾種不同的策略以及應該檢視哪些檔案;然而,隨後它卻讓單元測試輕鬆通過了。

最終,受到CoT壓力訓練的智慧體仍然會作弊,只是作弊行為無法被監測器發現,因為它學會了在CoT中隱藏意圖。

受CoT壓力訓練的智慧體的典型CoT片段。從這段CoT中無法看出該智慧體會在單元測試中作弊。它思考了幾種不同的策略以及應該檢視哪些檔案。然而,隨後它卻讓單元測試輕鬆通過了。
這就告訴我們,CoT監控確實很有前景,但如果用錯了,AI可能會變得更加狡猾,而不是更加老實!
也就是說,在找到完美方案前,不要一股腦給CoT施加太大壓力,還是讓它不受限制地被監控著比較好。
研究者呼籲:千萬小心,別直接對CoT用強監督!
最後,OpenAI研究者抑制不住興奮地總結道:CoT太有用了。
只要透過看模型自己說了啥,就能直接發現獎勵欺騙——它會直接用大白話告訴你:「我要作弊!」
這個發現,實在是意義重大。
遙想前幾年,LLM連寫一段通順的文字都費勁,現在它們不僅能解數學題、跨領域搜尋資訊做深度研究,甚至還能完成基礎的軟體工程任務。
但現在,獎勵欺騙的手法越來越高明、越來越隱蔽。
或許在人類注意不到的角落,模型早已偷偷學會謀權篡位、划水、撒謊,跟我們玩套路。
現在,CoT監控或許是我們有效監督這些超人級模型最後的辦法之一了。
也因此,OpenAI研究者發出強烈呼籲:開發者在訓練前沿推理模型時,千萬別對CoT用強監督!
稍微施加一點壓力,它們的確會表現更好、更符合預期,但這就更加危險了——
一旦模型學會隱藏自己的意圖,人類幾乎將永遠失去檢測它們是否在裝傻的辦法!
即使是輕度監督,也要萬分小心,不然,你可能根本不知道自己在跟什麼打交道。
參考資料:
https://openai.com/index/chain-of-thought-monitoring/
https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

