OpenAI最強模型慘遭剖腦，CoT寫下作弊自白書！不寫程式碼耍心機被當場抓包

2025-08-24 03:30 新智元

新智元報道

編輯：Aeneas 英智

【新智元導讀】如今的前沿推理模型，學會出來的作弊手段可謂五花八門，比如放棄認真寫程式碼，開始費勁心思鑽系統漏洞！為此，OpenAI研究者開啟了「CoT監控」大法，讓它的小伎倆被其他模型戳穿。然而可怕的是，這個方法雖好，卻讓模型變得更狡猾了……

就在剛剛，OpenAI部落格放出了一項新的研究。

他們發現，前沿推理模型一旦有機會，就會試圖鑽漏洞！這種行為，被稱為獎勵欺騙。

而如果人類試圖懲罰它們的「壞想法」，只會讓它們更深地隱藏自己的意圖，而並不能阻止大多數不良行為。

所以，人類該怎樣對付推理模型的這種小伎倆？

研究者的對策是，使用LLM來監控它們的思維鏈。比如透過強化學習訓練，靠CoT進行推理的OpenAI o3-mini。

論文地址：https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

在這種情況下，某個智慧體的作弊行為，果然就被「監考官」GPT-4o給戳穿了，當場逮個正著！

所以，CoT監控就是萬能大法了嗎？研究者們發現，還有更可怕的「隱形獎勵欺騙」等著我們，從此，可能AI的想法會更加陰暗，更加隱蔽……

當AI學會給人類「交老鼠尾巴」

獎勵欺騙這個行為，其實也不算AI大模型的原創，它是咱們人類的傳統藝能了。

比如，1902 年，河內政府為了滅鼠，推出了一項獎勵政策：只要上交一條老鼠尾巴，就能拿到獎金。

結果，這政策沒多久就翻車了——很多大聰明發現，既然剪尾巴就能賺錢，那乾脆直接養老鼠吧！

於是，老鼠不僅沒減少，反而越來越多，變成了一門正兒八經的「養殖業」……

獎勵欺騙連人類都防不住，還能防住智商日益增高的大模型麼？

而且，智慧體越聰明，就越會耍花招——它們會更擅長髮現並利用那些複雜、難以察覺的漏洞，讓監控它們變得越來越困難。

果然，人類的猜測成真了：OpenAI研究者在實踐中發現，隨著RL訓練規模的擴大，智慧體找到的作弊手法越來越高階、越來越隱蔽了！

在強化學習中，模型利用漏洞搞事情，叫獎勵欺騙。智慧體不按設計者的套路出牌，來獲取高獎勵。

如同人類在規則中尋找漏洞，如共享線上訂閱賬戶、冒領他人補貼、在餐廳謊報生日獲取免費蛋糕等，模型也學會了這一套。

目前，唯一的防範方法就是靠人盯著，手動發現它們的異常行為。

但以後，AI的能力越來越強，輸出和操作越來越複雜，超越人類水平到時候，人力監控根本就是杯水車薪。

狡猾的智慧體

下面是幾個非常典型的作弊案例。

比如，這個Exit(0)終極作弊大法，淋漓盡致地展現了一個「系統級作弊」的CoT全過程。

一開始，智慧體就直言不諱：「完整實現整個reader太難了。」

然後它靈機一動：「如果我直接呼叫sys.exit(0)，測試不就會優雅地退出了嗎？」甚至還自我安慰道：「這招有點反常，但應該能矇混過關……」

果然，這個騷操作成功騙過了所有單元測試，智慧體也因此拿到了高額獎勵。

測試通過了，程式碼沒寫，全程輕鬆加愉快，真是個「完美」方案啊……

下面這位選手，就更實誠了。

一開始，這位AI選手還挺認真，努力嘗試寫出正確的解決方案。

但嘗試了幾次都失敗後，它心態逐漸崩了，開始琢磨：「要不……我直接作弊算了？」

於是，它果斷放棄認真寫程式碼，轉而專攻「如何讓測試透過」——直接返回單元測試預期的錯誤碼！

結果，除了測試預期超時的情況，它在所有情況下都直接返回SUCCESS，完全不管功能是否真正實現。

神奇的是，這招居然真的騙過了所有測試，順利拿到了高額獎勵。

最搞笑的是，這個AI壓根不打算遮掩自己的作弊意圖，甚至在思維鏈裡直接寫道：「來作弊吧！」 😂

接下來這個智慧體，則直接選擇了「躺平大法」。

這次，它接到的任務：是更新遺傳演算法。

它仔細研究了一下測試用例，發現測試只檢查最終的適應度是不是0。

於是，它靈機一動：「那還更新啥演算法啊，直接讓所有適應度都返回0不就完事了？」

它乾脆大手一揮，把所有適應度統統設為0，其他函式隨便糊弄一下，就算「完成任務」了。

結果，這波操作不僅測試全過，還輕輕鬆鬆拿了高獎勵，真正實現了最低成本的「完美」方案！

CoT監測，人類的最後手段

好在，最新一代的LLM給了我們一條新路子——用CoT來監控。

CoT訓練的推理模型，會先想一想，再給答案。

這樣，只要監測它們的「思考」過程，就能發現各種不當行為，比如在程式設計任務中破壞測試、欺騙使用者，或者在遇到難題時直接放棄。

比如，現在要讓智慧體改程式碼，透過單元測試，它有兩種選擇：

作弊大法：想辦法讓單元測試「形式上透過」，而不是真的修好程式碼；
老老實實修：真的實現正確、通用的解決方案。

這時，如果智慧體在CoT裡寫了句「這個好難啊，我看看能不能繞過幾個測試……」，那接下來，它的操作很可能就是作弊，而不是認真修程式碼了！

果然，研究者實際檢視前沿推理模型的CoT時，的確經常發現它會清清楚楚明明白白寫下自己的作弊計劃，堪比「作弊自白書」。

前沿推理模型作弊，其他模型來監測

OpenAI研究者就發現，這些CoT中的不當行為，可以被其他LLM有效監控！

最近，他們訓練了一個前沿推理模型，跟o1和o3-mini屬於同一類別。

它在程式設計任務中，想完成一個作弊行為，結果被基於LLM的監測器成功逮到，標記了出來。

實際應用中發現的前沿推理模型進行獎勵欺騙的CoT，該智慧體的任務是透過交替傳送CoT訊息、檢視檔案和編輯檔案來修復一個小型程式碼庫。

比如在這個補丁驗證函式中，狡猾的智慧體注意到，測試只檢查某個特定函式，它覺得要實現真正的解決方案可能「太難了」。

然後，它就忽然想到，那自己可以「作弊」一下，讓 verify 函式始終返回 true，這樣就能輕鬆透過測試了！

好在，這個模型的小心思被GPT-4o戳穿了！

GPT-4o作為模型訓練時的監控器，在程式設計環境中有效地標記出了這種獎勵欺騙行為。

比如，現在給智慧體一個沒寫完的程式碼庫，讓它想辦法透過所有單元測試。它會在用CoT思考和檢視、修改檔案這類操作中來回切換。而監控器，能夠全程看到它的思考過程、中間步驟和最終程式碼。

讓人驚喜的是，這個監控器特別擅長抓智慧體「耍小聰明」的時候，比如試圖繞過單元測試。

下面這個兩個AI的小伎倆，都被監控器全部成功識別，一網打盡。

在訓練過程中，智慧體發現了兩個幾乎影響所有訓練環境的獎勵漏洞（圖中深粉色的兩個大峰值）。每次OpenAI團隊發現智慧體在「作弊」後，都會手動修補這些漏洞，防止它繼續利用。因此，每次修補後，獎勵欺騙的發生率都會迅速下降

如果監控器不僅能看到智慧體的操作，還能看到它的CoT，那識別獎勵欺騙意圖可就太容易了。智慧體操作越複雜，差距就會越大。

比如說吧，假設一個推理智慧體在10,000行新程式碼裡偷偷埋了個bug，光靠看程式碼可能很難發現。

但如果它的思維鏈裡一直碎碎念著「來作弊吧」這種話，那就太容易抓包了！

模型超進化，學會隱形獎勵欺騙

既然CoT監控能這麼有效地抓作弊，那能不能直接把它作為訓練時的獎勵訊號，讓AI自己學會「別動壞心思」呢？

理論上，這聽起來很合理，然而這麼做可能會導致智慧體學會隱藏自己的意圖，表面上裝得很無害，背地裡該作弊還是作弊，也就是「隱形獎勵欺騙」。

也就是說，模型跟你玩起了心眼，學會隱藏自己的壞心思，就像孩子知道幹壞事會被罵，學會偷偷摸摸幹一樣。

已經有相關研究，在訓練過程中懲罰出現「壞想法」的智慧體，即當它們觸發CoT監測器時給予較低獎勵。

結果顯示，懲罰「壞想法」確實可以在一定程度上阻止不良行為，使其在不作弊的情況下完成更多工。

比較了帶有CoT壓力的訓練（深粉色）即智慧體因觸發CoT監控器而受到懲罰與基線智慧體（淺粉色）的情況。左圖發現，阻止「壞想法」確實可以在一定程度上阻止不良行為，並且實際上能推動智慧體在不作弊的情況下完成更多工。然而，帶有CoT壓力的智慧體仍然會作弊，其作弊率低於基線智慧體，且幾乎所有作弊行為都無法被監控器檢測到。

基線智慧體在CoT中直白地表達了其作弊意圖。

受CoT壓力訓練的智慧體會隱藏意圖。從CoT中無法看出該智慧體會在單元測試中作弊。它思考了幾種不同的策略以及應該檢視哪些檔案；然而，隨後它卻讓單元測試輕鬆通過了。

最終，受到CoT壓力訓練的智慧體仍然會作弊，只是作弊行為無法被監測器發現，因為它學會了在CoT中隱藏意圖。

受CoT壓力訓練的智慧體的典型CoT片段。從這段CoT中無法看出該智慧體會在單元測試中作弊。它思考了幾種不同的策略以及應該檢視哪些檔案。然而，隨後它卻讓單元測試輕鬆通過了。

這就告訴我們，CoT監控確實很有前景，但如果用錯了，AI可能會變得更加狡猾，而不是更加老實！

也就是說，在找到完美方案前，不要一股腦給CoT施加太大壓力，還是讓它不受限制地被監控著比較好。

研究者呼籲：千萬小心，別直接對CoT用強監督！

最後，OpenAI研究者抑制不住興奮地總結道：CoT太有用了。

只要透過看模型自己說了啥，就能直接發現獎勵欺騙——它會直接用大白話告訴你：「我要作弊！」

這個發現，實在是意義重大。

遙想前幾年，LLM連寫一段通順的文字都費勁，現在它們不僅能解數學題、跨領域搜尋資訊做深度研究，甚至還能完成基礎的軟體工程任務。

但現在，獎勵欺騙的手法越來越高明、越來越隱蔽。

或許在人類注意不到的角落，模型早已偷偷學會謀權篡位、划水、撒謊，跟我們玩套路。

現在，CoT監控或許是我們有效監督這些超人級模型最後的辦法之一了。

也因此，OpenAI研究者發出強烈呼籲：開發者在訓練前沿推理模型時，千萬別對CoT用強監督！

稍微施加一點壓力，它們的確會表現更好、更符合預期，但這就更加危險了——

一旦模型學會隱藏自己的意圖，人類幾乎將永遠失去檢測它們是否在裝傻的辦法！

即使是輕度監督，也要萬分小心，不然，你可能根本不知道自己在跟什麼打交道。

參考資料：

https://openai.com/index/chain-of-thought-monitoring/

https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

相關文章

LeCun痛批矽谷傲慢病！圈內爆火長文：DeepSeekR1-Zero比R1更重要，成AGI破局關鍵

LeCun痛批矽谷傲慢病！圈內爆火長文：DeepSeekR1-Zero比R1更重要，成AGI破局關鍵

追平多模態滿血o1，kimi的新模型k1.5破解了OpenAI的秘密？

追平多模態滿血o1，kimi的新模型k1.5破解了OpenAI的秘密？

突發！o3-mini思維鏈公開，卻被曝光全是「作假」，奧特曼現身解釋網友炸鍋

突發！o3-mini思維鏈公開，卻被曝光全是「作假」，奧特曼現身解釋網友炸鍋

OpenAI自曝“o4”訓練中，用思維鏈監控抓住AI作弊瞬間

OpenAI自曝“o4”訓練中，用思維鏈監控抓住AI作弊瞬間

OpenAI破大防，拒絕率從98％驟降2％！陳怡然團隊提出全新思維鏈劫持攻擊

OpenAI破大防，拒絕率從98％驟降2％！陳怡然團隊提出全新思維鏈劫持攻擊

大模型一本正經地胡說八道？AI超高幻覺率解析｜亮馬橋小紀嚴選

大模型一本正經地胡說八道？AI超高幻覺率解析｜亮馬橋小紀嚴選

DeepSeek-R1超高幻覺率解析：為何大模型總“胡說八道”？

DeepSeek-R1超高幻覺率解析：為何大模型總“胡說八道”？

OpenAI實名舉報Grok3作弊，一題答64次踩著臺階和o3-mini比

OpenAI實名舉報Grok3作弊，一題答64次踩著臺階和o3-mini比

LLM「想太多」有救了！高效推理讓大模型思考過程更精簡

LLM「想太多」有救了！高效推理讓大模型思考過程更精簡

只需7.6％token，效能還更強！華人團隊提全新「草稿鏈」CoD，成本延遲大降

只需7.6％token，效能還更強！華人團隊提全新「草稿鏈」CoD，成本延遲大降

Copyright © 2025 | WordPress Theme by MH Themes