攻破OpenAIo1/o3、DeepSeekR1防線,安全推理過程反成大模型「阿喀琉斯之踵」

本文共同第一作者是杜克大學計算進化智慧中心的博士生郭士霆、張健一,導師為陳怡然教授。
在通往 AGI 的道路上,大型推理模型(LRMs)正以前所未有的速度迭代進化:OpenAI 的 o 系列模型憑藉類人推理能力重新整理多項基準,DeepSeek-R1 以極低的訓練成本實現完全不輸 o 系列模型的效能突破。
然而,在這股追求推理效能的浪潮之下,一個關乎技術倫理的隱憂正在浮現 —— 當模型運用自身強大的推理能力進行安全審查時,「展示安全推理思維鏈」這種透明化機制是否會暴露安全隱患
杜克大學計算進化智慧中心的最新研究給出了警示性答案。團隊提出的 H-CoT(思維鏈劫持)的攻擊方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在內的多款高效能大型推理模型的安全防線:在涉及極端犯罪策略的虛擬教育場景測試中,模型拒絕率從初始的 98% 暴跌至 2% 以下,部分案例中甚至出現從「謹慎勸阻」到「主動獻策」的立場反轉。
這項研究揭示了當前安全機制的深層矛盾 —— 推理透明化與防禦魯棒性正在形成難以調和的衝突。
  • 論文地址:https://arxiv.org/abs/2502.12893v1
  • 專案主頁:https://maliciouseducator.org
  • Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
  • 杜克大學計算進化智慧中心:https://cei.pratt.duke.edu/
一、大型推理模型的安全標準與技術路線
為確保大型推理模型(LRMs)的真正造福人類,必須在強推理能力與內容無害性之間建立足夠可靠的平衡。這要求我們同時建立明確的安全標準和完善的技術保障體系。
安全標準來看,作為大型推理模型的先驅,OpenAI 在其 o1/o3 系列中提出瞭如下安全準則:
如果出於合理的教育目的討論有害內容,允許模型提供概括性、中立且具有資訊性的回答,同時應積極勸阻對該內容的濫用或進一步傳播。
技術保障來看,OpenAI 透過運用 o1/o3 強大的推理能力,對使用者請求進行謹慎且「慢思考」式的安全評估,以期在效能與安全之間取得平衡。
然而,即使有上述安全標準的規範和技術路線的護航,我們仍需要思考一個無法迴避的問題:現有的技術手段是否足以支撐如此高要求的安全標準?更具體地說,本篇研究發現兩個亟待解決的系統性挑戰:
挑戰 1:極度高危請求的謹慎識別
當面對明確涉及極端犯罪的請求時(例子請參考原文),模型能否始終如一地執行安全準則並拒絕提供回答?即使攻擊者以虛擬的教育場景進行偽裝。
挑戰 2:展示安全推理過程是否會產生反噬作用
即便模型在一開始能夠拒絕,但是模型在拒絕請求時展示的詳細安全審查思維鏈,可能被攻擊者逆向解析。這種透明化機制是否會導致攻擊者透過思維鏈資訊操控後續互動,從而系統性瓦解模型的防禦立場?此問題在當前技術路線中尚未得到充分重視。
二、構建測試基準與提出新型 H-CoT 攻擊方法
為系統評估現有安全機制的缺陷,作者構建了名為「惡意教育者(Malicious Educator)」的測試基準集。該基準聚焦 10 類高危場景,每條測試請求均要求模型從攻擊者視角生成包含「具體方案 / 實施方式 / 功能示例 / 實施理由」的完整策略。
為確保測試請求的高風險性,作者以 2024 年 1 月 OpenAI o1 模型的響應為基準:該模型對此基準集的初始拒絕率達到 98%。
關鍵發現:安全推理的透明化陷阱
在測試過程中,作者發現當模型拒絕高危請求時,其輸出的思維鏈會完整展示安全審查的邏輯路徑(例如「此請求涉及攻擊行為→可能違反安全規定→需阻止潛在危害」)。這種透明化機制使攻擊者能夠逆向解析模型的防禦邏輯成為可能,為後續攻擊提供關鍵切入點。(此發現也與後續的 Claude 3.7 Sonnet System Card 中的結論不謀而合)
H-CoT 攻擊方法實現
基於上述發現,本文提出「思維鏈劫持」攻擊(Hijacking Chain-of-Thought, H-CoT),具體實施分為兩個階段:
  1. 安全邏輯提取:針對目標危險請求,首先提交與原問題相關聯的無害請求,誘導模型輸出包含安全審查邏輯的思維鏈 (具體例子請參考原文)。
  2. 邏輯汙染攻擊:參照提取的安全推理鏈,為原始危險請求偽造「看似安全」 的邏輯思維鏈,嵌入原始危險請求的上下文環境,誤導模型降低防禦閾值。
H-CoT 的攻擊流程
實驗結果顯示,H-CoT 攻擊可導致 OpenAI o1 模型對同一批高危請求的拒絕率從 98% 驟降至 2%。這種攻擊有效性直接證明了:模型展示安全審查思維鏈的行為,實質上為攻擊者提供了可以操控其防禦系統的切入點。
三、令人擔憂的安全測試結果
在構建的「惡意教育者」測試基準上,結合 H-CoT(思維鏈劫持) 攻擊方法,作者觀察到了一系列令人擔憂的安全問題。
1. OpenAI o 系列(o1、o1-pro、o3-mini)的安全表現下滑
這些模型在面對「惡意教育者」基準時,最初能維持 98% 的高拒絕率,但在 H-CoT 攻擊下卻無一倖免,拒絕率驟降至 2%(見下圖,ASR 代表攻擊成功率 = 1 – 拒絕率)。換言之,對於同一批高風險的請求,模型從「堅定拒絕」 轉變為幾乎「全面放行」,安全防線瞬間瓦解。
更令人擔憂的是,隨著推理模型之間的競爭不斷加劇(例如 DeepSeek-R1 憑藉低成本和出色效能迅速崛起,給 OpenAI o 系列模型的開發帶來更大壓力),作者擔心在這樣激烈的商業環境中,模型開發方可能會為了提高實用性而在一定程度上犧牲安全性。
為驗證這一點,作者比較了今年一月份和二月份的最新 OpenAI o1 模型在 「惡意教育者」基準上的表現,並進一步考察了不同 IP 地址(透過代理網路)對模型安全效能的影響。如下圖所示,可以發現隨著 DeepSeek-R1 的釋出,o1 模型從一月份到二月份在多個類別上的安全表現都有所下滑;同時,不同地理位置(體現為不同代理 IP)也會對模型的安全性產生顯著影響。
另外無論在時間維度還是地理位置的變化條件下H-CoT 攻擊在絕大部分測試場景中仍保持了極高的成功率,展現出一致且高效的攻擊能力。其背後原因也再次凸顯了「透明思維鏈」在安全審查中帶來的結構性漏洞,一旦遭到惡意利用,模型的防禦體系將極其脆弱。
2. DeepSeek-R1 的風險評估
DeepSeek-R1 本身在「惡意教育者」基準上的拒絕率僅有約 20%,在 H-CoT 攻擊壓力下更是降至 4%(見下圖)。與 OpenAI o 系列「先安全推理審查,再給出回答」的模式不同,DeepSeek-R1 的策略是「先回答,同時審查」,即先輸出一份答案,如若發現存在高風險內容,再對原始答案進行覆蓋。
這種機制意味著在模型覆蓋答案之前,惡意攻擊者仍然可以截獲不當資訊。儘管這並不代表 DeepSeek-R1 完全沒有進行安全推理審查,但也反映其安全推理審查強度不夠。
另外,作者還注意到,DeepSeek-R1 在處理中文請求時比處理英文請求更為嚴格:針對「尋求犯罪策略」的問題,中文環境下常生成「如何防止犯罪的策略」,而英文環境下卻可能給出「如何犯罪」的詳細方案。
這種跨語言差異或許與訓練語料和主要市場定位有關,但也為潛在的「跨語種」攻擊方式提供了可乘之機,即惡意攻擊者可透過將原來危險的中文請求翻譯成英文來繞過 DeepSeek-R1 的安全審查。因此作者呼籲模型開發方對此也應保持高度警惕。
3. Gemini 2.0 Flash Thinking 的更嚴重安全隱患
在對 Gemini 2.0 Flash Thinking 的測試中,作者不僅觀測到 H-CoT 攻擊將模型的拒絕率從原先的 10% 降至 0%,還發現 H-CoT 能顯著影響模型的態度 —— 從「猶豫嚴謹」到「主動獻策」,出現了明顯的態度逆轉。
例如,在回答相同問題的五次試驗中,模型給出的犯罪策略數量可能出現 2、3、3、4、4 等變化。如果作者選取「最多策略」那次(4 條策略)的思考過程,並將其注入到 H-CoT 攻擊請求中,模型隨後的回答便會穩定輸出至少 4 條策略。
又如,如果五次試驗中有四次回答較為謹慎猶豫,但有一次回答中使用了「當然」(相當於「非常願意」)的積極回答的表述,那麼作者就能將該次回答的思考過程作為 H-CoT 注入到原始問題,從而在隨後的五次新回答中,模型都會從一開始就用「當然」開頭,表現出非常願意配合的態度來提供犯罪策略。
這些現象表明,Gemini 2.O Flash Thinking 旨在優先提高「基於思維鏈的指令跟隨」能力,而安全對齊(safety alignment)的優先順序則被嚴重削弱,一旦遭遇 H-CoT 攻擊便易受操控。
四、未來的大型推理模型安全展望
作者希望透過本研究能夠拋磚引玉,引起更多研究者對當前大型推理模型安全性的關注。尤其對「展示安全推理思維鏈」這一特性,作者強烈呼籲在實際應用中應適當隱藏或模糊化處理,以免攻擊者據此研究或利用安全審查機制,從而輕易突破防線。
同時作者會逐步開源針對不同模型與不同問題場景所收集的 H-CoT 攻擊樣本。鑑於模型將不斷迭代更新,作者歡迎世界各地的研究者和開發者對最新版本模型(比如 deepseek-R2,比如後續的 o1/o3 模型更新,比如 Grok3,Claude 3.7 Sonnet)進行測試,驗證既有 H-CoT 攻擊所用的「偽造思維鏈」是否仍然奏效;
同時,作者也鼓勵更多人能參與到貢獻「惡意教育者」這個測試基準集中來,幫助完善並豐富該基準。詳細資訊可參考網站與開源倉庫。
  • 網站地址:

    https://maliciouseducator.org

  • 倉庫地址:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章