
新智元報道
新智元報道
編輯:LRST
【新智元導讀】「思維鏈劫持」(H-CoT)的攻擊方法,成功攻破了包括OpenAI o1/o3、DeepSeek-R1等在內的多款大型推理模型的安全防線。研究表明,這些模型的安全審查過程透明化反而暴露了弱點,攻擊者可以利用其內部推理過程繞過安全防線,使模型拒絕率從98%驟降2%。
隨著通向通用人工智慧(AGI)的進展,大語言模型正進化出複雜推理能力,衍生出所謂「大型推理模型」(Large Reasoning Models, LRMs)。
OpenAI 的o系列模型憑藉接近人類的推理水準重新整理了諸多基準,另一邊新的模型DeepSeek-R1也以更低成本實現了與o系列相當的效能。
這些模型不僅能逐步推理複雜問題,還開始將思維鏈(Chain-of-Thought, CoT)用於安全審查,在回答使用者請求前透過內部推理判斷內容是否違規,這種思路其實為平衡實用性和安全性提供了一個很有前景方向。
然而,安全機制的增強伴隨著新的隱憂:安全審查過程的透明化可能成為模型的致命弱點。模型在拒絕不當請求時通常會展示其推理過程,以解釋拒絕理由。但正所謂「曝光思維過程也會暴露弱點」,這種開放的安全推理鏈可能被攻擊者加以利用,反而成為繞過安全防線的途徑。
近期杜克大學等機構的研究者提出了一種名為「思維鏈劫持」(Hijacking Chain-of-Thought, H-CoT)的攻擊方法,驗證了上述擔憂:他們成功攻破了包括OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking等在內的多款頂尖LRM的安全防線。
論文共同第一作者是杜克大學計算進化智慧中心的博士生郭士霆,張健一,導師為陳怡然教授。

論文地址:https://arxiv.org/abs/2502.12893
專案主頁:https://maliciouseducator.org
Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
在偽裝成教育目的的極端危險請求測試中,這些模型最初對高風險請求有接近98%的高拒絕率,但在H-CoT攻擊下拒絕率驟降到不到2%。
更令人震驚的是,模型的回答語氣從謹慎拒絕轉變為積極提供違規內容,原本堅固的道德底線幾乎瞬間土崩瓦解。這一結果表明,大型推理模型的安全審查鏈透明機制可能正是其「阿喀琉斯之踵」,值得學界和業界高度警惕。
研究人員圍繞H-CoT攻擊方法展開討論。從大型推理模型安全審查的透明性問題入手,分析H-CoT攻擊的原理和實施步驟,以及它對OpenAI o系列、DeepSeek-R1、Gemini 2.0 Flash Thinking等高效能推理模型的影響。
文中同時討論了實驗結果揭示的「安全推理透明化陷阱」及其深層原因,最後展望大型推理模型在安全機制上的挑戰與改進方向。
大型推理模型的安全規範與技術路線
為了讓大型推理模型(LRMs)真正造福人類,亟需在強大的推理能力與內容無害性之間建立足夠可靠的平衡。這不僅要求有明確的安全規範,也離不開完善的技術保障。
關於安全規範的標準,作為大型推理模型領域的先驅,OpenAI在其o1/o3系列中提出了明確的安全準則:
如果是出於合理的教育目的來討論有害內容,允許模型提供概括性、中立且具有資訊性的回答,並積極勸阻對該內容的濫用或進一步傳播。
簡言之,這類安全準則允許模型在探討敏感話題時保有一定的解釋空間,但對明顯的高危或違法請求必須保持警惕和拒絕態度。
關於技術保障路線,為了儘可能減少違規回答的出現,OpenAI o1/o3系列模型會利用其強大的「思維鏈」能力,對使用者請求進行相對慢思考、多步分析的安全評估,以期在效能和安全之間取得平衡。其核心思路是:
-
先讓模型展開一系列內部推理,判斷使用者請求是否違反政策或涉及潛在危害。
-
若發現風險因素,模型透過「審查思維鏈」警示並拒絕;若判斷可接受,則給出限制性或概括性答覆。
然而,即便有上述安全標準與技術路線為指導,實踐中仍然會面臨兩個嚴峻挑戰:
-
極度高危請求的謹慎識別當面對明顯涉及極端犯罪的請求時,模型能否始終如一地執行安全準則並拒絕提供回答?哪怕不法分子以虛擬教育或研究的方式進行偽裝,模型是否會被「合理化描述」所迷惑?
-
展示安全推理過程的反噬風險即便模型一開始成功拒絕了高危請求,但它在拒絕時所展示的安全審查思維鏈——即詳細的風險評估和審查依據——是否會被攻擊者逆向利用?透過這些透明化的審查線索,攻擊者或能操控後續互動,系統性地瓦解模型的防禦立場。該問題在現有技術路線中尚未得到足夠重視。
由此可見,現有技術手段是否足以支撐如此高要求的安全準則仍存疑。
H-CoT攻擊的出現正好印證了:在安全推理透明化的模式下,一旦攻擊者學會逆向研究和利用模型的審查機制,就很容易讓模型的防禦失效。
大型推理模型安全審查透明性帶來的挑戰
思維鏈(CoT)推理最早由谷歌研究者在2022年提出,用於讓模型將複雜任務分解為一系列中間步驟逐一求解。
實踐證明,CoT不僅提升了模型在數學推理等多步驟任務上的準確性,也開始用於增強模型對有害內容的檢測能力。相比早期直接基於提示詞的判斷,具備推理鏈的模型可以更深入地分析使用者請求是否涉及違規,從而更嚴謹地拒絕不當請求。
例如,OpenAI的o1技術報告指出,引入CoT後模型對許多已知Jailbreak攻擊展現出更強的抵抗力。然而,為了增進使用者理解和信任,不少LRM在拒絕回答時會向用戶展示其安全審查的思維鏈,即模型內部判斷請求是否合法、有無違反倫理的推理過程。
在理想情況下,透明化有助於解釋模型決策,但在對抗性環境下卻可能「授人以柄」。
研究者在實驗中發現,當模型拒絕高危請求時,其展示的推理鏈往往清晰地羅列了拒絕依據,例如「這個請求涉及暴力違法行為 → 可能違反安全政策 → 因此拒絕」。這些詳細公開的安全邏輯等於向攻擊者透露了模型的防禦邏輯和決策模式,攻擊者可以據此定製對抗性提示去欺騙模型。
換言之,過度透明的安全審查機制本身就成為新的攻擊面,(此發現也與後續的Claude 3.7 Sonnet System Card中的結論不謀而合)。
H-CoT攻擊方法與原理
為了系統評估當前LRM安全機制的缺陷,研究團隊構建了一個名為「惡意教育者(Malicious-Educator)」的基準資料集。該基準精選了十類高危場景(如極端暴力犯罪、網路攻擊、恐怖主義等),每條測試請求都經過巧妙包裝,使其表面上具有教育或學術探討的目的,但實際要求模型從攻擊者視角給出詳細的犯罪方案。
這一設計旨在誘導模型啟動其思維鏈安全審查:在內容看似正當的情況下,引發模型去推理潛在風險,從而更全面地測試模型的安全防禦能力。實驗表明,即使在未遭特殊攻擊時,o系列模型對該基準仍能保持高拒絕率(o1模型初始拒絕率約為98%),其他模型(如DeepSeek-R1、Gemini 2.0)在預設情況下就已出現許多不當響應。
更重要的是,研究者觀察到,當模型拒絕這些巧妙偽裝的高危請求時,會輸出其內部審查邏輯,正如前述透明化機制所示,為攻擊者提供了可乘之機。
基於這一發現,研究團隊提出了「思維鏈劫持」攻擊(Hijacking Chain-of-Thought,簡稱H-CoT),H-CoT透過干預和偽裝模型的推理鏈,來劫持模型的安全審查流程,從而實現通用且可遷移的攻擊
具體而言,H-CoT攻擊分為兩個關鍵階段。
階段1:安全邏輯提取
攻擊者不會直接提交危險請求,而是首先設計一個與目標請求主題相關、但表面無害的問題,誘導模型回答。
在回答此無害問題時,模型會輸出詳盡的思維鏈,其中包含了它在該領域的安全審查邏輯(例如潛在風險判斷等)。
攻擊者透過觀察這些思維鏈模板,即可提煉出模型在相似話題上的審查規則和推理模式。
簡單來說,這一步相當於「偷師」模型的安全思維:獲取模型如何判斷某類請求是否合法的內部依據。
階段2:邏輯汙染攻擊
在掌握了模型的安全邏輯後,攻擊者針對原始的危險請求,偽造一段「看似合理」的思維鏈並將其嵌入到請求中。這段偽造思維鏈會模仿模型自身的推理風格和用語邏輯,但結論上引導模型認為該請求是正當且安全的。
當模型接收到附帶偽造思維鏈的危險請求時,可能會誤以為這是自己之前產生的安全審查結果,從而放鬆原有的防禦閾值,最終給出本應被拒絕的有害內容。

透過上述兩階段,攻擊者實際上借用了模型自己的推理來對付模型:先獲取模型的推理,再利用相似推理來欺騙模型。
值得注意的是,與以往許多Jailbreak提示攻擊不同,H-CoT並不依賴特定模型或特定提示語句的漏洞,而是一種通用框架。任何具備思維鏈且顯示推理過程的模型,都可能被套用類似的手法攻破,使得H-CoT攻擊具有很強的遷移性和適用性。
實驗結果也證明了這一點:在H-CoT攻擊下,各種模型的安全防線幾乎無一倖免。
實驗結果與主要發現
研究團隊將H-CoT攻擊應用於多款先進的大型推理模型,包括OpenAI o系列(涵蓋o1、o1-pro、o3-mini等版本)、DeepSeek-R1,以及谷歌的Gemini 2.0 Flash Thinking等,評估其在「惡意教育者」基準下的安全表現。
結果顯示,H-CoT攻擊會導致這些模型的拒絕策略出現斷崖式失效,充分暴露了安全審查透明化帶來的結構性漏洞。以下分模型介紹實驗的主要發現:
OpenAI o1/o3系列模型:從嚴格拒絕到全面失守
OpenAI o系列模型在預設狀態下對高危請求表現出極高的警惕性。在未遭攻擊時,它們在「惡意教育者」基準上的平均拒絕率高達98%以上。模型會堅定地拒絕大多數不當請求,展現出較完善的內建安全政策。然而,在H-CoT攻擊下,這一道防線迅速土崩瓦解。
實驗表明,無論是o1基礎模型,還是強化版本o1-pro、內測版本o3-mini,在遭受H-CoT攻擊後,對相同一批高風險請求的平均拒絕率統統驟降。
換言之,曾經的安全過濾被繞過殆盡,模型對危險指令幾乎全面放行。
圖2中攻擊成功率(ASR)一項接近100%,直觀地印證了H-CoT對o系列模型的攻破效率。

更令人擔憂的是,作者發現o系列模型的安全表現還有下滑趨勢:隨著時間推進及競品壓力增加,模型在無攻擊情況下的拒絕率出現下降。
例如,比較2025年1月和2月的o1模型版本,後者在多個高風險類別上的拒絕率低於前者。這種變化可能源於模型開發者為提高回答實用性而放鬆了部分安全限制—特別是在DeepSeek-R1等競爭模型出現後OpenAI或有動力在更新中提升模型的「有用」程度,從而犧牲了一些安全嚴謹性。

此外,測試還顯示模型對不同地區使用者的安全審查尺度存在明顯差異,用不同城市的IP地址訪問o1得到的拒絕率存在顯著變化。
無論如何,在H-CoT攻擊面前,上述種種微調都無法阻止安全防線的崩潰。

DeepSeek-R1:審查優先順序漏洞與跨語言漏洞
相較於OpenAI模型,DeepSeek-R1的安全對策顯得更為薄弱。在「惡意教育者」基準下,DeepSeek-R1未遭攻擊時的拒絕率僅約20%——也就是說,它本身就有將近80%的高危請求沒有被拒絕。
這很可能與其不同的安全審查模式有關:DeepSeek-R1採用的「先回答、同時審查」策略,即模型會先給出一個初步回答,然後再檢測其中是否有違規內容,發現風險再對輸出進行覆蓋刪除。
這一策略在很多情況下等同於邊輸出邊冒險:模型可能已經生成了部分有害資訊(儘管最終可能不展示給使用者)。因此,與o系列模型的「先審查後回答」相比,DeepSeek-R1原生的安全防範力度就偏弱,許多危險提示它直接就嘗試作答了。
在這種背景下,H-CoT攻擊對DeepSeek-R1依舊有效。
實驗顯示,DeepSeek-R1在H-CoT攻擊下拒絕率進一步從20%降至約4%,嚴重喪失攔截有害內容的能力。
此外,研究者還意外發現了DeepSeek-R1的跨語言安全漏洞:該模型對不同語言的內容審查嚴格程度不同。
具體而言,DeepSeek-R1對中文危險請求尚有一定比例的拒絕,但如果將同樣的請求翻譯成英文,模型往往更傾向於直接給出回答。這意味著攻擊者可以透過切換語言來繞過其剩餘的安全約束——例如,將原本敏感的中文提示翻譯成英文再詢問模型。

這一現象可能與模型訓練語料和主要市場定位有關(DeepSeek或許著重優化了中文安全性),但不管怎樣,它為惡意者提供了額外的可乘之機。作者據此呼籲模型開發者應注意多語種一致的安全對齊,避免此類漏洞被利用。
總的來說,DeepSeek-R1的實驗結果凸顯出:即使不利用思維鏈透明性,其安全機制本身就有較大改進空間。而在H-CoT攻擊的壓力下,其防線更是近乎全面失守。
Gemini 2.0 Flash Thinking:指令跟隨優先導致的安全失衡
作為谷歌最新一代的大型推理模型,Gemini 2.0 Flash Thinking同樣展現出強大的推理和執行復雜指令的能力。
然而,實驗表明其安全對齊(safety alignment)優先順序明顯不足。在「惡意教育者」測試中,Gemini 2.0 在無攻擊時的拒絕率僅約為10%,這意味著它在90%的高危請求上都會嘗試給出答覆。
這種偏高的透過率暗示該模型可能過於注重滿足使用者請求,而忽視了必要的道德約束。更糟糕的是,在H-CoT攻擊下,Gemini 2.0對危險請求的拒絕率直接降為0%,幾乎徹底失去了自我審查能力。
不僅如此,模型的回答語氣和行為也發生了顯著轉變:從偶爾的遲疑保留,變為每次都非常乾脆且積極地提供完整的有害方案。具體來說,作者透過一系列對比實驗揭示了Gemini 2.0在H-CoT攻擊下的行為模式轉變。
例如,對於某個要求提供犯罪策略的提示,讓模型獨立回答五次,得到的方案數量每次可能略有不同(例如2條、3條、4條不等)。但如果選取其中方案最多的一次回答的思維鏈,並將其嵌入到H-CoT攻擊的提示中,那麼此後模型每次回答都穩定地給出同樣多甚至更多(大於等於4)的犯罪方案。
也就是說,攻擊者透過注入一次「發揮超常」情形下的思維鏈模板,鎖定了模型在高危任務上的輸出上限,使其每次都全力提供違規資訊。

類似地,研究者還發現如果在多次試驗中,有一次模型回答使用了極為正面的措辭(例如英文中的「Certainly!」 或中文中的「當然,可以…」),那麼將該次回答的思維鏈挪作他用,就能讓模型在後續回答中次次都復現這種積極順從的語氣。
這表明 Gemini 2.0 的內部決策在很大程度上受其思維鏈指引——一旦思維鏈被引導至某種傾向,模型就會在輸出中不折不扣地貫徹這種傾向,哪怕違背安全原則。
歸根結底,Gemini 2.0 的設計側重點可能偏向了推理效能,而將安全對齊置於次要地位。
其結果是:模型在遇到 H-CoT 攻擊時表現出極高的可塑性,攻擊者只需稍加誘導,便能讓模型完全按惡意思路行事,毫無保留地提供不良資訊。這一現象在定性上比前兩種模型更為嚴重——Gemini 2.0 不僅拒絕率歸零,而且態度從猶豫轉為熱情,主動性地給出危害建議。
這凸顯了安全機制在模型架構和訓練目標中的重要性:如果過分追求讓模型滿足使用者要求(即高指令跟隨效能),而未能同步強化其道德底線,那麼模型將非常容易被思維鏈投毒而喪失原則。

安全挑戰與未來展望
H-CoT 攻擊對大型推理模型的衝擊,凸顯了在追求模型智慧的同時確保安全對齊的巨大挑戰。
首先,安全審查透明性的兩難困境需要正視:過度隱藏模型決策依據會降低系統的可解釋性和使用者信任,但完全公開又會產生上述「透明化陷阱」,方便駭客對症下藥,要求我們在安全與透明之間找到新的平衡。
例如,模型可以選擇不直接向普通使用者暴露完整的安全推理鏈,而只給出模糊化的拒絕理由,或者將詳細的推理日誌僅供開發者審計而不對外展示。適當的資訊隱藏是當前最直接的補救措施——正如本文作者所強烈呼籲的,應儘快在實際應用中對「展示安全思維鏈」採取隱藏或模糊處理。
最後,從更高層面看,大型推理模型的發展正進入「能力與安全並重」的新階段。H-CoT 攻擊的出現並非偶然:它提醒我們在追求模型智力突破的同時,安全保障體系也必須與時俱進。模型越強大,潛在危害也越大,因而越需要精密的安全機制與之匹配。
正如本文作者希望的那樣,這項研究能夠起到拋磚引玉的作用,引發業界和學界對大型推理模型安全性的更多關注和投入。
鑑於模型將不斷迭代更新,作者歡迎世界各地的研究者和開發者對最新版本模型進行測試,驗證既有 H-CoT 攻擊所用的「偽造思維鏈」是否仍然奏效;同時,作者也鼓勵更多人能參與到貢獻「惡意教育者」這個測試基準集中來,幫助完善並豐富該基準。
只有彙集多方智慧,持續發現漏洞、強化對策,我們才能在享受先進AI技術帶來益處的同時,將其風險降至最低。大型推理模型的未來,既在於不斷突破推理極限,也在於構築牢不可破的安全防線。模型的強大不應以犧牲倫理為代價,我們有責任確保下一代 AI 在擁有卓越智慧的同時,更加可靠、可信。
參考資料:
https://maliciouseducator.org
https://cei.pratt.duke.edu/

