X-Boundary團隊 發自 凹非寺
量子位 | 公眾號 QbitAI
最新研究顯示,以超強推理爆紅的DeepSeek-R1模型竟藏隱形危險——
即便最終拒絕回答,其思考過程仍可能洩露有害內容。現有防禦技術深陷兩難:要麼防不住攻擊,要麼讓模型變成”驚弓之鳥”,連正常問題都拒絕回答。
上海交大與上海AI Lab聯合推出安全防禦方案——X-Boundary,試圖破解兩難局面。
X-Boundary透過分離安全和有害表徵,並針對有害表徵進行定向消除,在不損害模型通用效能且避免過度安全問題的前提下,實現精準高效的安全加固,使模型能夠同時防禦多種單輪和多輪攻擊。
X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表現如下圖所示:

案例分析:當駭客發動惡意提問時,原始模型的”思維鏈條”會洩露危險資訊(左圖),而經過X-Boundary安全加固的模型如同被植入”認知淨化晶片”——透過精準切除有害特徵,徹底封堵資訊洩漏通道(右圖)。
結合基於規則的檢測器,一旦發現安全風險過高導致的異常輸出則終止模型思考,同步觸發安全代答響應,從而實現高效和安全的兼顧。

四大防禦方法首度遷移評測:安全與智慧的失衡困局
當主流防禦方法(SFT/DPO/GA/CB)應用在推理模型上,一個尖銳的矛盾浮出水面:模型的安全防線每加固一分,其智慧水平就衰退一程。
現有的防禦方法要麼不奏效,要麼會對推理能力造成很大的損失。實驗資料顯示,SFT將攻擊成功率(ASR)壓低的同時,也導致了DeepSeek-R1-Distill-Llama-8B的數學能力在AIME-2024基準上驟降10%,在XSTest和PHTest上還出現了系統性誤判——超過50%的安全提問遭遇無理由拒絕(表3)。這暴露出當前防禦策略的致命缺陷:它們並非真正識別出危險,而是透過”寧可錯殺一千”的粗暴策略壓低風險指標。
團隊進一步將這些防禦技術引入多輪攻防場景,測評後發現,多輪防禦訓練本身就像一把雙刃劍。在Qwen2.5-7B-Chat模型中加入多輪防禦資料後,安全問答的誤傷率在OR-Bench和PHTest測試集上飆升30%,證明防禦強度的提升與可用性損耗存在強相關性。
這種困境的根源,在特徵空間的視覺化分析中顯露無遺——現有方法構建的安全防線模糊不清,大量邊界案例(如詢問毒品危害的合理問題)的表徵與真正有害的表徵的分佈高度重合,就像安檢儀無法分辨外形相似的礦泉水與易燃液體,最終導致這些安全表徵被錯誤地分類,邊界問題也被拒絕回答,模型陷入了“過度安全”的怪圈。

為大模型精準打造“內生安全系統”
面對現有防禦技術”傷敵一千自損八百”的困境,團隊提出X-Boundary防禦框架——如同為AI建立智慧安檢通道,實現危險內容精準攔截與安全資訊無感通行。
三步建立動態防護網
-
邊界繪製:透過設計顯式的表徵分離最佳化目標,讓危險請求的表徵向量與安全表徵向量形成90°垂直角,從根源切斷兩者混淆的可能,在表徵空間強行劃出“安全禁區”。
-
威脅瓦解:對危險表徵施加不可逆的擾動,使其無法保持原始有害形態(類似檔案粉碎機的不可逆擦除)。
-
智慧保鮮:採用表徵維持技術,確保絕大多數安全問題的表徵不受訓練影響,維持模型原生智慧。

理論突破 × 實踐驗證
基於最優傳輸理論的數學證明,X-Boundary有助於使安全表徵更聚集,從而加快大模型訓練時的收斂速度。實驗顯示,在Llama-3-8B和Qwen2.5-7B模型上,訓練收斂速度分別提升27%和18%(圖4),實現安全防禦與訓練效率的雙重進化。

安全與智慧的平衡
“火眼金睛”區分安全和有害表徵
如圖5所示,X-Boundary成功在模型內部構建出明暗分界的安全防線——使大模型內部的有害表徵和安全表徵得到清晰的區分,徹底終結了傳統方法”敵我不分”的混沌局面。

魯棒的多輪防禦與高可用性兼得
有了清晰的表徵區分邊界,X-Boundary能在安全性和可用性之間取得平衡(表1):
-
多輪攻擊防禦成功率(ASR)追平現有最優方案
-
誤傷率(Over-refusal)降至最低水平降至最低水平
-
模型通用能力保持99%以上原生效能

圖 6 直觀地展示了防禦成功率與誤傷率之間的權衡。X-Boundary 位於圖的左下角,表明 X-Boundary 相比其他方法在兩個指標之間取得了更好的平衡。

跨模型規模的穩健打擊
當擴充套件到140億引數的Qwen2.5-14B-Chat時(表2):
-
對複雜多輪攻擊的防禦強度再提升65%
-
誤傷率增幅嚴格鎖死在5%以內
-
模型智商損耗不足0.6%
這意味著即使面對更大規模、更復雜的AI系統,X-Boundary依然能實現零感知防禦。

作者簡介
本文由上海AI Lab、上交大和電子科大聯合完成。
主要作者包括上海AI Lab和上交大聯培博士生盧曉雅、上海AI Lab青年研究員劉東瑞(共同一作)等。
通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。
論文地址:https://arxiv.org/abs/2502.09990
專案主頁:https://github.com/AI45Lab/X-Boundary
專案主頁:https://github.com/AI45Lab/X-Boundary
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!