強化學習成幫兇,對抗攻擊LLM有了新方法

機器之心報道
編輯:Panda
事物都有多面性,正如水,既能載舟,亦能覆舟,還能煮粥。強化學習也是如此。它既能幫助 AlphaGo 擊敗頂級圍棋棋手,還能幫助 DeepSeek-R1 獲得強大的推理能力,但它也可能被惡意使用,成為攻擊 AI 模型的得力武器。
近日,威斯康星大學麥迪遜分校的一個研究團隊發現,可以透過強化學習對模型實施有效的黑盒逃避攻擊(Black-Box Evasion Attacks)。研究團隊表示:「從安全形度來看,這項工作展示了一種強大的新攻擊媒介,即使用強化學習來有效且大規模地攻擊機器學習模型。」
  • 論文標題:Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2503.01734
下面我們就來簡單看看這項研究。
首先,為什麼要研究如何攻擊模型?答案自然是為了安全。
現在 AI 發展迅猛,各種應用層出不窮,並且已經給許多領域帶來了巨大變革。而隨著應用的普及,攻擊這些模型也漸漸開始變得有利可圖,其中一類攻擊方式是:生成能夠欺騙 AI 模型的輸入,從而繞過安全過濾器。這個領域被稱為對抗機器學習(AML),研究的是能針對目標模型生成對抗樣本的演算法。
現有的 AML 通常使用最佳化演算法來最小化施加到輸入的變化(稱為擾動),使得受害者機器學習模型對帶有擾動的輸入進行分類時會犯錯。不過,技術社群對模型防禦和對抗能力的理解依然有限。
對抗樣本生成演算法依賴基於梯度的最佳化,該最佳化與任何其他資訊無關。這些方法無法利用從以前的攻擊中獲得的資訊來改進對其他資料的後續攻擊。
這是 AML 研究中的一個空白,即研究對抗樣本是否可以學習 —— 攻擊的有效性和效率是否會隨著經驗的積累而提高。那麼,對受害者模型訪問許可權有限(稱為黑盒訪問)的對手能夠大規模生成對抗樣本(例如分散式拒絕服務攻擊)嗎?
將強化學習引入對抗攻擊
考慮到最近強化學習的成功,該團隊猜想能否將 AML 對手建模為強化學習智慧體 —— 這樣一來,或許能讓攻擊策略隨著時間而變得越來越高效和有效。
他們按照這個思路進行了研究,提出了基於強化學習生成對抗樣本的攻擊方法並對其進行了評估。
他們發現,當把對手建模成強化學習智慧體時,其就能學習到哪些擾動最能欺騙模型。一旦學會了策略,對手就會使用該策略生成對抗樣本。因此,對抗性智慧體無需昂貴的梯度最佳化即可完成對模型的攻擊。
具體來說,該團隊將對抗樣本生成過程建模成了馬爾可夫決策過程(MDP)。如此一來,便可以輕鬆地使用強化學習,實現對攻擊的底層語義的封裝:輸入樣本和受害者模型輸出為狀態,擾動為動作,對抗性目標的差異為獎勵。
該團隊提出了兩種強化學習攻擊方法:RL Max LossRL Min Norm。它們對應於兩類傳統的 AML 演算法。
其攻擊流程是這樣的:首先使用一個強化學習演算法來訓練智慧體,然後在策略評估設定中使用攻擊來生成對抗樣本。
實驗評估
為了驗證強化學習攻擊方法的有效性,該團隊在 CIFAR-10 影像分類任務上,使用一個 ResNet50 受害者模型進行了評估,使用的演算法是近端策略最佳化(PPO)。該團隊在此框架下進行多步驟評估,評估內容包括 (a) 學習、(b) 微調和 (c) 相對於已知方法的準確度。
首先,他們評估了強化學習智慧體能否學習對抗樣本。換句話說,強化學習能否在訓練過程中提高對抗樣本的有效性和效率?
結果發現,RL Max Loss 和 RL Min Norm 攻擊都會增加訓練過程中的平均回報,從而驗證了強化學習技術學習任務的能力。
在整個訓練過程中,對抗樣本的產生速度平均提升了 19.4%,而與受害者模型的互動量平均減少了 53.2%。
這些結果表明,透過高效地生成更多對抗樣本,智慧體可在訓練過程中變得更加強大。
接下來,他們還分析了 RL Max Loss 和 RL Min Norm 中的獎勵和轉換超引數會如何影響對抗樣本。
ε 引數控制的是 RL Max Loss 智慧體在給定輸入上允許的失真量。c 引數控制的是 RL Min Norm 智慧體因降低受害者模型置信度而不是最小化失真而獲得獎勵的程度。
雖然訓練智慧體可以提高這兩種攻擊的效能,但他們的研究表明這也取決於 ε 和 c 的選擇。具體實驗中,他們根據平衡對抗性目標的敏感性分析選擇了 ε = 0.5 和 c = 1.0。當對手使用這些攻擊時,為了達到預期目標,必須在攻擊之前考慮它們。
最後,該團隊還評估了經過訓練的智慧體如何將對抗樣本泛化到未見過的資料,以及它相對於廣泛使用的基於最佳化的 SquareAttack 演算法的表現如何。
在訓練外的未見過的資料集上,訓練後的智慧體的錯誤分類率、中位數查詢和對抗樣本的平均失真都落在訓練對抗樣本的分佈中。
在與 SquareAttack 的黑盒比較中,他們將 5000 episode 的強化學習攻擊與其它 SOTA 技術進行了比較,結果表明學習對抗樣本讓強化學習攻擊能夠生成多 13.1% 的對抗樣本。
這些結果表明,如果對手透過強化學習方法學習對抗樣本,會比現有方法更有效。
你怎麼看待這項研究,我們又該怎麼防禦對手的強化學習攻擊呢?
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章