CVPR2022|LAS-AT:一種基於可學習攻擊策略的對抗訓練新正規化

點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
近日,由中科院信工所、香港中文大學(深圳)和騰訊AILab共同提出的一種可學習的對抗訓練框架LAS-AT,被CVPR 2022(Oral)順利接收。透過引入“可學習的攻擊策略”,LAS-AT可以學習自動產生攻擊策略以提高模型的魯棒性。該框架由一個使用對抗樣本進行訓練以提高魯棒性的目標網路和一個產生攻擊策略以控制對抗樣本生成的策略網路組成。在不同資料集上的實驗結果展現了LAS-AT的優越性。
論文標題: LAS-AT: Adversarial Training with Learnable Attack Strategy
收錄會議: CVPR 2022
論文連結: https://openaccess.thecvf.com/content/CVPR2022/html/Jia_LAS-AT_Adversarial_Training_With_Learnable_Attack_Strategy_CVPR_2022_paper.html
程式碼連結:
https://github.com/jiaxiaojunQAQ/LAS-AT

1 問題背景

許多先前工作證明,深度神經網路(DNN)的許多實際應用都很容易受到對抗樣本(AE)的影響,如影像分類、物體檢測、機器翻譯等。為了解決該問題,有許多相關的防禦方法被提出。其中,對抗訓練(AT)被認為是最有效的防禦方法之一。對抗訓練經常被建模為求解一個min-max問題,而對抗樣本的生成是求解該問題的關鍵。以前的研究工作大多采用投影梯度下降法(PGD),並手動指定攻擊引數來生成AE,這些攻擊引數的組合可被視為攻擊策略。目前的方法主要存在以下兩個問題:
1)大多數現有的方法僅利用手工制定的攻擊策略來生成AE,即僅使用固定的攻擊策略來生成AE,限制了模型的魯棒性;
2)大多數方法只使用一種攻擊策略,而目前已有研究指出在對抗訓練的不同階段中使用固定的攻擊策略會使得模型的魯棒性受限。
在本文中,我們透過引入“可學習的攻擊策略”,即LAS-AT,提出了一個新穎的對抗訓練框架,它可以學習自動產生攻擊策略以提高模型的魯棒性。

2 方法介紹

LAS-AT方法的總體框架如圖所示:
LAS-AT框架圖:它由一個策略網路和一個目標網路組成。這兩個網路是具有競爭關係的。對於策略網路,在給定一個乾淨的影像時,策略網路會生成一個對應的針對該樣本的攻擊策略;對於目標網路,AE生成器會根據攻擊策略和目標網路來生成一個AE,用於訓練目標網路。同時,目標網路也會分別給予AE生成器和策略網路一個監督訊號。

2.1 目標網路

目標網路是一個用於影像分類的卷積神經網路,可以表示為,其中表示的是估計標籤,表示一張輸入影像,表示神經網路的引數。

2.2 策略網路

策略網路生成對抗攻擊的策略進而去控制對抗樣本的生成,其輸入的是一個樣本,輸出的是一個策略。由於策略網路的引數是逐步被更新的,在不同的訓練階段中,根據目標網路的魯棒性的情況,給定相同的樣本作為輸入也會給出不同的策略。令表示一種策略,其中每個元素表示的是一個攻擊引數。
表示的是策略值空間,引數有個選項,並且被編碼成one-hot向量。在不同的攻擊引數下每個引數選項的意義是不同的。比如對於PGD攻擊來說,它有三個攻擊引數,即攻擊步長的大小,攻擊迭代數,以及最大的攻擊擾動強度。
每一個引數有個可選值,比如攻擊步長的取值範圍為,攻擊迭代數的取值範圍為。這些攻擊引數的可選值的一個組合可以看作是一個策略。策略網路在給定輸入時輸出策略的條件機率分佈,其中是輸入圖片,是策略網路的引數。

2.3 對抗樣本生成器

給定一個乾淨的樣本,對抗樣本的生成過程可以被定義為:
其中表示的是一個乾淨的樣本,表示的是其對應的對抗樣本,是一個攻擊策略,表示的是目標網路的引數,表示的是PGD攻擊。

2.4 對抗訓練公式化表述

標準對抗訓練有固定的攻擊策略,可以表示為:
其中,並且表示的是人為設定的攻擊策略。是訓練集,表示的是交叉熵損失函式,其用於衡量對抗樣本的預測標籤與真實標籤之間的距離。在本文中,我們沒有使用基於人為設定的策略的樣本,而是使用一個策略網路去自動生成基於策略的樣本。在論文中對抗訓練的策略可以公式化表示為:
與標準的對抗訓練相比,最與眾不同的地方在於對抗樣本的生成方式。標準對抗訓練採用的是人為設定的策略去求解內部最佳化問題。然而本文中我們是使用策略網路根據條件機率分佈去產生一個樣本依賴策略,即我們提出的策略是可以學習的,其對抗樣本的生成包含策略網路引數,這會導致損失函式是兩個網路引數的函式。
由論文提出的對抗訓練的公式可知,目標網路和策略網路是有一種相互競爭的關係,即最小化和最大化相同的損失函式。目標網路學習調整引數去抵禦對抗攻擊策略生成的對抗樣本,而策略網路根據給定的攻擊目標網路的樣本去提高攻擊策略。
在一開始的訓練階段,目標網路是非常脆弱的,一個弱的攻擊就可以使它分類出錯,此時,策略網路可以很容易的生成有效的攻擊策略,並且策略是多種多樣的,因為弱的攻擊策略和強的攻擊策略都可以成功攻擊目標網路。
隨著訓練過程的進行,目標網路變得越來越魯棒,策略網路不得不去學習生成更強對抗樣本的攻擊策略。因此,這種博弈機制可以隨著策略網路的生成策略的提高逐步促進目標網路的對抗魯棒性。

2.5 損失函式

2.5.1 評估魯棒性損失

為了引導策略網路的學習,我們提出了一種新的度量方式去評估對抗攻擊,主要使用的是目標網路單步更新的魯棒性。具體地,一個攻擊策略首先被用作去創造一個對抗樣本,並且該對抗樣本透過一階梯度下降法去單步調整目標網路的引數。
如果更新後的目標網路能夠正確預測由其它攻擊策略生成的對抗樣本的標籤,則此時可以說該攻擊策略是有效的。評估魯棒性的損失函式可以表述為:
其中,是更新目標網路的引數,是步長,是由攻擊策略生成的對抗樣本。

2.5.2 預測乾淨樣本損失

一個好的攻擊策略應該不僅可以提高目標模型的魯棒性也能夠保持預測乾淨樣本的準確率。在本論文中我們也考慮了單步更新目標模型在預測乾淨樣本的效能,評估攻擊策略的損失函式可以被定義為:

2.5.3 總損失函式

結合以上兩個損失函式項,本論文方法的對抗訓練總損失函式可以表述為:
其中,和表示為和的權衡係數。

2.6. 最佳化

我們提出一個演算法交替最佳化這兩個網路的損失函式。給定引數,最佳化目標網路的子問題可以表述為:
給定一個乾淨的樣本,策略網路生成一個策略分佈,從該條件分佈中隨機取樣出一個策略,並用該策略去生成對抗樣本。利用以下梯度下降法去更新目標模型的引數:
其中表示的是在一個批次中的樣本數量,表示的是學習率。
給定,最佳化策略網路的引數的子問題可以描述為

其中

在這個最佳化問題中,最大的挑戰在於對抗樣本生成的過程是不可微的,即梯度資訊不能透過對抗樣本被反向傳播到攻擊策略的調整中。
另外,還有其它很多不可微的操作,如關係到對抗攻擊中迭代次數的選擇等,它們很難將梯度資訊反向傳播到策略網路中。在該論文中我們利用強學學習演算法去解決以上不可微的問題,具體過程請參見原文。

3 實驗結果

3.1 與其他AT模型比較

下表分別為不同對抗訓練的方法在CIFAR10、CIFAR100以及Tiny Imagenet三種不同資料集上魯棒性的實驗結果。可以發現,在大多數攻擊場景下,論文中提出的三種方法對抗訓練出的模型的效能都優於其它方法對抗訓練出的模型,而且在很多情況下,論文中的方法不僅提高了基礎模型的魯棒性,而且提高了乾淨樣本分類的精度。
Cifar-10結果

Cifar-100結果

Tiny-ImageNet結果

3.2 超引數選擇

我們將論文中方法與其他超引數搜尋方法進行了比較,包括經典的超引數搜尋方法(隨機搜尋)和兩種自動超引數搜尋方法。從下圖可以看出,論文中的方法在所有攻擊場景下對抗訓練出的模型都達到了最佳的魯棒性效能。
為了研究LAS-AT的工作原理,我們分析了策略網路在不同訓練階段的攻擊策略分佈。最大擾動強度的範圍設定為3到15,下圖所示為對抗訓練期間最大擾動強度的分佈演變情況。
在對抗訓練開始時,分佈覆蓋了最大擾動強度的所有可選值。每個值都有選擇的機會,這確保了對抗樣本的多樣性。隨著對抗訓練的進行,小擾動強度的百分比降低。在後期,最大擾動強度的分佈被幾個大值佔據。
這一現象表明,策略網路逐漸增加大擾動強度的百分比,以生成更強的對抗擾動,進而目標網路的魯棒性透過使用強對抗樣本進行訓練而逐漸增強。

3.3 魯棒性實驗

我們也在WRN-70-16上測試了方法的有效性。實驗表明LAS-AWP可以提高模型的魯棒性,實現更高的魯棒性精度。在CIFAR-100上,Cui等人為LBGAT訓練WideResNet34-20(WRN-34-20),並在沒有額外的真實或合成數據的情況下實現了最先進的穩健性。在WRN-34-20上,LAS-AWP也可以達到更高的魯棒性精度。結果見表5。

3.4 消融實驗

為了驗證目標函式中每個元素的有效性,我們在CIFAR-10上用ResNet18進行消融實驗。在我們的損失中,除了損失,我們還提出了兩個額外的損失項來指導策略網路的學習,即評估穩健性的損失和預測清潔樣本的損失。我們透過使用、&、&和&&,分別訓練四個LAS-PGD-AT模型。用一組對抗性攻擊方法對訓練好的模型進行攻擊。結果顯示在下表中。分類精度是評價指標。“clean”代表使用乾淨影像進行測試,而其他攻擊方法使用AE進行測試。

4 總結

我們透過引入“可學習攻擊策略”的概念,提出了一個新穎的對抗訓練框架,它由目標網路和策略網路構成。在博弈機制下,策略網路根據目標模型的魯棒性學習產生動態的攻擊策略,用於對抗樣本的生成,而不是使用純手工的方法。為了指導策略網路的學習,我們還提出了兩個損失項,並在三個基準資料集上進行了廣泛的實驗評估,以證明所提方法的優越性。
點選進入—>CV微信技術交流群
CVPR/ECCV 2022論文和程式碼下載
後臺回覆:CVPR2022,即可下載CVPR 2022論文和程式碼開源的論文合集
後臺回覆:ECCV2022,即可下載ECCV 2022論文和程式碼開源的論文合集
後臺回覆:Transformer綜述,即可下載最新的3篇Transformer綜述PDF
目標檢測和Transformer交流群成立
掃描下方二維碼,或者新增微信:CVer222,即可新增CVer小助手微信,便可申請加入CVer-目標檢測或者Transformer 微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要備註:研究方向+地點+學校/公司+暱稱(如目標檢測或者Transformer+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer222,進交流群
CVer學術交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優質開源專案、學習教程和實戰訓練等資料,歡迎掃描下方二維碼,加入CVer學術交流群,已彙集數千人!

掃碼進群
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章