ECCV2024|模型逆向攻擊高效能新正規化,人臉隱私安全問題新思考

模型逆向(MI)攻擊是一種重構目標模型訓練資料的代表性隱私攻擊範例,對深度學習模型和資料隱私構成了重大威脅。惡意人士可以透過該手段,竊取使用者的私人資訊,尤其是面部影像等敏感資訊。具體來說,一旦獲得目標模型和輸出預測的訪問許可權,攻擊者就可以攻擊人臉識別系統,重構敏感的人臉影像。我們旨在透過探索模型逆向攻擊,揭示線上模型中存在的隱私洩露問題。
然而,現有的大多數 MI 方法側重於尋找 latent code 來表示目標身份,然而這種基於迭代最佳化的攻擊正規化需對目標模型進行大量的查詢,特別是在黑盒場景中,這是不切實際的。另外,一些基於訓練的攻擊正規化可以透過單次的前向推理進行攻擊,但是卻無法學習到從預測向量到影像的高階對映。
為了解決這些問題,中國科學院資訊工程研究所的研究團隊提出了一種新穎的基於訓練的黑盒 MI 攻擊方法 P2I-MI。P2I 將目標模型的輸出預測對映到 StyleGAN 更解耦的潛在空間,在預測向量與語義面部特徵之間建立聯絡,從而為預測和重構的高保真影像之間提供對齊。在攻擊階段,進一步設計了對齊整合攻擊方案,以整合目標身份的補充面部特徵以實現更好的重建。
P2I-MI 在 MI 攻擊中實現了 SOTA,優秀的效能表現強調了模型預測中隱藏的豐富資訊可以被提取,從而導致資料隱私的洩露,首次實現了基於訓練的攻擊正規化的高可用性。我們希望這將引起社群對人臉隱私保護的關注。
論文標題:
Prediction Exposes Your Face: Black-box Model Inversion via Prediction Alignment
論文連結:
https://arxiv.org/abs/2407.08127
程式碼連結:
https://github.com/lyufan/P2I-MI
動機
模型逆向(MI)攻擊,不管是白盒場景下透過梯度最佳化搜尋生成網路的潛在空間,還是黑盒場景下采用遺傳演算法或強化學習來找到最優的潛在向量,他們共同的核心點是在目標模型中,搜尋輸入空間以找到具有最大似然度的確切特徵值。然而,這種基於最佳化的範例以迭代的方式更新輸入向量,這不可避免地涉及到對目標模型的大量查詢。
在現實世界中,尤其是在查詢受限的場景中非常不切實際,例如線上機器學習服務:Amazon Rekognition 和 Google’s cloud vision API 等。此外,對於基於訓練的方法 [1],普通的逆向對映無法與解耦的影像特徵建立聯絡,從而導致重建結果缺乏目標特徵,攻擊效能不佳。
方法
2.1 攻擊場景
我們的工作關注的是更有挑戰性黑盒場景:攻擊者既不知道內部結構,也不知道模型引數,只能獲取模型的輸出預測,即每個類別的置信度分數。雖然攻擊者無法接觸到私有資料集,但他知道模型要執行的任務,並且可以輕易地從網際網路上收集與任務相關的公共資料集進行訓練(公共資料集和私有資料集之間不存在身份重疊,私有資料集即目標模型的訓練資料集)。
目標模型被指定為人臉識別模型,攻擊者旨在恢復給定身份的代表性面部影像。我們方法的目標是學習一個逆向模型,可以正確地將目標模型的預測對映到其對應的目標身份的影像。
2.2 方法概覽
我們首先透過選擇每個身份置信度最高的前 n 張公共影像來組成訓練資料。預測對齊編碼器(PAE)將預測向量對映到解耦的 W+ 空間中生成 latent code,然後將它們輸入固定的 StyleGAN 的生成器以重構高保真目標影像。此外,我們引入了對齊整合攻擊以整合不同的 w,其主要目標是找到中心 w_ens 並使其更接近目標身份的 w_id,從而提升攻擊效能。
2.3 具體方法
受到 GAN inversion [2][3][4] 任務的啟發,他們利用在 StyleGAN 解耦的 W+ 空間內可以用不同的潛在維度表示視覺屬性這一性質來重建影像。在此基礎上,我們針對 MI 攻擊提出了以下問題:
  • 我們能否避免使用成本高效率低的最佳化正規化,直接訓練一個逆向模型,透過簡單的前向推理來重構任何指定身份的影像?
  • 我們能否進一步將預測向量空間與 W+ 空間對齊,在預測向量和解耦的面部屬性之間建立聯絡?
因此,我們設計了預測影像逆向模型,由預測對齊編碼器 E 和 StyleGAN 生成器 G 組成。具體來說,對於給定的影像 x 的輸入預測 p,預測對齊編碼器(PAE)旨在學習預測 p 到 StyleGAN 的 W+ 空間的對映,使得 StyleGAN 的生成器可以重建預測 p 所對應的影像。
由於 StyleGAN 的 W+ 空間是一個用於風格混合和屬性編輯的更解耦的潛空間,而預訓練的 StyleGAN 生成器 G 保留了生成具有各種風格和隨機細節的高解析度影像的能力,透過整合 E 和 G,我們的方法將預測向量空間與解耦的 W+ 空間對齊,為目標身份提供了語義級別的面部嵌入。
為了證明我們方法實現的 {預測 -W+- 影像} 對齊的合理性,我們進一步提供了實證視覺化。具體來說,我們選擇一個目標私有影像,沿著目標維度插值被分類為該目標的公共影像的預測向量(並且保持預測向量之和為 1),並可視化對應的重建影像。
顯然,隨著目標維度值的增加,重構的影像在視覺外觀上逐漸接近目標影像,這恰好說明了預測和重構影像之間的對齊。這也與目標影像的 w 和重構影像 w 之間的距離 Dist_w 的減小也是一致的。
2.4 訓練過程
在訓練階段,我們首先用影像重建任務中常用的畫素級 L2 損失、LPIPS 損失、id 判別損失組成我們的重建損失,此外為了使中間特徵更好地適應我們的 PAE 編碼器,並防止 PAE 編碼器無意義地過擬合,我們進一步加入了對齊正則化損失,透過兩部分損失的約束來訓練我們的 PAE 編碼器。
2.5 攻擊過程
實際上,在攻擊階段,對手只能獲取目標標籤(one-hot)。而我們從實驗中發現,簡單地輸入 one-hot 預測將會導致極其糟糕的表現。
為了處理這個問題,我們認為:如果一個影像被歸類為目標身份,那麼它至少應該包含這個身份的部分特徵屬性。這啟發了我們需要整合目標在不同公共影像中所包含的屬性。
因此,我們提出了對齊整合攻擊,以整合由預測 p 編碼的潛在編碼 w,以實現更好的重建。具體地,我們對不同公共影像的 w 編碼以預測向量的最大值進行加權,得到整合後的 w 編碼。
此外,我們還可以透過前述的插值的方式來顯式增強目標身份的預測向量:m 是目標維度預測值增加的增強引數,同時為了確保預測向量的總和為 1,我們進一步調整其他非目標維度,這與 StyleGAN inversion 的可編輯性一致,即透過操控潛在空間中的方向向量,允許對屬性的改變,從而進一步提高重建效能。
實驗
3.1 標準設定
我們在常見的標準設定上進行了實驗:即公開和私有資料來自同一資料集,沒有身份重疊。實驗結果表明,我們的方法取得了黑盒場景中的 SOTA 結果,大幅度縮小了和白盒場景結果的差距。
3.2 分佈轉移設定
我們還考慮了更實際的設定:公共資料集和私有資料集來自不同的分佈。實驗結果表明,我們的方法在三個資料集的分佈轉移中實現了 SOTA 效能,當攻擊在 PubFig83 上訓練的目標模型時,攻擊準確度達到了 82%,這比之前 SOTA 的黑盒方法 RLB-MI 高出 32%,甚至超過了白盒方法 KED-MI。我們認為,PAE 編碼器將預測向量空間和 StyleGAN 解耦的 W+ 空間對齊,能夠很好的挖掘目標身份的預測向量所隱含的面部特徵。
3.3 不同的目標模型
我們在分佈轉移的設定上進行了實驗,比較了攻擊不同模型架構的結果,對於所有目標模型架構,我們的方法的攻擊準確率都始終高於其他基準:
3.4 查詢成本比較
我們與不同方法的查詢成本進行了比較。我們總共攻擊了 300 個身份。可以清楚地看到,我們的查詢只有 13 萬,這大約只佔 RLB-MI 的 0.36%,而與 label-only 場景的方法相比,減少了 99% 的查詢次數。我們的方法只需少量的查詢就能進行高效能逆向攻擊,這對黑盒 MI 攻擊的實際應用是一個重要的貢獻。
3.5 其他實驗
我們還比較了透過增加目標維度中公共預測向量的不同值 m 的結果。當 m=0 時,表示未對公共預測向量進行任何修改。隨著 m 的增加,公共預測向量的目標維度值也會增加,同時攻擊效能也會得到改善。然而,如果 m 繼續增加,預測向量改變可能會使其偏離原始分佈,導致效能下降。
3.6 視覺化結果
我們可視化了不同方法的定性結果。與其他方法相比,我們逆向重建的影像明顯更為逼真,並且解析度質量更高,驗證了對齊提供了目標身份的更多面部特徵。我們尚未完全探索這種基於 StyleGAN 的訓練正規化在模型逆向(MI)攻擊任務中的潛力。在未來,我們將繼續探索 MI 攻擊中潛在空間的本質,以進一步提高黑盒或 label-only 場景下的攻擊效能。
參考文獻

[1] Yang, Z., Zhang, J., Chang, E., Liang, Z.: Neural network inversion in adversarial

setting via background knowledge alignment. In: CCS. pp. 225–240. ACM (2019)

[2] Collins, E., Bala, R., Price, B., Susstrunk, S.: Editing in style: Uncovering the local

semantics of gans. In: Proceedings of the IEEE/CVF Conference on Computer

Vision and Pattern Recognition. pp. 5771–5780 (2020)

[3] Yao, X., Newson, A., Gousseau, Y., Hellier, P.: A style-based gan encoder for high

fidelity reconstruction of images and videos. In: European conference on computer

vision. pp. 581–597. Springer (2022)

[4] Liu, H., Song, Y., Chen, Q.: Delving stylegan inversion for image editing: A foun-

dation latent space viewpoint. In: Proceedings of the IEEE/CVF Conference on

Computer Vision and Pattern Recognition. pp. 10072–10082 (2023)

更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章