
©PaperWeekly 原創 · 作者 | TMLR Group
單位 | 香港浸會大學
在快速發展的機器學習領域,深度神經網路徹底改變了我們從資料中進行學習的方式,並在各個領域取得了顯著的進步。然而,隨著這些模型對私人資料的依賴,隱私洩露的風險日益突出。
最近,一種新的隱私攻擊方式——模型反演攻擊(Model Inversion Attack, MIA)引起了廣泛關注。MIA 利用訓練好的模型來提取其訓練資料中的敏感資訊,揭露了神經網路中的隱私風險;MIA 已在多個領域證明了有效性,包括影像、文字和圖資料領域。
儘管 MIA 的研究影響顯著,但目前仍然缺少系統性的研究,使得這一關鍵領域的諸多進展沒有得到清晰的歸納和梳理。為此,在我們最新的綜述研究中,我們詳細地探討了 MIA 這一研究問題,由問題定義出發,我們總結了不同資料領域的具體攻擊方法及應用例項,整理了應對性防禦策略,及常用的資料集和評估方法。
在本綜述中,我們不僅對當前研究成果進行梳理,還提出了未來發展方向的深度思考,旨在為相關研究者提供清晰的綜述分析,並以此激發更多未來研究的探索和創新。

論文標題:
Model Inversion Attacks: A Survey of Approaches and Countermeasures
論文地址:
https://arxiv.org/abs/2411.10023
Survey Repo:
https://github.com/AndrewZhou924/Awesome-model-inversion-attack
基本概要

MIA 的基本設定如圖 1 所示。在 MIA 中,攻擊者通常會使用經過訓練的模型來提取該模型的訓練資訊。具體而言,MIA 會使用已知輸入反覆查詢模型,並觀察其輸出以瞭解模型的行為方式。
透過多次執行此操作,攻擊者可以收集到用於構建模型的訓練資料的詳細資訊並從模型的輸出中抽取敏感資料資訊。典型的高風險應用有人臉識別與醫學診斷,在這之中 MIA 能夠抽取並恢復敏感的個人私有資訊,對使用者或患者的隱私造成巨大的威脅。

▲ 圖1. Model Inversion Attack的問題設定和基本框架
儘管具體的攻擊和防禦方法取得了一定的發展,但考慮到 MIA 中對於恢復資料的核心關鍵問題,資料領域,目前還缺乏對這類隱私攻擊與保護方法的系統分類研究,缺乏對某些方法有效或是失敗原因的解釋及優缺點分類。
為此,我們在這項工作中首次全面地調研了 MIA,對其在影像,文字,和圖資料領域的攻擊與防禦方法進行了細緻的討論,具體的文章結構如圖 2。

▲ 圖2. Model Inversion Attack綜述的文章結構
除了給定 MIA 正式的定義,我們也討論了與之相關的一些其他隱私攻擊設定,並以圖 3 為例,闡明瞭 MIA 與其他隱私攻擊之間的具體區別,如問題設定,攻擊物件,具體方法等。

▲ 圖3. Model Inversion Attack與其他隱私攻擊的設定區別

針對影像、文字及圖資料的MIA
在這個綜述的主要部分,我們介紹並討論了針對影像、文字和圖資料領域中的 MIA 方法。我們首先概括總結了這些領域中 MIA 方法的發展和核心思路,透過介紹不同的研究工作,對方法的創新點進行了梳理。
此外,我們還根據 MIA 中的關鍵問題,如黑白盒設定,對不同方法進行分類,並總結了設計先進方法的一般性原則,例如增強詢問資訊質量、利用模型內部資訊和使用生成模型。
在影像領域,MIA 場景通常分為兩類:針對分類模型的標準分類(Standard Classification)和針對協作推理(Collaborative Inference)的場景。圖 4 詳細展示了這兩種 MIA 的場景文獻梳理及樣例。
對於標準分類,MIA 特指一種情況,即敵手試圖從一個訓練良好的目標模型中推斷並恢復訓練影像。在這種場景中,敵手僅能訪問目標模型,並且輸出是一個單熱向量(one-hot vector),向量的維度對應於所需類別設定為一。
通常在白盒設定(white-box setting)中採用基於最佳化的方法,其中模型反演問題可以透過基於梯度的最佳化(gradient-based optimization)來解決。
另一種 MIA 涉及到協作推理,其中深度神經網路被分割為多個部分,每部分分配給不同的參與者。輸入資料依次透過網路的每一部分,並由這些參與者處理以產生最終輸出。這種框架在邊緣-雲場景(edge-cloud scenarios)中得到了推廣,因為它可以解決邊緣裝置的計算和儲存限制。
通常,網路的初始層在邊緣裝置上本地處理輸入,而剩餘層被解除安裝到遠端雲伺服器上。這種處理方式可以加快推斷速度並降低能耗,但同時也引入了隱私風險,因為可能暴露中間結果。

▲ 圖4. 針對影像領域的MIA文獻梳理及樣例
在文字領域,MIA 針對三種類型的模型:嵌入模型(Embedding model)、分類模型(Classification model)和語言生成模型(Language generation model)。圖 5 詳細展示了這三種 MIA 的模型應用場景的文獻梳理及樣例。
嵌入模型將文字資料如單詞和句子轉換為低維的密集向量,這些向量捕獲文字的語義含義。在這類模型上,MIA 透過最佳化方法或訓練攻擊模型來揭示向量中編碼的敏感資訊,從而威脅到資料隱私。
分類模型用於將文字分類到預定義的類別或標籤中,並常常輸出每個類別的機率。利用這些輸出機率和模型內部資訊,MIA 能夠推斷出訓練資料的敏感屬性。
語言生成模型根據大量文字資料學習語言的統計規律,並生成連貫的文字。在這些模型上,MIA 透過訓練反演模型從模型的輸出中恢復隱藏的輸入或訓練資料。

▲ 圖5. 針對文字領域的MIA文獻梳理及樣例
在圖資料領域,MIA 主要應用於三種策略:基於圖相關知識的最佳化(Optimization via Graph-related Knowledge)、基於模型中間資訊的最佳化(Optimization via Model Intermediate Information)以及從嵌入到圖的投影學習(Learning the Projection from Embeddings to Graphs)。
圖 6 詳細展示了這三種 MIA 的模型應用場景的文獻梳理及樣例。
基於圖相關知識的最佳化關注於透過圖神經網路(Graph Neural Network, GNN)輸出恢復圖的連線性,即邊的存在性。這種方法通常涉及使用節點特徵、洩露的子圖和輔助資料集,透過多層感知機(Multilayer Perceptron)等最佳化技術增強攻擊精度,從而實現對圖的重建。
基於模型中間資訊的最佳化研究 GNN 訓練過程中可能洩露的私有拓撲資訊。這透過將圖重建攻擊建模為馬爾可夫鏈近似(Markov chain approximation)進行,分析 GNN 中的潛變數如何被利用來重構原始圖的鄰接矩陣,並透過量化原始圖和攻擊鏈中潛變數之間的相互資訊來評估不同變數對隱私風險的貢獻。
從嵌入到圖的投影學習側重於將節點嵌入反向轉換為圖結構,包括基於解線性系統的演算法和基於梯度下降最佳化的演算法,以恢復從深度行走方法獲得的嵌入所編碼的資訊。這種方法能恢復圖的拓撲結構,並可以確定給定的子圖是否包含在目標圖中,以及基於圖嵌入恢復圖拓撲。

▲ 圖6. 針對圖資料領域的MIA文獻梳理及樣例

針對MIA的防禦方法
在回顧了不同領域的 MIA 方法之後,我們對不同資料領域的防禦方法進行了介紹。考慮到具體防禦方法的應用階段,我們可以將其分為訓練中的防禦及推斷中的防禦兩大類,分別應用在模型部署前的訓練或微調中,或是在模型部署後的推斷應用中,如圖 7 所示。
在影像領域,訓練時的防禦策略包括差分隱私(Differential Privacy, DP)、誤導性噪聲新增、資訊限制等方法。例如,透過引入生成對抗網路(Generative Adversarial Network)生成的假樣本,使用 NetGuard 防禦框架來誤導攻擊者,阻止其正確分類私有樣本。
此外,標籤平滑的使用可以改善模型對 MIA 的魯棒性,透過調整輸出類別的置信度來減少資訊洩露。推斷時的防禦主要透過輸出擾動,如預測純化框架,透過純化輸出以移除攻擊者可利用的冗餘資訊。
在文字領域,訓練時的防禦策略著重於防止過擬合和對抗性訓練,以降低模型對訓練資料的記憶能力,從而減少隱私洩露。例如,採用 dropout 技術隨機停用神經元來防止過擬合。推斷時的防禦則透過資料混淆和取樣策略來修改或掩蓋輸出,減少隱私洩露的風險。
在圖資料領域,訓練時的防禦方法包括使用差分隱私保護私有連結資訊,並透過新增噪聲或其他正則化方法來限制模型學習過程中的資訊流。例如,透過隨機響應技術保持節點度資訊的 DP,或使用對抗性訓練來增強隱私保護。推斷時的防禦策略則透過在輸出或梯度上新增擾動來實現,如使用 DP-SGD 方法在圖分類任務中應用差分隱私。
這些防禦技術不僅針對特定的資料型別和應用場景,還考慮到了在實際部署中保持模型效用與隱私保護之間的平衡,為防禦 MIA 提供了多樣化和有效的策略。

▲ 圖7. 針對三種資料領域的MIA防禦方法梳理

MIA資料集及評估方法
為了進一步便利研究者進行與 MIA 有關的隱私保護研究,我們整理了三種資料領域所用到的相關資料集,並詳細標註了這些資料集的具體特徵,例如資料維度、解析度、類別數量等資訊,適用於不同的現實場景。
同時,我們也標註了這些資料集的來源及它們在相關研究中的應用情況,明確指出了哪些文章使用了這些資料集。這些詳細的資料集資訊將為未來的研究提供重要參考,幫助研究者快速找到適合的實驗資料集,並理解其在不同研究場景中的適用性。這些資料集的詳細資訊已整理在表 4 至表 6 中。



▲ 表4-6. MIA文獻常用資料集(影像,文字,及圖資料)整理
同時,我們也整理了 MIA 用到的評估指標。我們首先提取了在三個領域通用的指標,這包括準確率、召回率等基本指標,它們適用於大多數模型評估場景。接著,對於每個領域,我們分別整理了各自的特定指標。
例如,在影像領域,有 Fréchet Inception Distance (FID) 和 Learned Perceptual Image Patch Similarity (LPIPS) 等,這些指標用於衡量影像生成的質量和真實感。
在文字領域,有 BLEU、ROUGE 等,這些指標主要用於評估語言生成的準確性和流暢性。
在圖資料領域,有 Area under the ROC curve(AUROC)、Joint degree distribution 等,用以評估圖結構的預測準確性和模型的預測能力。
這些指標為 MIA 研究提供了一套全面的工具,使研究人員能夠從多個維度評估和比較不同方法的效果,並促進了模型的最佳化和改進。




▲ 圖8-11. MIA文獻用到的部分評估指標(通用,影像,文字,及圖資料)整理

關於MIA未來方向的討論
在我們的綜述中,我們調研並討論了針對 MIA 的三個主要資料領域的解決方案,總結了較為普遍的設計目標及原則。一般而言,MIA 的核心思想是儘可能多地利用先驗知識從目標模型中提取更多資訊,然後生成更真實的樣本,有效地揭示訓練資料。
相反,防禦 MIA 的目的是在模型中儲存更少的關於訓練資料的資訊,這樣對手就很難從目標模型中恢復隱私資料。
雖然這個研究問題已經取得了很大進展,但仍有很多方面值得未來努力,以增強對隱私漏洞的理解:1)問題設定考慮更為實際的現實場景(如考慮不完備的監督訊號);2)技術改進考慮結合生成式模型(如利用 diffusion model 的高質量生成效果);3)結合基礎大模型考慮隱私漏洞研究物件的遷移(如考慮 LLM 及 VLM 的 MIA)。
更多內容,請參考我們的論文及 GitHub 倉庫,非常感謝大家關注我們的工作!
課題組介紹
ABOUT US

香港浸會大學可信機器學習和推理課題組 (TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士生和研究助理共同組成,課題組隸屬於理學院計算機系。課題組專攻可信表徵學習、可信基礎模型、基於因果推理的可信學習等相關的演算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組 Github:
https://github.com/tmlr-group
課題組由政府科研基金以及工業界科研基金資助,如香港研究資助局新進學者協作研究補助金和傑出青年學者計劃,國家自然科學基金面上專案和青年專案,以及微軟、英偉達、位元組、百度、阿里、騰訊等企業的科研基金。青年教授和資深研究員手把手帶,GPU 計算資源充足,長期招收多名博士後研究員、博士生、研究助理和研究實習生。
此外,本組也歡迎自費的訪問博士後研究員、博士生和研究助理申請,訪問至少 3-6 個月,支援遠端訪問。有興趣的同學請傳送個人簡歷和初步研究計劃到郵箱 ([email protected])。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
