
新智元報道
新智元報道
編輯:LRST
【新智元導讀】華南理工大學計算機學院AI安全團隊長期深耕於人工智慧安全,近期聯合約翰霍普金斯大學和加州大學聖地亞戈分校聚焦於聯邦學習中防範惡意投毒攻擊,產出工作連續發表於AI頂刊TPAMI 2025和網路安全頂刊TIFS 2025。
針對聯邦學習中的後門攻擊問題,華南理工大學計算機學院AI安全團隊與國際高校合作,提出了兩種創新防禦方法FedID和Scope。
FedID透過多種度量標準和動態加權檢測惡意梯度,有效應對複雜攻擊和非IID資料分佈;Scope則透過逐維歸一化和差異化縮放,揭示攻擊梯度中的後門維度,顯著提升防禦效果。

論文1:TPAMI 2025
論文題目:FedID: Enhancing Federated Learning Security Through Dynamic Identification(第一作者:黃思銓;通訊作者:高英)

論文連結:https://ieeexplore.ieee.org/document/11045524
程式碼連結:https://github.com/siquanhuang/Multi-metrics_against_backdoors_in_FL

摘要
聯邦學習(Federated Learning,FL)因其去中心化和保護隱私的特性而備受關注,但其也面臨後門攻擊的脆弱性,這類攻擊旨在操控模型在攻擊者選定輸入上的行為。
現有大多數基於統計差異的防禦方法,僅在特定攻擊下有效。當惡意梯度與正常梯度高度相似,或者資料呈現非獨立同分布(non-IID)特徵時,這一侷限性尤為顯著,使得這些防禦手段難以識別隱藏性較強的攻擊。
研究人員重新審視了基於距離的防禦方法,並揭示了兩個關鍵洞見:第一,在高維空間中,歐幾里得距離失去了意義;第二,單一的度量標準無法識別具有多樣化特徵的惡意梯度。
為解決這些問題,研究人員提出了FedID,一種簡單而有效的策略,利用多種度量標準並透過動態加權實現自適應的後門檢測。
此外,研究人員還引入了改進的z-score方法,用於選擇用於聚合的梯度。值得注意的是,FedID不依賴於關於攻擊設定或資料分佈的預設假設,並且對正常效能的影響極小。
研究人員在多個數據集和攻擊場景下進行了廣泛實驗,以評估其有效性。FedID在所有情況下均優於以往防禦方法,尤其在複雜的邊緣情況(Edge-case PGD)下表現突出。
實驗結果表明,FedID在面對旨在突破防禦機制的自適應攻擊時仍具有強大的魯棒性,並能適應各種非IID資料分佈,而不會影響模型在正常任務上的表現。

背景
聯邦學習(FL)是一種在保護客戶資料隱私安全的同時,能夠高效訓練深度學習模型的分散式框架。但也由於其對隱私的考慮,導致其容易受到資料投毒的攻擊,尤其是隱蔽性更強的後門攻擊(Backdoor attack)。
為了提高FL的魯棒性,人們提出了多種防禦方法,例如基於評分的方法,這種方法利用特定的指標來區分惡意梯度和良性梯度。儘管這種方法對某些後門很有效,但研究人員發現,精心設計的攻擊,其梯度與良性梯度無法區分,可以輕鬆繞過這些防禦措施。
基於差分隱私(DP)的方法是在觀察到傳統上用來對付差分攻擊的 DP 方法也能有效對付後門的基礎上發展起來的。透過向全域性模型新增高斯噪聲,這些方法可以淡化潛在中毒模型更新的影響。
令人驚訝的是,基於DP的方法在抵禦這種高階後門方面表現出很強的能力。儘管DP有能力抵禦隱形後門,但它所增加的噪聲會顯著降低整體效能和收斂速度。
相比之下,基於距離的方法只彙總良性梯度,對全域性模型的影響較小。
因此,一個自然而然的問題出現了:能否在不犧牲 FL 模型效能的情況下防禦隱蔽後門?
為了實現這一目標,研究人員轉向了不犧牲良性效能的基於距離的方法,並提出了以下研究問題:如何才能成功利用距離度量來區分敵意更新和良性更新?
於是,該論文聚焦於以下兩個問題:
1. 由於存在著維度詛咒效應 ,歐氏距離(即L2距離)在高維空間(神經網路)中失去度量意義;
2. 單一度量僅對特定攻擊有效,並需要對惡意攻擊梯度有詳細假設。

方法
曼哈頓距離緩解維度詛咒
Theorem1 為維度詛咒效應的公式,隨著維度d的上升,距離指標將會逐漸喪失意義。

雖然無法徹底解決維度詛咒帶來的問題,根據理論證明,曼哈頓距離在高維空間中的識別能力要遠遠好於常用的歐式距離,可以緩解維度詛咒效應。

方法框架
即便曼哈頓距離有著更好的識別效力,但是研究人員也不認為在識別後門攻擊的時候曼哈頓就能完全替代歐氏距離。
除此以外,先前的工作已經表明[3],有的後門攻擊會在歐氏距離上表現區分度,有的則會在餘弦相似度(Cos 距離)上表現差異。

於是研究人員決定採用曼哈頓、歐氏和 Cos 距離共同去識別後門,如上圖所示。
在定義好了識別梯度時的指標之後,在研究人員面前也有兩個障礙:
1. 三種距離有著不同的尺度,由於每個度量都是相關的,因此需要一種新的正則化方法,而不是通常的按最大值進行歸一化;
2. 不同的資料分佈(如不同程度的非 IID)會使惡意客戶端和良性客戶端的梯度不同。
因此,需要動態加權來應對各種環境和攻擊,以實現通用防禦。

為了解決上述問題,研究人員提出了一種透過濃度矩陣(協方差矩陣的逆)進行白化的方法如上圖所示,其中x為客戶端距離特徵向量,Σ為協方差矩陣,其能夠根據每個客戶端上三個指標特徵的分佈動態地決定每個指標的權重,以適應不同的資料分佈情況和攻擊策略。
在得到了客戶端的距離得分δ後,便可以根據該分數聚合更優梯度。透過這種機制,方法不僅能夠容納三種指標,同時也能根據需要容納更多的指標去分析各個梯度。

論文2:TIFS 2025
論文題目:Scope: On Detecting Constrained Backdoor Attacks in Federated Learning(第一作者:黃思銓;通訊作者:高英)

論文連結:https://ieeexplore.ieee.org/document/10852410
程式碼連結:https://github.com/siquanhuang/Scope

摘要
聯邦學習(Federated Learning,FL)使多個客戶端能夠協同訓練高效的深度學習模型,但其也易受到後門攻擊的威脅。
傳統的基於檢測的防禦方法依賴特定度量標準來區分客戶端的梯度。然而,具備防禦認知的攻擊者可以利用這一點,透過在這些度量上對攻擊梯度施加約束,從而逃避檢測,形成度量約束攻擊。
研究人員具體實現了這類威脅,並提出了餘弦約束攻擊,這種攻擊能夠成功突破基於餘弦距離的先進防禦方法。
為應對上述挑戰,研究人員提出了一種新穎的防禦機制 Scope。該方法透過揭示攻擊梯度中被約束的後門維度,在使用餘弦距離的同時,能夠檢測出餘弦約束攻擊。
Scope採用逐維歸一化和差異化縮放策略,以放大後門維度與正常或未被使用維度之間的差異,有效對抗高階攻擊者掩蓋後門特徵的行為。
此外,研究人員還設計了一種全新的聚類方法主導梯度聚類,用於隔離並剔除後門梯度。
在多個數據集、模型、聯邦學習設定以及不同攻擊者場景中進行的廣泛實驗表明,Scope在檢測和防禦後門攻擊方面顯著優於現有方法,特別是在應對餘弦約束攻擊方面效果尤為突出。
研究人員還提出了一種專門針對Scope的定製攻擊,試圖最大限度地增強其隱蔽性以規避Scope的檢測,但實驗結果顯示該攻擊依然失敗,這進一步凸顯了Scope防禦機制的魯棒性和先進性。

背景
由於大多數後門檢測方法依賴特定的度量標準(如歐幾里得距離或餘弦距離)來區分正常梯度與惡意梯度,因此它們容易受到度量約束攻擊(metric-constrained attacks)的影響。
當攻擊者完全瞭解伺服器端部署的防禦演算法時,他們可以有針對性地對其惡意梯度在防禦所使用的度量上進行約束,從而繞過檢測。
這種針對防禦機制精心設計的攻擊給聯邦學習系統的安全性帶來了巨大挑戰。
已有研究表明,基於歐幾里得距離的防禦方法無法有效抵禦在該度量下受到約束的攻擊。儘管使用餘弦距離的方法能夠識別受歐幾里得距離約束的攻擊,但卻難以抵擋餘弦約束攻擊(cosine-constrained attack)。
值得注意的是,儘管已有研究提出了使用多重度量的方法以應對這一挑戰,這些方法依然未能有效防禦此類攻擊。
在該研究中,研究人員採用了一個全新的視角,聚焦於檢測惡意梯度向量中潛藏的後門特徵。已有研究表明,神經網路(Neural Networks, NNs)的不同維度承載著不同的任務,例如正常任務與後門任務。
基於這一觀點,可以將神經網路的權重劃分為三類維度:正常維度(benign dimensions),後門維度(backdoor dimensions),其餘未被利用的維度(unused dimensions)。
後門梯度主要作用於後門維度,而正常梯度則主要更新正常維度。研究人員認為,度量約束攻擊中後門維度難以被區分的原因有兩個:
1. 被正常維度掩蓋,
2. 被未被使用的維度稀釋。
於是,該論文聚焦於以下問題:如何在後門維度被掩蓋和稀釋的情況下找到後門梯度的差異性?

方法
逐維歸一化
由於變化絕對值較大的維度在梯度中占主導地位,導致現有防禦方法難以有效檢測出惡意梯度。
因此,研究人員將重點轉向關注各維度的變化率而非其具體數值,以消除高絕對值維度對檢測結果的顯著干擾。為了計算每個維度上的變化率,研究人員將客戶端的梯度(即

)在
全域性模型和客戶端模型之間逐維分解,並將每個維度的梯度變化縮放到區間 [0,1],從而統一量綱並實現對不同維度變化的相對比較。
差異化縮放
由於所有維度在歸一化後被對映到區間[0,1][0,1],研究人員將每個維度的歸一化值gi自身冪乘ϕ次,以進一步壓低更新幅度較小的維度值,使其趨近於0,從而消除這些微弱更新維度的影響。

相反,對於接近1的維度,保持其影響不變,甚至增強,從而放大各維度之間的差異,形成「強者愈強」的效應。
透過這種方式,有效削弱了大量未被使用維度對少數關鍵後門維度的干擾,使後門相關的關鍵維度在梯度向量中佔據主導地位。
最終,梯度向量的方向將完全由這些後門維度主導,忽略了微弱維度的干擾,從而提升後門特徵的可檢測性。
參考資料:
https://ieeexplore.ieee.org/document/11045524
https://ieeexplore.ieee.org/document/10852410

