AAAI2025|開放集跨網路節點分類!海大團隊提出排除未知類別的對抗圖域對齊

©作者 | 沈笑,海南大學副教授、博導
研究方向 | 圖域適應、跨網路分類等
本文介紹一篇發表於 AAAI-2025 的論文,面向開放集跨網路節點分類的排除未知類別的對抗圖域對齊 [1]
論文題目:
Open-set Cross-network Node Classification via Unknown-excluded Adversarial Graph Domain Alignment
論文作者:
沈笑,陳志豪,潘世瑞,周爽,楊天若,周犀
論文單位:
海南大學,澳大利亞格里菲斯大學,香港理工大學,鄭州大學,加拿大聖弗朗西斯塞維爾大學
論文連結:
https://ojs.aaai.org/index.php/AAAI/article/view/34247
論文程式碼:
https://github.com/3480430977/UAGA
前言
在圖資料分析領域,標籤通常很昂貴、有限甚至不可用。跨網路節點分類(Cross-network Node Classification, CNNC)[2] 是近期圖機器學習領域的熱點研究方向,旨在遷移從標籤豐富的源網路中學習的知識,幫助缺乏標籤的目標網路預測節點標籤。
現有的跨網路節點分類方法普遍基於閉集假設,即要求源網路和目標網路共享相同的類別空間然而,在現實世界的實際應用中,目標網路可能包含源網路中沒有出現過的新類別。例如,在跨平臺的線上社交網路使用者興趣預測場景中,新形成的目標社交網路中的使用者可能包含成熟的源社交網路中沒有出現的新興趣類別。
為突破閉集假設的限制,該論文研究更為現實和新穎的開放集跨網路節點分類(Open-set Cross-network Node Classification, O-CNNC)問題,如圖 1 所示,目標網路不僅包含源網路中所有的已知類別,還包含額外的“未知”類別。
開放集跨網路節點分類問題的目的是:將目標網路中 1)屬於源網路已知類別的節點分類到對應的已知類別,2)屬於目標網路私有類別的節點識別為“未知”類別。
▲ 圖1:開放集跨網路節點分類(O-CNNC)問題示意圖
處理開放集跨網路節點分類任務,面臨兩大挑戰:
1)由於目標網路完全無標籤,無法得知目標網路中哪些節點屬於源網路出現過的已知類別,哪些節點屬於目標網路中新出現的“未知”類別。因此,如何構造一個邊界,分離目標網路中的已知類別和“未知”類別,是解決開放集跨網路節點分類的一大挑戰;
2)不同網路之間的分佈差異會阻礙基於源網路上訓練的模型直接應用於目標網路。在開放集跨網路節點分類問題中,由於目標網路存在源網路未出現的“未知”類別,如像先前的閉集跨網路節點分類方法那樣直接對齊源網路和目標網路的整體分佈,則會把目標網路未知類別的分佈與源網路已知類別的分佈對齊,導致負遷移,從而加大識別目標網路未知類別的難度。
因此,如何在排除目標網路未知類別的前提下,將目標網路的分佈與源網路對齊,是解決開放集跨網路節點分類問題的另一大挑戰。
為解決上述挑戰,該論文提出了一個基於排除未知類別的對抗圖域對齊模型(Unknown-excluded Adversarial Graph Domain Alignment, UAGA),主要創新點包括:
現有的基於梯度反轉層的對抗域適應方法 [3] 始終為來自不同域的所有樣本分配正的域適應係數。UAGA 首次在對抗域適應中使用負的域適應係數來排除未知類別的樣本。
透過為未知類別的節點分配負的域適應係數,為已知類別的節點分配正的域適應係數,UAGA 使得目標網路的已知類別節點與源網路對齊,並將目標網路的未知類別節點推離源網路。
與計算機視覺領域的開放集域適應方法不同,該論文首次從圖結構資料的角度,針對開放集跨網路節點分類問題,證明了同質性定理 1:即目標網路的節點,無論屬於已知類別或未知類別,均傾向於與其具有相同類別的其他節點相連。
受定理 1 啟發,UAGA 構建了一個 K+1 維的鄰域聚合節點分類器,同時處理已知類別的節點分類和未知類別的節點檢測。與採用基於閾值的 K 維分類器檢測未知類別的方法相比,UAGA 構建的 K+1 維分類器避免了調節閾值的困難。
UAGA 設計了一個先分離再域適應的框架,首先透過對抗訓練學習一個邊界來粗糙分離未知類別和已知類別,隨後進行排除未知類別的對抗圖域對齊。
問題定義
給定一個有標籤的源網路  和一個無標籤的目標網路 。令  和  分別表示  和  的原始標籤空間,,其中示源網路的已知類別集合, 表示出現於目標網路而源網路未見的新類別集合。
將目標網路所有私有類別  表示為一個新的“未知”類別(即第 K+1 類),則可獲得一個新的目標網路標籤空間 
開放集跨網路節點分類的目的是學習一個最優分類器,使得:1)標籤屬於  中的目標網路節點,被分類到前 K 個已知類別中對應的一個,2)標籤屬於  中的目標網路節點,被識別為第 K+1 類(未知類別)。
定理 1:O-CNNC 目標網路對於 K+1 類的同質性。給定一個目標網路 ,其原始標籤空間為 ,其中,
假設存在一個對映 ,其中, 中的所有類別都被對映為一個新的類別,即第 K+1 類。如果  對於  具有同質性,那麼  對於  也應具有同質性。
論文提供了定理 1 的證明 [1]。根據定理 1,對於開放集跨網路節點分類中具有同質性的目標網路,無論節點屬於已知類別還是“未知”類別,都傾向於連線具有相同標籤的其他節點。
受此啟發,UAGA 採用一個圖神經網路編碼器和一個 k+1 維的節點分類器來聚合鄰居節點的資訊,從而聯合處理已知類別分類和未知類別檢測兩個任務。
方法
UAGA 的模型框架如圖 2 所示,採用一個先分離後域適應(Separate-Adapt)的訓練策略,先粗略分離已知類別和未知類別,再進行排除未知類別的對抗域對齊。
3.1 分離階段:粗糙分離已知類別和未知類別
在分離階段,UAGA 採用一個對抗學習框架,對抗訓練一個基於注意力機制的圖神經網路編碼器  和一個 K+1 維的鄰域聚合節點分類器 ,從而學習可粗糙分離已知類別和未知類別的決策邊界。UAGA 採用圖注意力網路(GAT)構造  來學習節點嵌入:
受啟發於定理 1,UAGA 採用一層的 GAT 構造一個 K+1 維的鄰域聚合節點分類器 ,自適應地從 K+1 維聚合來自鄰居的標籤預測資訊:
其中, 是節點  經過鄰域聚合之後的標籤預測機率向量。基於源網路已知類別的已知標籤資訊,定義節點分類損失 
最小化損失 ,可學習具有標籤鑑別性的節點嵌入來分離不同已知類別的節點。
在開放集跨網路節點分類問題中,我們還需檢測出目標網路中屬於未知類別的節點。受啟發於經典的開放集域適應方法 OSBP [4],UAGA 透過對抗訓練  和 ,學習粗糙分離已知類別和未知類別的決策邊界:
一方面,訓練 K+1 維的鄰域聚合節點分類器 ,讓每個目標網路節點  第 K+1 維的預測機率(即屬於未知類別的機率)儘可能等於 ,即 ,其中,
另一方面,透過以下兩種方式之一,訓練圖神經網路編碼器  以最大化鄰域聚合節點分類器  的錯誤率,即讓  儘可能不等於 :方式 1)讓  儘可能大於 ,從而把節點  分類為未知類別;或方式 2)讓  儘可能小於 ,從而把節點  分類為某種已知類別。
採用二元交叉熵損失定義未知類別識別損失 
 和  的對抗訓練透過最佳化以下目標來實現
其中, 和  是  和  的可學習的引數。為了同時更新  和 ,我們參照 OSBP [4] 插入一個梯度反轉層在反向傳播過程反轉梯度的符號。透過以上的對抗訓練, 可以學習一個粗糙分離已知類別和未知類別的決策邊界,而  將目標網路中的所有節點儘可能推離這個邊界。
3.2 域適應階段:排除未知類別的對抗域對齊
域適應階段旨在排除目標網路未知類別的前提下,將目標網路已知類別的分佈與源網路對齊。然而,由於跨網路節點分類問題中目標網路完全沒有標籤,我們無法知道目標網路中哪些節點屬於未知類別。因此,我們需先給目標網路中的節點分配偽標籤。
採用 K-means 聚類演算法將目標網路中的所有節點劃分為 K+1 個簇。其中,前 K 類對應於已知類別,第 k 個簇的初始質心定義為源網路中屬於第 k 種已知類別的節點嵌入的平均值,即
第 K+1 個簇對應於未知類別,由於源網路並未出現該類別,我們選出目標網路中未知類別預測機率最高的 R 個節點來構建偽未知類別節點集然後用  中所有節點嵌入的平均值來計算第 K+1 個簇的初始質心,即
給定所有 K+1 個簇的初始質心,目標網路中的每個節點會被分配到其最近質心對應的簇,相應地得到一個聚類標籤然而,僅僅使用聚類標籤可能會包含噪聲,因此,我們僅當目標網路中節點的聚類標籤和分類標籤預測結果完全一致時,才會為其分配偽標籤,如下:
此外,如果  中的節點沒有透過上述方式被分配偽標籤,則預設其偽標籤為未知類別。具有偽標籤的目標網路節點透過最佳化以下目標網路分類損失函式 ,以自訓練的方式迭代訓練  和 
最小化 ,可充分利用來自目標網路的潛在監督訊號,循序漸進地學習一個精確的邊界,來分離已知類別和未知類別的節點。
為有效解決開放集跨網路節點分類問題,對齊源網路和目標網路已知類別的分佈是至關重要的。然而,先前的分離階段所採用的 OSBP 方法 [4] 在對抗學習期間沒有直接利用域資訊 [5],因此無法顯式地減小不同網路中已知類別的分佈差異。
針對該問題,UAGA 參照傳統的閉集跨網路節點分類方法 [6],進一步引入一個域鑑別器  。 由一個多層感知機構造,以節點嵌入作為輸入,輸出  表示節點  來自目標網路的預測機率。域分類損失定義如下:
其中,如果節點  來自源網路,則 ;否則 
 和  透過最佳化以下目標函式,進行對抗訓練:
其中, 和  是用於權衡不同損失影響的超引數, 是  的可學習引數。為了同時更新所有可學習引數,可插入一個梯度反轉層,在反向傳播期間反轉梯度的符號並乘上域適應係數 
需要注意的是,在傳統的基於梯度反轉層的對抗域適應方法 [3] 中,對於不同域的所有樣本,域適應係數  總是設定為一個正數。然而,這樣的設定對於開放集跨網路節點分類任務是有問題的。
因為如果  對所有樣本都設定為一個正數,將會把目標網路中的所有節點都與源網路對齊,而沒有排除目標網路中未知類別的節點,進而導致模型對未知類別的識別能力不可避免地下降,出現負遷移。

為了解決該問題,UAGA 創新地提出為未知類別的節點分配負的域適應係數,為已知類別的節點分配正的域適應係數,如下:

一方面,為源網路的節點以及目標網路中屬於已知類別的節點分配正的域適應係數 ,類似於傳統的閉集對抗域適應方法, 和  透過對抗訓練,可為不同網路已知類別的節點學習具有網路不變性的節點嵌入。
另一方面,為目標網路中屬於未知類別的節點分配負的域適應係數 ,則會讓  和  往相同的方向訓練以同時最小化  ,從而使得目標網路中未知類別的節點嵌入與源網路已知類別的節點嵌入很容易區分開。
因此,UAGA 可以對齊不同網路已知類別的分佈,同時使得目標網路中屬於未知類別的節點遠離源網路,防止負遷移。
實驗
4.1 資料集
在開放集域適應問題中,開放性(openness)表示目標域私有類別的數量佔目標域原始類別的數量的比例 [7],即 。由於當前被廣泛使用的跨網路節點分類基準資料集 [2] 僅包含了 5 個節點類別,限制了對不同 openness 場景下開放集跨網路節點分類任務的評估。
針對此問題,該論文構建了新的面向開放集跨網路節點分類的基準資料集,已在 GitHub 分享(https://github.com/3480430977/UAGA),資料集的統計資訊如表 1 所示。基於 Citation-v1(C)、DBLP-v4(D)和 ACM-v8(A)3 個數據集,可構建不同 openness 下的 6 組開放集跨網路節點分類任務。
▲ 1:論文新構建的面向開放集跨網路節點分類的基準資料集的統計資訊
4.2   Baselines 
UAGA 與 9 個最先進的基線方法進行對比,包括:
  • 開放集域適應方法:OSBP [4],OMEGA [8]
  • 開放集節點分類方法: OODGAT [9],G2Pxy [10]
  • 閉集跨網路節點分類方法:UDAGCN [11],AdaGCN [12],SGDA [13]
  • 開放集跨網路節點分類方法:SDA [14],UDANE [15]
4.3   評價指標
論文采用 4 個評價指標對不同方法處理 O-CNNC 的效能進行評估,包括:
1)OS* 表示所有已知類別準確率的平均值;
2)OS 表示所有類別(即包含已知類別和未知類別)準確率的平均值;
3)HS 是例項級別的已知類別和未知類別準確率的調和平均值;
4)AUC 用於評估未知類別的檢測效能。
對於每組 O-CNNC 任務,論文對每種對比方法都進行了 5 次隨機初始化實驗,並彙報了 5 次實驗評價指標的平均值和標準差。
4.4   實驗結果
開放集跨網路節點分類在 openness=4/9 場景下的實驗結果,如表 2 所示。UAGA 在 6 組 O-CNNC 任務上的效能指標始終高於 SOTA 基線方法。UAGA 比 SOTA 的開放集跨網路節點分類方法提升顯著的原因包括:
1)學習節點嵌入,UDANE 和 SDA 採用 GCN,而 UAGA 採用 GAT。近期的開放集節點分類文獻 [9, 16] 已揭示,像 GAT 這樣基於注意力的模型比 GCN 具有更強的未知類別檢測能力。這是因為 GCN 在鄰域聚合過程中平等地對待所有的鄰居,而 GAT 自適應地給來自不同分佈的鄰居分配較小的權重。
2)為決定目標網路中某個節點屬於已知類別還是未知類別,UDANE 和 SDA 都採用一個(對已知類別進行預測的)K 維分類器加閾值的方式。然而,找到一個最優的閾值來分離已知類別和未知類別是非常困難且耗時的 [10]。不同於此,UAGA 透過新增一個額外的類別(即第 K+1 類)來表示未知類別,構造了一個 K+1 維的分類器,避免了閾值除錯。
▲ 表2:開放性 =4/9 場景下 6 組任務的開放集跨網路節點分類結果。
在不同 openness 下的開放集跨網路節點分類效能,如圖 3 所示。隨著開放性的增加,OS* 會上升而 AUC 會下降。這是因為更大的開放性,意味著更多的目標域私有類別和更少的源域已知類別,這自然使得已知類別的分類變得更加簡單,而未知類別的檢測變得更加困難。
此外,我們可以看到 UAGA 在不同開放性下 4 種評價指標的總體效能,始終優於所有基線方法。這反映了 UAGA 已知類別分類和未知類別檢測的效能,對於不同的開放性具有魯棒性。
論文采用 t-SNE 方法對不同方法學習的跨網路節點嵌入進行視覺化。如圖 4 所示,AdaGCN 為不同的已知類別形成了清晰的簇,然而難以識別未知類別(灰色)。OODGAT 難以對齊不同網路相同的已知類別。
UDANE 和 SDA 在一定程度上從已知類別中分離未知類別,然而,不同類別之間的邊界不夠清晰。UAGA 對已知類別和未知類別都生成了最好的視覺化,其中,已知類別的目標網路節點被正確地與源網路相應的已知類別對齊,而未知類別的節點(灰色)被顯著地分開。
▲ 圖3:不同 Openness 下任務 D→C 的開放集跨網路節點分類效能。
▲ 4:任務 C→A 的跨網路嵌入的視覺化。灰色代表未知類別,其他顏色代表不同的已知類別。
總結
論文研究了一個新穎的開放集跨網路節點分類(O-CNNC)問題,允許目標網路中包含源網路未見的新類別。為有效處理開放集跨網路節點分類問題,論文提出了一個先分離後域適應的 UAGA 框架。
首先,透過對抗訓練一個基於注意力機制的圖神經網路編碼器和一個 K+1 維的鄰域聚合節點分類器,初步構造一個粗稿分離已知類別和未知類別的決策邊界。
其次,不同於以往的跨網路節點分類方法直接匹配整個目標網路和源網路的分佈,論文提出排除未知類別的對抗域對齊,顯式地從跨網路分佈匹配中排除目標網路的未知類別。傳統的對抗域適應方法總是在梯度反轉層中為不同域的所有樣本分配正的域適應係數。
UAGA 創新地提出為屬於未知類別的節點分配負的域適應係數,為已知類別的節點分配正的域適應係數。
一方面,正的域適應係數,引導圖神經網路編碼器和域鑑別器進行對抗訓練,從而為不同網路已知類別的節點學習具有網路不變性的嵌入。
另一方面,負的域適應係數,引導圖神經網路編碼器和域鑑別器往相同的方向進行訓練,從而使得未知類別的節點嵌入很容易與已知類別的節點嵌入區分開。因此,UAGA 只會將目標網路中已知類別的節點與源網路對齊,同時讓目標網路中未知類別的節點遠離源網路,避免負遷移。
在多組資料集的豐富實驗結果表明,相比於 9 個最先進基線方法,論文提出 UAGA 模型在開放集跨網路節點分類的準確性上具有顯著的提升。
作者簡介
沈笑,香港理工大學博士和博士後,現任海南大學副教授,博士生導師。主持國家自然科學基金 2 項和省部級專案 2 項。多年來專注於圖域適應和跨網路分類相關研究,在該領域以唯一第一作者 / 唯一通訊作者發表多篇 CCF A 類和 SCI 大類一區 Top 論文,相關程式碼均在 Github 分享(https://github.com/shenxiaocam/GraphDomainAdaptation),歡迎各位學者交流合作!
參考文獻
[1] X. Shen, Z. Chen, S. Pan, S. Zhou, L. T. Yang, and X. Zhou, "Open-Set Cross-Network Node Classification via Unknown-Excluded Adversarial Graph Domain Alignment," in Proceedings of the AAAI Conference on Artificial Intelligence, 2025, pp. 20398-20408.
[2] X. Shen, Q. Dai, S. Mao, F.-l. Chung, and K.-S. Choi, "Network Together: Node Classification via Cross-network Deep Network Embedding," IEEE Transactions on Neural Networks and Learning Systems, vol. 32, no. 5, pp. 1935-1948, 2021.
[3] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, and V. Lempitsky, "Domain-adversarial Training of Neural Networks," Journal of Machine Learning Research, vol. 17, no. 1, pp. 2096-2030, 2016.
[4] K. Saito, S. Yamamoto, Y. Ushiku, and T. Harada, "Open Set Domain Adaptation by Backpropagation," in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 153-168.
[5] T. Shermin, G. Lu, S. W. Teng, M. Murshed, and F. Sohel, "Adversarial Network with Multiple Classifiers for Open Set Domain Adaptation," IEEE Transactions on Multimedia, vol. 23, pp. 2732-2744, 2020.
[6] X. Shen, Q. Dai, F.-l. Chung, W. Lu, and K.-S. Choi, "Adversarial Deep Network Embedding for Cross-network Node Classification," in Proceedings of the AAAI Conference on Artificial Intelligence, 2020, pp. 2991-2999.
[7] H. Liu, Z. Cao, M. Long, J. Wang, and Q. Yang, "Separate to Adapt: Open Set Domain Adaptation via Progressive Separation," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 2927-2936.
[8] J. Ru, J. Tian, C. Xiao, J. Li, and H. T. Shen, "Imbalanced Open Set Domain Adaptation via Moving-threshold Estimation and Gradual Alignment," IEEE Transactions on Multimedia, 2023.
[9] Y. Song and D. Wang, "Learning on Graphs with Out-of-Distribution Nodes," in Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 2022, pp. 1635-1645.
[10] Q. Zhang, Z. Shi, X. Zhang, X. Chen, P. Fournier-Viger, and S. Pan, "G2Pxy: Generative Open-set Node Classification on Graphs with Proxy Unknowns," in Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, 2023, pp. 4576-4583.
[11] M. Wu, S. Pan, C. Zhou, X. Chang, and X. Zhu, "Unsupervised Domain Adaptive Graph Convolutional Networks," in Proceedings of The Web Conference 2020, 2020, pp. 1457-1467.
[12] Q. Dai, X.-M. Wu, J. Xiao, X. Shen, and D. Wang, "Graph Transfer Learning via Adversarial Domain Adaptation with Graph Convolution," IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 5, pp. 4908-4922, 2023.
[13] Z. Qiao, X. Luo, M. Xiao, H. Dong, Y. Zhou, and H. Xiong, "Semi-supervised domain adaptation in graph transfer learning," in Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, 2023, pp. 2279-2287.
[14] Y. Wang, R. Zhu, P. Ji, and S. Li, "Open-Set Graph Domain Adaptation via Separate Domain Alignment," in Proceedings of the AAAI Conference on Artificial Intelligence, 2024, pp. 9142-9150.
[15] J. Chen, F. Dai, X. Gu, J. Zhou, B. Li, and W. Wang, "Universal Domain Adaptive Network Embedding for Node Classification," in Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 4022-4030.
[16] T. Huang, D. Wang, and Y. Fang, "End-to-end Open-set Semi-supervised Node Classification with Out-of-distribution Detection," in Proceedings of the International Joint Conference on Artificial Intelligence, 2022.
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章