WWW2025|即插即用、輕鬆漲點!用不確定性助力圖結構學習,提升GNN效能

©PaperWeekly 原創 · 作者 | 韓申
單位 | 浙江大學
研究方向 | 圖資料探勘
論文題目:
Uncertainty-Aware Graph Structure Learning
論文地址:
https://arxiv.org/abs/2502.12618

動機

圖神經網路(GNN)在處理圖結構資料上具有卓越的效果。隨著模型架構的不斷演變,GNN 的效能也在不斷提升。然而這些基於模型架構的方法忽視了圖結構自身存在的缺陷。例如,圖結構常常會出現錯誤邊和缺失邊等資料問題,從而限制模型的效果。
為了解決上述問題,圖結構學習演算法(GSL)近年來備受關注。GSL 的目的在於最佳化結點連線和邊權重來生成新的鄰接矩陣,該矩陣可以有效提升 GNN 在下游任務中的準確性,同時強化圖資料應對各種攻擊的魯棒性。主流的 GSL 模型透過計算結點之間的嵌入相似度來構建新的鄰接矩陣:
其中 是結點的嵌入矩陣, 是度量函式,如 cosine 相似度等。基於相似度的 GSL 模型通常能夠霸榜各種圖資料集 benchmark,其本質在於提高圖的同質性,使得具有相同標籤的結點連線的機率增大。但是,基於相似度的 GSL 模型存在兩個致命缺陷:
1. 建立連線時只依賴嵌入相似度而忽略了結點的資訊質量。
在 GNN 中,邊是資訊傳播的渠道。從鄰居結點接收模糊劣質的資訊會干擾目標結點的嵌入學習。為了驗證這一觀點,我們首先使用了一種代表性的 GSL 模型生成鄰接矩陣,然後移除了一定比例的高資訊熵鄰居結點。實驗發現該措施可以顯著提升 GNN 的效能。
2. 圖結構的對稱性限制了 GNN 捕捉複雜關係的能力。
當前的 GSL 模型強制約束結點之間構建對稱連線。這意味著在資訊聚合時,兩個結點之間的相互影響是相同的。但實際上結點之間的資訊質量存在著差異。直觀上,高質量結點能夠提供有益的資訊,而低質量節點反而會輸出劣質的資訊。對稱性結構無法應對這種資訊質量差異,因此需要評估結點的資訊質量來構建非對稱結構。
方法
2.1 分析鄰居結點不確定性的影響
在本文中,我們使用不確定性(資訊熵)來衡量結點的資訊質量。我們首先透過實驗論證:聚合高熵鄰居的資訊會導致目標結點的熵增大。

具體來說,我們在給定的資料集上訓練單層 GCN 和線性分類器,並可視化了目標結點的資訊熵以及鄰居在聚合前的平均熵。

如圖所示,我們觀察到:結點的資訊熵與鄰居聚合之前的平均熵存在強正相關。這一發現表明:盲目地連線和聚合來自高熵結點的資訊可能會汙染目標結點自身的嵌入向量。因此,我們需要在圖結構學習中考慮結點的不確定性,以學習合理的非對稱結構。
我們也從理論角度證明從高熵結點聚合資訊會提高目標結點的資訊熵下界,感興趣的同學可以看原文。
2.2 將結點不確定性融入圖結構學習中
我們提出UnGSL(Uncertainty-aware Graph Structure Learning),一種可以無縫整合至現有 GSL 模型的輕量級外掛。該方法利用可學習的結點閾值來自適應區分低熵鄰居和高熵鄰居,並根據它們的熵等級調整邊權重。這種方法不僅提高了圖結構的靈活性,還能有效過濾掉低質量的結點資訊。
如何使用 UnGSL 呢?首先,預訓練給定的 GSL 模型來獲得分類器,並計算結點的熵,將其轉化為 0 到 1 之間的置信度分數。
隨後,UnGSL 為每個結點設定可學習的閾值,並重新訓練 GSL 模型。在訓練中,UnGSL 增強來自高置信度鄰居的邊權重,同時降低來自低置信度鄰居的邊權重。總之,我們將現有 GSL 中鄰接矩陣的生成從前文的公式(4)最佳化為公式(10):
其中 是鄰居   的資訊熵, 是結點 的可學習閾值, 是原 GSL 模型生成的鄰接矩陣。 是啟用函式:
其中, 是 Sigmoid 函式, 是控制強化高置信度鄰居邊權重的超引數, 是控制弱化低置信度鄰居邊權重的超引數。注意在訓練時,UnGSL 採用和原 GSL 模型一致的損失函式和訓練步驟。只不過我們將鄰接矩陣從 替換為 。因此,UnGSL 可以與現有的 GSL 模型無縫銜接,同時僅帶來微量的計算開銷。
2.3 UnGSL的優勢
即插即用:UnGSL 利用結點的不確定性來最佳化學習到的鄰接矩陣 。本質上,UnGSL 只是將鄰接矩陣的計算從公式(4)替換為公式(10)。因此,UnGSL 可以無縫整合到現有的 GSL 方法中,進一步提升它們的圖學習能力。
輕量級:UnGSL 僅包含 n 個可學習引數,只最佳化給定圖的現有邊,而不生成新的邊。UnGSL 引入的額外運算的複雜度為*O(n+m)*,其中 nm 分別表示圖中的結點和邊的數量。因此,UnGSL 對原 GSL 模型施加的計算成本較小,使得 UnGSL 可以高效率的提升模型效能。
適用於無監督學習場景:儘管絕大多數 GSL 方法採用有監督學習,但我們的方法可以推廣到無監督的 GSL 模型。關鍵在於確定適合無監督 GSL 模型的不確定性指標。我們建議採用結點對比學習損失作為不確定性指標,具體可以表示為:
其中 是 cosine 相似度函式, 分別是結點 在原圖和擴充圖上的嵌入。結點對比損失可以衡量結點嵌入對特徵或結構擾動的不變性,這種不變性可以被解釋為結點相對於其原始特徵和結構的不確定性。

實驗

為了綜合評估 UnGSL 在精度、魯棒性、效率方面的效能,我們將 UnGSL 策略運用在 6 個先進的 GSL 模型,並在 7 個數據集上進行實驗驗證,結果如下:
  • 準確性(Table 1):UnGSL 全面優於基礎 GSL 模型,平均精度提升為 2.07%。尤其在 GRCN 模型上的提升達到了 5.12%。
  • 魯棒性(Table 2):分別引入結構化噪聲、特徵噪聲和標籤噪聲進行測試,UnGSL 可以持續的提升 GSL 模型的精度。且隨著噪聲強度的增加,UnGSL 可以實現更大的相對提升,證明了 UnGSL 對於不同噪聲的魯棒性。
  • 效率(Table3):對比原 GSL 模型和 UnGSL + GSL 模型在大尺寸資料集 OGBN-Arxiv 上的效率,UnGSL 僅增加了 8.71% 的收斂時間和 2.97% 的 GPU 空間。

總結

我們進行了理論和實驗分析,證明高熵鄰居對目標結點的嵌入學習存在負面作用。在此基礎上,我們提出了 UnGSL 策略,這是一種輕量級的外掛模組,可以與最先進的 GSL 模型無縫整合,並以較小額外計算開銷提升效能。UnGSL旨在最佳化結點閾值,以區分低不確定性和高不確定性鄰居,並根據每個節點的置信度等級自適應地最佳化圖結構。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章