ICML2025|重新整理無監督異常檢測上限!CostFilter-AD:首個即插即用的代價濾波用於異常檢測正規化

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:極市平臺

導讀

東北大學、Meta和英國薩里大學聯合提出CostFilter-AD,首次引入“匹配代價濾波”正規化用於無監督異常檢測,透過構建匹配代價體並濾波最佳化,顯著提升檢測精度與邊界清晰度,且作為通用外掛適配主流檢測框架,為工業質檢等場景帶來更智慧可靠的解決方案。

ICML 2025 · 多類UAD · 匹配代價體 · Plug-in外掛 · 工業視覺 · 通用輕量
本文第一作者為東北大學博士生張哲,導師為中國工程院院士柴天佑教授。該工作由東北大學、Meta 和英國薩里大學合作完成,通訊作者為吳高昌副教授(東北大學)與朱霞天副教授(薩里大學)。
論文標題:CostFilter-AD: Enhancing Anomaly Detection through Matching Cost Filtering
GitHub地址:https://github.com/ZHE-SAPI/CostFilter-AD
Slide:https://github.com/ZHE-SAPI/CostFilter-AD/blob/main/Materials/CostFilter-AD_slide_ICML2025.pdf
ICML 主頁:https://icml.cc/virtual/2025/poster/46359

一、Lay Summary

你是否想過,工廠是如何在很多種不同產品中,精準識別出淺淺的劃痕、缺失的元件,甚至是幾乎察覺不到的微小缺陷?這遠比“影像識別”要複雜。當前許多 AI 系統依賴於將待測影像與正常樣本進行匹配來判斷異常,但這一過程極易受到噪聲干擾,尤其在處理模糊、低對比或結構細微的缺陷時,常常出現誤報與漏檢。
在 ICML 2025 接收論文中,來自東北大學、Meta 和英國薩里大學的研究者聯合提出 CostFilter-AD,首次將“匹配代價體濾波”系統性引入無監督異常檢測(UAD)。與其說關注“學得更好”,CostFilter-AD 更關注“比得更準”。它構建一個異常代價體來全域性表徵影像與正常模板之間的匹配成本,並透過濾波機制清除噪聲、增強邊界,使得微小異常也難以遁形。
更重要的是,CostFilter-AD 無需真實缺陷樣本參與訓練,僅依賴正常樣本就能精準檢測各類未知異常,具備強泛化能力與部署適應性。作為一個通用外掛式模組,它能無縫整合到現有檢測方法中,有效提升檢測精度與邊界清晰度,為工業質檢帶來更智慧、更可靠的解決方案。

二、任務背景與挑戰

在工業質檢、安防監控、醫療影像等場景中,無監督異常檢測(Unsupervised Anomaly Detection, UAD)日益成為核心技術之一。由於現實世界中異常樣本稀少、型別多樣、標註昂貴,UAD 憑藉“僅用正常樣本訓練”的能力,在工業界獲得了廣泛關注。
但一個悄然被忽視的難題也在同步放大:當前最先進的檢測模型,無論是基於影像重建的 Diffusion/UNet/ViT,還是基於特徵對比的 DINO/ViT,在生成異常圖(anomaly map)時幾乎都隱含了一個過程:匹配(matching)。而這個看似“簡單”的操作,常常掩蓋了檢測失敗的根源。匹配過程中的噪聲,可能是真正導致誤檢與漏檢的幕後黑手。

圖 1. 多類別無監督異常檢測(UAD)結果對比。
我們展示了影像級與畫素級 logits 的視覺化結果及其核密度估計曲線(Parzen,1962)。其中,基線方法的結果以黃色標示,我們的方法以綠色標示。相比之下,我們的模型在檢測異常時噪聲更少,且在正常與異常 logits 之間提供了更清晰的區分,表現更加優越。

三、我們的方法突破口在哪裡?

動機分析:不是模型不夠強,而是“匹配得不夠準”。
目前主流 UAD 方法大致分為兩類:
  1. 重建式方法:將輸入影像還原成“正常版本”,異常區域將表現為高殘差;
  2. 嵌入式方法:將輸入影像投影到特徵空間,與正常樣本進行相似性匹配。
兩類方法雖然形式不同,但在最後生成 anomaly heat map時,本質都要完成一種“輸入 vs 正常樣本”的匹配。
問題在於:現實中的匹配從不完美。
  1. 重建式方法中,Diffusion 等模型可能會錯誤保留異常結構(e.g. short cut issue),形成“偽正常”影像;
  2. 嵌入式方法中,基於預訓練特徵(如ViT、DINO)提取的嵌入往往存在尺度、視角、紋理的偏差,使得相似性計算被高維噪聲干擾。
然而,這些 “匹配噪聲” 長期被忽視,異常檢測系統只能被動接受“殘差”或“相似性”分數,而非從源頭最佳化其可靠性。

四、CostFilter-AD:首提“匹配代價體濾波”正規化

為解決這一核心難題,我們提出一種全新視角:
異常檢測 = 匹配代價體構建 + 濾波最佳化 + anomaly map生成,具體步驟為:
  1. 構建完整的匹配代價體(Cost Volume),顯式表徵“輸入圖 vs 正常樣本”之間的多維匹配關係;
  2. 引入一個基於雙流注意力(Dual Stream Attention)的3D U-Net網路,對代價體進行細粒度濾波;
  3. 輸出結構清晰的 anomaly heat map,作為最終異常檢測分割圖。

圖 2. CostFilter-AD 方法概覽。
我們將無監督異常檢測(UAD)重新表述為一個“匹配代價濾波”過程。(i) 首先,利用預訓練編碼器從輸入影像和模板影像中提取特徵,模板可以是重建得到的正常影像,或隨機選擇的正常樣本;(ii) 接著,基於全域性相似性計算構建異常代價體(anomaly cost volume);(iii) 然後,設計一個代價體濾波網路,結合從輸入特徵和初始異常圖中提取的注意力查詢資訊,對代價體進行細化,生成最終檢測結果;(iv) 最後,引入類別感知介面卡,以應對類別不平衡問題,並提升模型對多類異常的同時檢測能力。
方法亮點:
  1. 機制創新:首次引入“匹配代價體 + 濾波”到UAD領域;
  2. 即插即用:不需改動原模型架構,適配所有主流檢測器;
  3. 效能顯著提升:Image-AUROC & Pixel-AUROC等七種異常檢測指標全面增長;
  4. 泛化增強:處理模糊邊界、小尺寸異常亦很有效。

五、方法細節拆解:不是再造大模型,而是細化匹配過程

CostFilter-AD包括以下三個關鍵階段:

1.構建匹配代價體(Matching Cost Volume)

我們不再僅僅計算一對影像之間的單一匹配值,而是:
(a) 對輸入影像與多個正常模板影像進行全域性畫素級匹配;
(b)在每個特徵層上計算餘弦相似度,得到三維代價體(空間維度 × 匹配維度 × 通道);
(c)轉換為 anomaly cost(1 − similarity),形成全域性異常熱圖。
與常見的最近鄰匹配KNN不同,CostFilter-AD 捕獲了多模板、多尺度、多位置之間的結構性匹配模式。

2.匹配代價體濾波(Cost Volume Filtering)

匹配代價體矩陣雖然得到,但其中依然混有大量“誤判”:正常邊緣誤認為異常(或相反)、異常細節被模糊覆蓋等。為此我們引入一個具備Dual-Stream Attention機制的3D U-Net網路,對代價體進行去噪與增強:
(a) 通道引導(MG):使用初始 anomaly 熱圖引導模型關注更可能為異常的通道區域;
(b) 空間引導(SG):使用輸入圖特徵作為空間注意力,引導模型保留邊界結構;
(c) 殘差引導機制(RCSA):融合上述注意力流,逐層最佳化代價體表示。
經過濾波後,輸出 anomaly map 的分佈更集中、邊界更清晰。

3.類別自適應損失與泛化機制

為適配多類工業檢測任務,我們設計了Class-Aware Adapter:
(a)利用 soft logit 調整 focal loss 的聚焦因子,自適應平衡易錯類別;
(b)最佳化結構損失(SSIM + soft IoU),增強檢測的結構一致性。
這讓 CostFilter-AD 在單模型處理多類 anomaly時保持高效與準確。

六、實驗驗證:四大資料集、五個最新baseline、七種異常檢測指標全面重新整理

CostFilter-AD 被整合至五大主流 UAD 框架中:
  • GLAD(Reconstruction-based Diffusion, ECCV’24);
  • HVQ-Trans(Reconstruction-based Transformer, NeurIPS’23);
  • AnomalDino(Embedding-based Dinov2, WACV’25);
  • UniAD(Embedding-based Transformer, NeurIPS’22);
  • Dinomaly(Reconstruction-based Transformer, CVPR’25).
我們在 MVTec-AD、VisA、MPDD、BTAD 四個工業資料集上進行畫素級和影像級別異常檢測。

(a) 定量結果:

更多測試指標請參考論文附錄。

(b)視覺化結果:邊界更清晰,baseline漏檢區域被成功檢測;

圖 3. 多類別異常定位的定性對比。
我們將本文方法與 GLAD(G)、HVQ-Trans(H)和 AnomalDF(A)在 MVTec-AD(上三行)和 VisA(下三行)資料集上的結果進行對比。透過整合至現有方法中,我們的方法能夠有效緩解匹配噪聲問題(例如:PCB2 中的漏檢、Pill 中的誤檢,以及 Carpet 中的模糊邊界),顯著提升異常檢測效能。

(c) 記憶體&推理:平均僅提升視訊記憶體和延時較小,有助於實際可部署

七、即插即用,輕量部署,工業友好

CostFilter-AD 是一款即插即用(plug-and-play)的異常檢測增強模組:
(a)支援多種輸入模板:重建圖、特徵模板、混合中間表示;
(b)相容主流模型:ViT-B/8、EfficientNet-B4、DINO、Diffusion 全部適配;
(c)部署無壓力:可部署於工業邊緣裝置、伺服器或API服務端。

八、方法總結:從匹配修正出發,重塑異常檢測核心正規化

CostFilter-AD 的核心理念在於重塑 anomaly map/score 的生成方式:
異常檢測的難點,不僅在於是否能還原/嵌入得好,更在於是否“比”得準確。
透過構建代價體並對其進行濾波最佳化,我們重新定義了異常分數的構成邏輯:不是誰更像,而是“匹配結果如何更可信”。
這一思路不僅適用於影像異常檢測,或許還可遷移至:
(a) 時序異常檢測(e.g. 預測軌跡 vs 實際軌跡的匹配代價);
(b)視覺異常追蹤(匹配掩碼 vs 模板結構);
(c) RL狀態匹配估計(當前狀態 vs 高獎勵狀態的策略匹配)等場景。
歡迎關注團隊主頁、程式碼倉庫,或聯絡作者學術交流!

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ICCV 2025 論文和程式碼下載

在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章