
本文由南方科技大學、騰訊優圖實驗室、阿爾伯塔大學、上海交通大學合作完成,已被 ICLR 2025 會議接收。完整論文、資料和程式碼均已開源。

論文標題:
MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection
論文地址:
https://openreview.net/forum?id=JDiER86r8v
程式碼地址:
https://github.com/jam-cc/MMAD
Huggingface地址:
https://huggingface.co/datasets/jiang-cc/MMAD

引言:讓 AI 為工業生產力注入新動能
近年來,隨著深度學習技術的飛速發展,多模態大語言模型(MLLMs)在多個領域展現了卓越的能力。從生成高質量文字到處理複雜的數學推理,從棋類博弈到影片生成,這些模型不僅超越了人類的表現,還不斷拓展著人工智慧的應用邊界。
然而,一個有趣的現象是,AI 的發展似乎率先在“高價值勞動”領域嶄露頭角,而在許多基礎性、重複性的工作中卻鮮有系統性探索。事實上,工業場景中的許多工——例如異常檢測——就屬於這種基礎但至關重要的工作。
想象一下,一個工廠質檢員每天需要檢查成千上萬的產品,找出微小的缺陷或異常。這是一項既繁瑣又要求極高的工作,通常依賴大量人力完成。如果能夠用 AI 替代這種重複性強且耗時的任務,不僅可以顯著提高效率,還能讓人類員工專注於更具創造性和戰略性的工作。
那麼,當前最先進的多模態大模型是否已經具備這樣的能力呢?為了回答這個問題,我們提出了 MMAD(MLLM benchmark in industrial Anomaly Detection)——首個針對工業異常檢測的多模態大模型基準測試。
透過這項研究,我們發現了一些有趣的現象,探明瞭現有模型在工業異常檢測中的表現,同時也揭示了這些模型在工業場景中的侷限性。

傳統檢測方法為何在 AI 時代“水土不服”?
痛點1:死記硬背的“書呆子”
傳統 AI 質檢模型就像只會做模擬題的學生:
-
訓練時見過 10 種劃痕/物品 → 遇到第 11 種直接“懵圈”
-
產線調整產品型號 → 必須重新收集資料訓練
-
只能輸出“合格/不合格” → 無法解釋缺陷成因
痛點2:資訊傳遞的“聾啞症”
現有系統存在嚴重的資訊斷層:

而人類質檢員的核心價值,正在於能完成"看到劃痕 → 判斷型別 → 推測工藝問題 → 指導產線調整"的完整認知鏈條。
而 MLLM 的通用性和靈活性,能夠透過語言和視覺的結合,提供多維度的資訊支援,進而幫助模型進行更準確的異常檢測與判斷,彌補傳統檢測方法在面對新產品或複雜缺陷時的侷限性。這使得 MLLM 有潛力為工業異常檢測帶來新的工作方式和思維方式。

MMAD 基準:如何設計更貼近實際的測試?
與傳統異常檢測任務相比,AI 工業質檢的特殊性在於,它不僅需要識別異常,還需要對缺陷進行分類、定位、分析,甚至推斷其對產品的影響。這就像讓一個質檢員不僅要“看出”零件表面的劃痕,還要判斷劃痕的嚴重程度、可能的成因,並給出解決方案。
為了全面評估 MLLMs 的工業質檢能力,我們設計了覆蓋 7 大核心子任務的測評體系:
-
異常判別(如“這張圖是否有缺陷?”)
-
缺陷分類(如“缺陷型別是裂紋還是汙漬?”)
-
缺陷定位(如“缺陷位於產品哪個區域?”)
-
缺陷描述(如“缺陷的顏色和形狀如何?”)
-
缺陷分析(如“此缺陷會導致產品失效嗎?”)
-
產品分類(如“這是哪個型號的工業零件?”)
-
產品分析(如“此零件的功能是什麼?”)

▲ MMAD 的 7 大子任務示例
注:每個問題均為選擇題形式,包含干擾項以測試模型抗干擾能力
此外,我們還採用了多種測試設定(如 1-shot、1-shot+ 等),以模擬真實工業環境中的不同場景。例如,在 1-shot+ 設定中,模型可以參考一張最相似的正常圖片作為模板,從而讓 MLLM 更好地理解正常樣本應該有的狀態。

資料構建:當GPT-4V化身“虛擬質檢專家”
傳統工業資料集僅有影像和類別標籤,缺乏豐富的語義標註。為此,我們設計了一套創新的資料生成流程:
-
視覺提示增強:用紅色標註異常區域,並提供正常影像作為對比模板
-
語義知識注入:結合產品類別、缺陷位置描述等先驗知識
-
多輪問答生成:透過 GPT-4V 生成覆蓋 7 個子任務的多樣化問題
-
人工核驗過濾:26 人團隊耗時 200+ 小時確保資料可靠性
最終構建的 MMAD 資料集包含 8,366張工業影像,涵蓋 38 類產品和 244 種缺陷型別,生成 39,672 道多選問題,形成了工業領域最全面的 MLLM 能力測評基準。

▲(左)MMAD 資料集的資料資訊,涵蓋了 7 個關鍵子任務和 38 個代表性 IAD 類別。(右)效能雷達圖,表現最好的 GPT-4o 也在異常相關的問題上與人類有較大差距。

實驗結果:GPT-4o僅得74.9%,人類專家優勢顯著
我們對包括 GPT-4o、Gemini 1.5 系列、LLaVA-NeXT 等在內的十餘個 SOTA 模型進行了系統評測,發現:
關鍵發現1:商業模型領先,但未達工業標準
-
GPT-4o 以 74.9% 平均準確率位居榜首,但在缺陷定位任務中僅 55.6%
-
開源模型 InternVL2-76B 以 70.8% 緊隨其後,展現驚人潛力
-
專為工業設計的 AnomalyGPT 表現最差(36.5%),暴露過擬合問題
關鍵發現2:人類專家仍具壓倒性優勢
-
普通人類平均問答準確率 78.7%,專家級達 86.7% -
在異常判別任務中,人類專家準確率 95.2%,遠超 GPT-4o 的 68.63%

▲ 不同模型在各子任務上的表現對比
關鍵發現3:多圖理解能力成短板
當提供檢索後的正常影像作為參考模板時:
-
商業模型 Gemini 1.5 Flash 準確率提升 3.8%
-
多數開源模型反而出現效能下降,暴露多圖對比能力不足

▲(左)隨著模型尺度的增大,模型效果明顯提升。(右)當前模型無法利用更多的參考樣本來進一步提升效能。

提升策略:如何讓MLLMs更“懂”工業?
儘管現有模型在 MMAD 基準測試中的表現不盡如人意,但我們發現了兩種零訓練增強方案,可以幫助模型更好地適應工業場景:
6.1 檢索增強生成(RAG)
-
原理:構建工業知識庫,即時檢索相關領域知識注入提示詞
-
效果:模型在大部分任務中平均準確率提升 5-6%,在瑕疵分類等任務中準確率最高提升 20%。

▲ RAG 對模型效能的提升效果
6.2 專家模型協作(Agent)
-
原理:將傳統異常檢測模型的輸出(如熱力圖)視覺化後輸入 MLLM -
發現:使用真實標註作為專家輸入時,缺陷定位準確率提升 28% -
侷限:現有檢測模型的誤報會拖累 MLLM 表現

▲ 兩種零訓練增強方案

核心分析:MLLMs的“短板”與潛力
透過深入分析,我們發現了 MLLMs 難以勝任工業場景有以下幾個主要原因:
1. 缺乏質檢知識:MLLMs 在訓練過程中很少接觸到工業質檢領域的專業知識,導致它們對特定產品的缺陷型別和異常模式理解不足。
2. 細粒度影像理解能力有限:工業異常檢測通常需要模型能夠精準定位缺陷位置並感知其特徵,而現有模型在這方面的能力較弱。
3. 多影像比較能力不足:在實際生產線上,質檢員經常需要透過對比多個影像來判斷是否存在異常,但大多數 MLLMs 尚未經過相關訓練。
但是,MLLMs 也在幾個方面中展現出潛力:
1. 豐富的物品知識:MLLMs 如 GPT-4o 具備廣泛的物品和行業知識,能迅速識別複雜物體並判斷是否符合標準,特別在物體分類任務中表現優越。
2. 透過文字或視覺提示改進檢測效果:透過適當的文字提示或參考影像,MLLMs 能夠提升異常檢測和分類的準確性,尤其在使用檢索增強生成(RAG)和模板影像對比時,模型表現更好。

▲ 測評樣例1:人類能夠迅速識別缺陷,而模型則關注元件數量,容易出現錯覺,特別在缺陷較小或物體複雜時。

▲ 測評樣例2:GPT-4o 具有廣泛的知識,能分析物體資訊,而普通人可能無法識別某些專業細節,如 BAT+ 和 BAT-。

未來展望:工業AI質檢的無限可能
儘管目前的 MLLMs 在工業異常檢測中存在諸多不足,但我們的研究表明,它們仍然具有巨大的潛力。未來的研究可以從以下幾個方向展開:
1. 大規模工業資料集的構建:為模型提供更多高質量的工業資料,幫助其學習特定領域的知識。
2. 多影像理解能力的提升:開發專門針對多影像輸入的訓練方法,增強模型的對比分析能力。
3. 跨模態知識融合:探索如何將文字、影像和其他模態的資訊更好地結合起來,提高模型的綜合推理能力。

總結
透過 MMAD 基準測試,我們首次系統地評估了多模態大模型在工業異常檢測中的表現。雖然現有模型的表現尚不完美,但它們展現出的強大潛力令人期待。未來,隨著更多研究的推進和技術的進步,相信多模態大模型將在工業場景中發揮更大的作用。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
