ACMMM2025|EventVAD:7B引數免訓練,影片異常檢測新SOTA

來自北京大學,清華大學的研究團隊聯手京東(JD.com)在 ACM MM 2025 發表了一種以事件為中心低成本高效的 Training-Free 影片異常檢測框架 EventVAD,論文第一作者邵軼驊目前為北京大學學術訪問學生,專案負責人為來自京東(JD.com)的演算法研究員馬傲,目前程式碼和資料已全面開源。
現有影片異常檢測(Video Anomaly Detection, VAD)方法中,有監督方法依賴大量領域內訓練資料,對未見過的異常場景泛化能力薄弱;而無需訓練的方法雖藉助大語言模型(LLMs)的世界知識實現檢測,但存在細粒度視覺時序定位不足、事件理解不連貫、模型引數冗餘等問題。
為此,來自北大、清華和京東(JD.com)的研究團隊提出了一種全新的影片異常檢測框架 ——EventVAD。該框架透過動態圖架構與多模態大模型(MLLMs)的時序事件推理結合,在減少模型引數的同時,顯著提升了異常檢測的精度和效率。實驗結果顯示,EventVAD 在 UCF-Crime 和 XD-Violence 兩大資料集上均超越現有 SOTA 方法,成為無需訓練場景下的新標杆。
  • 論文標題:EventVAD: Training-Free Event-Aware Video Anomaly Detection
  • 論文連結:https://arxiv.org/abs/2504.13092
  • 程式碼開源:https://github.com/YihuaJerry/EventVAD
研究背景和動機
影片異常檢測(VAD)的核心目標是精準定位影片中的異常幀,但現有方法存在顯著侷限:
有監督方法依賴大量標註資料,在新場景中需重新微調,泛化能力差;即使是單類監督或無監督方法,也因缺乏有效標籤難以達到理想效能。無需訓練方法以 LAVAD 為代表的方法透過視覺問答模型和 LLMs 評分實現異常定位,但存在兩大問題:一是依賴至少 130 億引數的 LLM,導致框架效率低下;二是缺乏對影片的時序理解能力,難以連貫解析長影片,易出現誤檢和長尾問題。
研究團隊發現,無需訓練方法的核心瓶頸在於無法對影片中的異常事件進行完整定位,導致後續 LLM 評分存在偏差。受此啟發,如上圖所示,EventVAD 透過將長影片分割為短事件片段,增強 MLLMs 對影片的時序一致性理解,同時引入動態圖模型捕捉幀間關聯,最終在減少引數的情況下實現了更高精度的異常檢測。
EventVAD 的關鍵創新

EventVAD 的整體框架包含四個核心模組:事件感知動態圖構建、圖注意力傳播、統計邊界檢測和事件中心異常評分。透過這一流程,實現了從影片幀特徵提取到異常幀精準定位的端到端無需訓練檢測。
事件感知動態圖構建
為捕捉影片的動態時序特徵,EventVAD 構建了融合語義與運動資訊的動態圖模型。結合 CLIP 的語義特徵(512 維)和 RAFT 光流的運動特徵(128 維),透過融合係數(α=0.75)平衡兩種特徵,增強事件的時序一致性。透過語義相似度(餘弦距離)和運動相似度(指數距離)計算幀間關聯,並引入時間衰減因子(γ)抑制長距離幀的冗餘關聯,突出短時間內的事件連貫性。
圖注意力傳播
為最佳化幀級特徵並保持時序一致性,EventVAD 設計了基於正交約束的圖注意力機制。透過 QR 分解生成正交的查詢(Q)、鍵(K)、值(V)矩陣,避免特徵維度坍縮。基於動態圖的鄰接矩陣計算注意力權重,透過迭代傳播更新節點特徵,增強事件邊界的區分度。
統計邊界檢測
為精準分割影片中的事件邊界,EventVAD 採用了噪聲魯棒的統計方法。複合差異度量中,結合 L2 範數(特徵幅度跳變)和餘弦距離(方向變化),捕捉事件轉換的不連續性。透過 Savitzky-Golay 濾波平滑噪聲,計算訊號比(區域性與全域性均值比),並基於中位數絕對偏差(MAD)設定動態閾值,實現無監督的事件邊界檢測。
事件中心異常評分
為提升 MLLMs 對影片的理解效率,EventVAD 提出分層提示策略。將分割後的事件片段輸入 MLLMs,先生成影片內容描述,再基於描述輸出異常評分,形成 “自校正” 機制。相比傳統幀級分析或全域性處理,事件級分析平衡了上下文完整性與特徵精細度,減少長影片分析中的誤差傳播。
實驗驗證
研究團隊在 UCF-Crime 和 XD-Violence 兩大基準資料集上對 EventVAD 進行了全面評估,結果顯示其效能顯著優於現有方法。
UCF-Crime 資料集上的結果
EventVAD 以 70 億引數實現了 82.03% 的 AUC,超越需 130 億引數的 LAVAD(提升近 4%),同時優於所有無監督、單類監督方法,甚至超過部分弱監督方法。
XD-Violence 資料集上的結果
使用 XD-Violence 資料集的結果中,在 AP 和 AUC 指標上均比現有無需訓練的 SOTA 方法(LAVAD)高出約 5%,驗證了其在高解析度場景下的適應性。
視覺化分析
圖注意力傳播視覺化分析如下圖,選取 UCF-Crime 資料集中的異常和正常影片樣本,對應用圖注意力傳播前後的幀間關係進行視覺化。熱力圖展示了相應幀區間內幀與幀之間權重關係的變化。
統計邊界檢測視覺化分析如下圖,以 UCF-Crime 資料集中的樣本為例,對異常影片和正常影片的邊界檢測過程進行視覺化。
消融實驗
UCF-Crime 和 XD-Violence 資料集中正常樣本與異常樣本的視覺化。對 LAVAD 未能正確檢測出異常的樣本進行了視覺化,下圖展示了事件分割結果以及多模態大語言模型(MLLM)的異常幀評分,並與真實標籤進行了對比。
總結與展望
EventVAD 作為首個以事件為中心的免訓練影片異常檢測模型,將推動領域從幀級標註到完整事件級標註的演進。它提供了完整的特徵增強,事件劃分,異常評分的免真值異常檢測基礎,極大減少了人工標註的成本和重新訓練的開銷。未來,隨著影片理解模型的星期,EventVAD 這類以事件為中心的影片異常檢測正規化將為影片細粒度理解提供基礎。期待基於 EventVAD 湧現更多創新的演算法,加速影片幀級異常檢測的發展。

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章