ICCV2025|破解安防行為識別困局:從“找誰”到“在幹嘛”,帶來智慧守護新可能

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | PaperWeekly
安防攝像頭遍佈大街小巷,但當有人突然摔倒、遭遇襲擊,或在公共場所做出危險舉動時,現有系統卻常常“視而不見”? 
問題核心在於:當前基於文字的行人檢索技術,像個只會認“走路”和“站立”的“臉盲”——它擅長找特定的人,卻對異常行為本身束手無策。
想象一下:老人不慎跌倒、孩童走失驚慌奔跑、突發衝突有人被推搡··· 這些關鍵瞬間的識別與報警,正是城市安防的“最後一公里”痛點。現有技術對此力不從心,急需能理解行為語義的智慧安防。
西安交通大學、合肥工業大學、澳門大學的研究團隊,在 ICCV 2025 上提出從資料收集到跨模態建模全流程方案。論文、程式碼、資料集已開源!立即探索未來安防新正規化:
論文標題:
Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search
論文連結:
https://arxiv.org/abs/2411.17776
資料集 & 程式碼:
https://github.com/Shuyu-XJTU/CMP

新任務:基於文字的「行人異常檢索」

▲  新任務——基於文字的行人異常檢索(右)與傳統的基於文字的行人檢索(左)的比較。
  • 不止找人,更要識“事”!輸入“一名穿紅衣的男子突然摔倒”或“穿校服的學生被腳踏車撞倒”,系統能精準定位安防畫面中符合該異常描述的行人及行為
  • 徹底突破傳統檢索僅關注“誰在走”的侷限,直擊“發生了什麼異常”的核心需求。
百萬級圖文基準:「行人異常行為資料集(PAB)」釋出!
▲ PAB 與現有基於文字的行人檢索和影片異常檢測資料集在資料質量和數量方面的綜合比較
  • 規模空前:包含超 101 萬張高質量合成訓練影像 + 1978 張真實世界測試影像,構建百萬級圖文對!
  • 覆蓋廣泛:囊括跑步、表演、踢足球等常規動作,更重點覆蓋躺臥、被撞擊、摔倒等關鍵異常行為。
  • 真實可靠:測試集源於真實世界影片,經過關鍵點檢測、影像相似度過濾、專家人工核驗三重嚴格把關。
  • 低成本高效:創新結合 AI 生成影像(擴散模型)+ 大模型自動描述(Qwen2-VL)+ 專家修正,解決異常資料稀缺與標註成本高昂難題。
▲ 不同任務的資料集屬性(左)與PAB資料集示例(右)
「火眼金睛」框架:跨模態姿態感知(CMP)
▲ 跨模態姿態感知(CMP)框架概述
  • 看懂“姿勢”辨異常:創新融合人體姿態資訊,讓 AI 理解動作語義。
  • “找茬”訓練法:採用基於身份的困難負樣本挖掘(IHNM)策略,專治“長得像但行為不同”的混淆情況。
  • 效果驚人:在真實測試集上達到 84.93% 的 Recall@1 準確率,大幅領先現有方案!
實驗結果
定量結果。表 2 展示了 CMP 與一系列可能的解決方案的實驗結果比較。
OOD 場景。表 3 展示了用於評估 CMP 模型的可擴充套件性,進行的 Out-of-Distribution(OOD)測試結果。
行為檢索 v.s. 身份檢索。如表 4 所示,傳統身份檢索方法將具有相同 ID 的所有影像視為正確匹配,異常檢索任務需要精確定位特定行為。
定性結果。
▲ 文字查詢的 Top-5 異常檢索結果
為什麼這很重要?
  • 城市安全升級:為智慧城市、公共安防系統裝上“行為理解引擎”,實現跌倒檢測、突發衝突預警、走失人員異常行為識別等。
  • 效率倍增:告別人工盯屏,透過自然語言描述快速檢索關鍵事件錄影片段。
  • 技術拐點:解決了異常行為資料稀缺的核心瓶頸,為 AI 理解複雜場景行為鋪平道路。
當城市安防系統真正學會“察言觀色”,看懂行人的“一舉一動”,百萬圖文對構建的“異常圖鑑”正在讓這一未來加速到來。關注 ICCV 2025,關注 AI 如何為城市安全築牢“智慧防線”!

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章