NeurIPS2024|已開源!港科廣團隊提出Hawk:面向開放世界的影片異常理解框架

影片異常檢測(VAD)系統廣泛應用於監控、安防、交通管理等領域,能夠自動識別異常事件,如暴力行為、交通事故等,從而減少人工干預、提高效率。在大模型時代,隨著大規模預訓練模型,尤其是視覺語言模型(VLM)的發展,VAD 的智慧化水平得到了顯著提升。
然而,現有 VAD 技術仍面臨挑戰。當前系統多依賴傳統特徵提取方法,對場景的語義理解有限,難以識別複雜或不規則的異常行為。同時,現有的標註資料稀缺,限制了 VAD 在開放世界場景中的應用,這些場景中異常行為千差萬別,現有模型難以應對未見過的新型異常,並缺乏足夠的自適應能力。
針對上述挑戰,本研究提出了Hawk,一個面向開放世界的影片理解和異常檢測框架。HAWK 透過識別異常影片和正常影片之間的運動資訊差異,顯式地整合了運動模態以增強異常識別。為了加強運動資訊的關注,Hawk 在運動和影片空間中構建了一個輔助一致性損失,指導影片分支集中在運動模態上。
此外,為了提升運動與語言之間的解釋能力,Hawk 建立了運動及其語言表示之間的明確監督關係。此外,本研究標註了超過 8,000 個異常影片及其語言描述,支援在多樣的開放世界場景中進行有效訓練,並建立了 8,000 對問答對,以幫助使用者處理開放世界中的問題。
實驗結果表明,HAWK 在影片描述生成和問答任務中均超越了現有的 VAD 基準。
論文標題:
Hawk: Learning to Understand Open-World Video Anomalies
論文連結:
https://openreview.net/pdf?id=vBKoEZ1PG3
Demo連結:
https://huggingface.co/spaces/Jiaqi-hkust/hawk
模型連結:
https://huggingface.co/Jiaqi-hkust/hawk
資料集連結:
https://huggingface.co/datasets/Jiaqi-hkust/hawk
程式碼連結:
https://github.com/jqtangust/hawk
引言
▲ 圖1:在 VAD 中不同的架構
(A)是傳統的 VAD,他使用一個二分類器來檢測異常;
(B)是使用多分類器整合語義資訊來給出對不同型別的異常資訊,僅限於檢測異常幀
(C)是之前的影片理解框架,可以互動式的為使用者提供豐富的語義資訊(但更多關注的是長距離上下文資訊,而不是異常資訊),但是不能準確定位異常(因為主要依賴偽標籤)
(D)為本文提出的方法,提高了異常理解能力,並使用帶有豐富語義資訊的註釋標籤來訓練
1.1 問題
  • 如圖 1(A)所示,對場景的語義理解較淺,使用者互動不足。
  • 如圖 1(B)所示,僅限於檢測異常幀,仍需進一步手動分析來理解異常。
  • 如圖 1(C)所示,主要依賴於偽標籤進行訓練,更多關注長距離上下文資訊,而不是與異常相關特徵。
1.2 方法
HAWK 是一個互動式 VLM(interactive large visual-language model),用於精確理解影片異常,如圖 1(D)所示。
  • 正常影片和異常影片中的運動差異顯著。透過雙分支框架顯式整合運動模態,以增強對異常的理解(3.1)。
  • 增強運動注意力。基於原始影片(外觀特徵)和其運動之間的互資訊,在緊空間中構建了一個輔助一致性損失(3.2)隱式引導影片分支關注運動相關特徵。
  • 增強運動與相應語言的解釋。從原始描述中提取與運動相關的語言(動詞及其實體),以監督運動的視覺和語言表示(3.3)。
1.3 資料集
本研究採集了來自不同場景的七個影片異常資料集,併為每個影片生成了語言描述此外,為了應對使用者提出的開放式問題,本研究利用影片的語言描述生成潛在的 QA 對進行訓練。
由於這些資料集涵蓋了多個場景,包括犯罪(UCF-Crime)、校園環境(ShanghaiTech 和 CUHK Avenue)、人行道(UCSD Ped1 和 Ped2)、交通情況(DoTA)以及人類行為(UBnormal),因此,該模型能夠有效地泛化到開放世界場景中。
1.4 貢獻
  • 一個創新的影片-語言框架 HAWK,旨在理解影片異常,並引入運動模態來增強其影片理解語義能力。
  • 七個不同的影片異常資料集生成了豐富的語言描述。同時,考慮到開放世界問題的多樣性,同時生成了問答對,以應對潛在的使用者 QA。
  • 在多個場景中展示了 SOTA 的表現,既能進行影片異常理解,又能進行問答任務。
資料工程
▲ 圖2:資料集生成的流程。
(第一行)首先將影片分割為片段密集片段並生成描述,然後透過將“描述+prompt” 輸入給 GPT4 來生成與異常影片相關的描述,並且要人工檢查出錯誤的。
(第二行)將”兩個原則 +prompt” 輸入給 GPT4 來生成問題,並透過人工選出最合適的 100 個問題,將他們隨機分給不同的影片,然後將上面的”描述 + 問題 + prompt” 輸入給 GPT4 來生成答案。
2.1 原理
2.1.1 語言描述
對 7 個數據集進行詳細的語言描述標註,涵蓋了多種異常場景:
  • 犯罪(UCF-Crime)
  • 校園(ShanghaiTech、CUHK Avenue)
  • 人行道(UCSD Ped1、Ped2)
  • 交通(DoTA)
  • 人類行為(UBnormal)
2.1.2 開放性問題
每種場景構建了開放式的 QA 對,進一步增強模型對使用者各種問題的實際回答能力。過程如圖 2 所示。資料格式如下:
2.2 異常影片描述生成流程
  • 首先將影片拆分為密集的片段,確保捕捉到關鍵資訊
  • 使用感知工具(InternVideo、Tag2Text、GRiT)自動生成每個片段的描述(UCF-Crime 本身就有)
  • 將描述 + prompt(生成與影片異常相關的具體描述)給 GPT-4 來為每個影片生成與異常相關的描述
  • 人工檢查不準確的標註
2.3 以人為中心的 QA 對生成
雖然已經獲得準確的異常影片描述。但仍可能面臨使用者提出的更開放性問題的挑戰。
2.3.1 兩個原則
  • 與異常相關:問題應與影片中的異常緊密相關
  • 5W2H:What、Who、Where、When、How、How much 和 Why
2.3.2 流程
  • 將“兩個原則 + prompt” 輸入 GPT-4 來生成異常影片的開放性問題
  • 人工選擇出最合適的 100 個問題,隨機分配給每個影片
  • 將“問題 + prompt” 輸入 GPT-4 來為 <QUESTION> 生成 <ANSWERS>
方法
圖3:Hawk 的總覽
在訓練過程中,旨在最佳化 3 個損失:
(1)原始影片到語言匹配損失,為了生成一般性的語言描述
(2)原始影片到運動一致性損失,為了讓原始影片更關注與運動相關的
(3)運動到語言匹配損失,為了讓模型更好的描述運動
3.1 顯式整合運動模態
HAWK 專門集成了運動模態,採用架構相同但權重獨立的雙分支結構整合影片和運動資訊,形成視覺標記嵌入。最終,透過結合視覺標記嵌入  和文字嵌入 ,輸入給 LLaMA-2 來生成最後的響應 ,整體推理過程如下:
  •  表示用於提取外觀特徵的 <VIDEO> 輸入
  •  表示用於提取運動特徵的 <VIDEO> 輸入, 表示運動提取器
  •  和  分別表示原始影片理解網路和運動理解網路,架構由一個 EVA-CLIP 和一個預訓練的 Video Q-Former 組成
  •  和  表示對於影片和運動的可學習的投影網路,旨在將視覺(影片和運動)嵌入投影到語言特徵空間
  •  表示凍結的文字標記到嵌入的投影,旨在使文字資訊可以輸入到 LLaMA-2 中
  •  表示組合輸入 prompt: “Here is the input video embedding: <VIDEO_EMBEDDING> and motion embedding <MOTION_EMBEDDING> in different frames, please help me to <DESCRIBE_VIDEO> | .” 其中 <DESCRIBE_VIDEO> 是影片描述生成的問題類別,<QUESTION> 是影片問答的問題類別
3.2 隱式整合運動模態
3.1 雖然集成了運動模態來微調 HAWK,但是影片分支和運動分支獨立執行,所以影片分支不能提取出關注異常發生區域(運動)的外觀特徵。
3.2.1 提取運動
  •  表示在時間步  的運動描述,使用了 Gunnar Farneback 演算法,用於生成兩個連續幀之間的運動資訊
  •  表示在時間步  和  的影片幀
  •  包含來自水平和豎直兩個方向的運動向量
接著,使用這些通道的光流幅度作為 Mask,歸一化到 [0,1],並與原始影片外觀進行相乘,以遮蔽其他非運動區域:
  • × 表示逐畫素相乘
  •  表示在時間步  的原始影片和運動資訊
3.2.2 構建  損失
▲ 圖4:Hawk 的損失視覺化
 表示原始的影片到語言損失
 表示運動模態適應的餘弦相似度損失
 表示運動到語言損失
因為  僅包含關鍵的異常資訊,且從  中提取而得。為了讓外觀特徵(原始的影片)可以更加集中在運動區域,就需要將  和  壓縮到一個緊湊的空間。最後的  損失如下:
  •  表示壓縮函式
  •  與  共享一些初始的淺層引數(見圖3)
  •  表示  透過壓縮函式壓縮後的緊湊表示
  •  表示  透過壓縮函式壓縮後的緊湊表示
3.3 解釋運動到語言
在集成了運動模態(3.1 和 3.2)的基礎上,Hawk 進一步增強運動到語言的解釋。
3.3.1 提取與運動相關的語言
基於語言中運動的表示主要來自動詞及其相應的實體,首先對原始句子進行依賴關係分析表示依賴解析:
  •  表示依賴解析
  •  表示真實值
  •  表示依賴結構圖,表示句子中詞彙之間的句法關係
根據依賴結構圖,可以提取動詞  以及相關的實體(主語 、賓語 、間接主語 、間接賓語 ),然後組合成表示運動的短語
  •  是運動語言提取器
  •  是與運動相關的語言
3.3.2 構建 損失
在視覺和語言表示中的運動之間建立監督,實現運動-語言匹配作為輔助損失:
  •  是交叉熵損失
  •  表示單詞數量
3.3.3 最佳化目標
如圖 4,結合 (3.2.2,圖 4 )和 (3.3.2,圖 4 ),在原始影片到語言匹配損失 (圖 4 )的基礎上,形成最終的訓練最佳化目標:
實驗
4.1 實驗設定
▲ 圖5:訓練與測試
分為三個階段:
(1)預訓練:在 WebVid 資料集上進行預訓練來獲取對影片內容的一般性理解
(2)微調:使用 8,000 個影片微調模型的異常理解能力,其中訓練資料和測試資料的佔比為 9:1,並在此階段聯合訓練影片描述生成和影片問答兩個任務
(3)在測試集中獨立評估這兩個任務,以確保模型的有效性
4.2 定量評估
▲ 表1:定量評估 baseline 和 HAWK 方法的效能
紅色表示指標第一,藍色表示指標第二。
(A)表示對異常影片描述生成任務的各指標比較
(B)表示對影片問題回答任務的各指標比較
4.3 定性評估
▲ 表2:定性評估 baseline 和 HAWK 方法的效能
紅色表示關鍵語義資訊不一致,綠色表示生成結果與真實值很接近,黃色表示生成結果存在的問題。
(A)表示對異常影片描述生成任務的各指標比較
(B)表示對影片問題回答任務的各指標比較
4.4 消融實驗
▲ 表3:兩種任務的消融實驗的定量評估
紅色表示指標第一,藍色表示指標第二。
(A)表示對異常影片描述生成任務的各指標比較
(B)表示對影片問題回答任務的各指標比較
▲ 表4:兩種任務的消融實驗的定性評估
紅色表示關鍵語義資訊不一致,綠色表示生成結果與真實值很接近,黃色表示生成結果存在的問題。
結論
本研究提出了 Hawk,一個創新的影片-語言框架,用於理解各種場景中的影片異常。透過結合運動特徵和構建豐富的語言描述,Hawk 在開放世界場景中展示了優越於 VAD 基線的表現。它具有在多個領域的實際應用潛力,並推動提升模型與使用者的互動性,從而能夠更高效、有效地解決使用者關於影片異常的特定問題。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章