ICCV2025|StreamFormer:影片理解表徵學習的轉型之路

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

來源:未來亦可期-CV
本文是對發表於ICCV 2025的論文《Learning Streaming Video Representation via Multitask Training》的解讀。論文的第一作者為上海交通大學博士研究生嚴怡彬與復旦大學博士徐際嵐。
  • 專案主頁https://go2heart.github.io/streamformer
  • 論文連結https://arxiv.org/abs/2504.20041
  • 程式碼連結https://github.com/Go2Heart/StreamFormer
簡述

隨著具身智慧自動駕駛等即時應用需求的不斷增長,影片理解研究正逐步從傳統的離線分析正規化轉向更具挑戰性的線上流式處理模式。離線影片理解依賴於完整的影片時序資訊,專注於對預錄製內容的全域性分析;而流式影片理解則需即時處理連續輸入的影片流,在缺乏未來幀資訊的前提下做出快速、準確的決策。為了勝任流式影片理解任務,系統需具備以下三項核心能力:(i)順序逐幀地處理輸入影片流(ii)維護歷史視覺資訊(iii)在低延遲條件下進行即時決策。為應對上述挑戰,本文提出了StreamFormer,並圍繞其設計與應用做出了以下三方面貢獻:

  • 提出StreamFormer網路架構:將因果時序注意力(temporal causal attention)機制融入預訓練影像視覺編碼器,在保持影像表徵能力的同時實現高效影片流處理。
  • 構建統一的多工視覺-語言對齊訓練正規化透過統一時空影片理解任務,使StreamFormer同步學習全域性語義、時序動態與細粒度空間關係。
  • 高效線上影片任務處理StreamFormer在保持高效的同時在線上動作檢測(OAD)、線上影片例項分割(OVIS)、影片問答(VideoQA)等任務上取得了優異效能,展現出了它在即時應用中的潛力。
圖1. StreamFormer透過多工訓練學習多層次流式影片表徵(從全域性語義到區域性細節),從而具備廣泛的下游任務泛化能力,包括:線上動作檢測(Online Action Detection),線上影片例項分割(Online Video Instance Segmentation)與影片問答(Video Question Answering)。
方法
StreamFormer是一款基於 Transformer 的流式影片建模架構,旨在處理連續輸入的影片流,並將其轉化為多粒度、多語義層級的視覺表徵,以支援多種下游任務。

StreamFormer模型架構:如圖2所示,給定一段連續的影片流,StreamFormer使用分離時空注意力(Divided Space-time Attention)的形式處理影片的特徵。在空間維度(Space)上,我們基於現有的預訓練影像編碼器(如SigLIP)新增LoRA層,在保留影像視覺編碼器強大的表徵能力同時適配到影片領域;在時間維度上,我們使用時序注意力結合因果時序掩碼機制(Causal Temporal Mask)來保證模型流式的時間建模,即對於當前幀只能看到更早的影片幀,無法看到未來的影片幀。

統一視覺-語言多工訓練:為了使StreamFormer能夠具備多粒度的線上影片處理能力,我們將不同粒度的影片任務使用統一的視覺-語言對齊框架進行學習,旨在同時提升模型的細粒度空間理解能力逐幀時間理解能力全域性的影片語義感知能力。在訓練過程中,模型輸出的視覺特徵會與對應不同任務粒度的自然語言標註進行對齊。從細粒度到粗粒度,StreamFormer的視覺語言對齊包括:
  • 每幀的區域性Patch表徵對齊空間語義標註(如影片目標分割、指代分割等任務)
  • 每幀的Frame表徵對齊時間語義標註(如時序定位、動作定位等任務)
  • 影片的Video表徵對齊全域性影片標註(如行為識別、影片文字檢索等任務)
在不同粒度的任務對齊中,StreamFormer使用凍結的SigLIP Text Encoder來橋接不同的任務的語義空間,使得即使任務之間的標註各不相同,也都能夠透過Text Encoder的統一編碼,對齊到同一個語義空間。因此,StreamFormer只需使用簡單的Dot-Product對齊方式就能實現統一的多工多粒度的視覺表徵學習。

圖2. StreamFormer的整體架構。StreamFormer使用一個統一的視覺-自然語言對齊框架訓練,從而激活了模型對於全域性時序、時間動態與細粒度空間關係的同時理解。對於不同粒度的任務,多工訓練分別使用了影片特徵:(i) 影片最後一幀代表全域性層級,(ii) 逐幀資訊代表時間層級和 (iii)逐幀逐區塊代表空間層級。

資料
在資料方面,區別於以往模型依賴上百萬大規模影片-文字資料進行對比學習,我們使用計算機視覺領域數十年來積累的高質量人工標註、多粒度影片資料集來訓練模型,包含動作識別(AR)、影片文字檢索(TVR)、時序動作定位(TAL)、自然語言動作定位(TVG)、影片目標分割(VOS)、指代目標分割(RVOS)任務,同時涵蓋閉集與開放詞彙任務,資料總量約1M。訓練資料集的詳細資訊如表1所示。
表1. 預訓練資料集與規模。
實驗

下游任務結果

為了檢測StreamFormer的效能,針對模型完成了多種下游任務的評測,包括線上動作檢測(Online Action Detection),線上影片例項分割(Online Video Instance Segmentation)與影片問答(Video Question Answering)。如圖3所示,實驗結果證明StreamFormer在OAD,OVIS與VideoQA任務中效能均穩定超越SigLIP,並且取得了具有競爭力的結果。
圖3. StreamFormer下游任務實驗。

多工消融實驗

為了對比不同任務組合對於下游任務的影響,我們完成了多工間的消融性實驗。透過表2中的實驗,我們發現:
  • 全域性(Global)與時序(Temporal)粒度的任務訓練可以提升模型在所有任務上的能力。
  • 空間(Spatial)粒度的任務則只能提升線上影片例項分割的能力。我們認為該問題是由於空間粒度的訓練資料主要集中在物體級別,導致模型對於動態動作的理解不足導致的。
  • 透過結合所有不同粒度的任務,StreamFormer可以在所有的下游任務上取得具有競爭力的結果,證明了我們的多工訓練框架成功激活了模型對於全域性時序、時間動態與細粒度空間關係的同時理解
表2. 預訓練任務的消融實驗。

推理效率

由於使用了時序因果掩碼,因此StreamFormer可以使用KV cache技術在推理時進一步提升效率。如圖4所示,對比傳統的雙向注意力,StreamFormer可以在推理延遲和視訊記憶體佔用上取得顯著的優勢。KV cache可以使得模型在推理時儲存和複用前序已經計算完成的KV對,從而在流式影片的輸入場景下提升處理效率。
圖4. 推理計算複雜度對比。

資料效率

對比傳統的影片-文字對比學習訓練,本文提出的多工訓練方法有效有效提升了模型的綜合能力。如圖5所示,在控制資料量級一致的情況下,StreamFormer的訓練方式遠好於對比學習的方式;甚至將多工訓練的資料規模縮小為對比學習的10倍,StreamFormer也依舊能在對應的下游任務中取得優勢。
圖5. 訓練方式資料效率對比。
總結
在本文,我們提出了流式影片網路StreamFormer,透過對預訓練影像視覺編碼器新增空間注意力上的LoRA層和新增基於因果時序掩碼的時間注意力層,並使用視覺-自然語言統一的多工對齊訓練框架,模型得以同時具有細粒度的空間理解能力、逐幀時間理解能力與全域性的影片語義感知能力。透過線上動作檢測、線上影片例項分割與影片問答等下游實驗結果證明,StreamFormer的高效率流式影片理解能力展示了其在即時應用中的巨大潛力。

參考文獻

[1] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is space-time attention all you need for video understanding? In ICML, 2021.
[2] Jiahao Wang, Guo Chen, Yifei Huang, Limin Wang, and Tong Lu. Memory-and-anticipation transformer for online action understanding. In ICCV, 2023.
[3] Kaining Ying, Qing Zhong, Weian Mao, Zhenhua Wang, Hao Chen, Lin Yuanbo Wu, Yifan Liu, Chengxiang Fan, Yunzhi Zhuge, and Chunhua Shen. Ctvis: Consistent training for online video instance segmentation. In ICCV2023.
[4] Yuanhan Zhang, Bo Li, haotian Liu, Yong jae Lee, Liangke Gui, Di Fu, Jiashi Feng, Ziwei Liu, and Chunyuan Li. Llava-next: A strong zero-shot video understanding model. https://llava-vl.github.io/blog/2024-04-30-llava-next-video/, 2024.

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ICCV 2025 論文和程式碼下載

在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章