
©作者 | 黎昆昌
單位 | 上海AILab
研究方向 | 影片行為識別

介紹

論文連結:
程式碼連結:
模型連結:
Online Demo:


影片表徵學習長期以來存在兩大痛點,一是短 clip 裡存在大量的時空冗餘,二是長上下本需要複雜的時空關聯。曾經風靡一時的 3D CNN 和 video transformer,分別使用卷積和自注意力機制解決了兩大難題。在我們之前的工作 UniFormer [1] 裡,我們嘗試將卷積和自注意力無縫地結合,儘管它能同時解決兩大難題,但對於長影片仍力不從心。而 Gemini [2] 和 Sora [3] 的爆火,使得長影片理解與生成成為了研究的重心,這亟需更高效的影片表徵模型。
幸運的是,NLP 領域這兩年湧現了不少高效運算元,如 S4 [4], RWKV [5] 和 RetNet [6]。而 Mamba [7] 提出動態狀態空間模型 (S6),能以線性複雜度進行長時的動態建模。這引領了一系列視覺任務的適配,如 Vision Mamba [8] 和 VMamba [9],提出了多向 SSM 機制用於處理 2D 圖片,這些模型不僅能與基於注意力的架構媲美,而且大大減小視訊記憶體開銷。

在進入 VideoMamba 結構的介紹之前,我們先看看用於 1D 序列的 Mamba block,和用於視覺任務的雙向 Mamba block。這裡我們不再贅述 SSM 和 Mamba 的底層原理,感興趣的同學可以透過油管影片學習:
https://www.youtube.com/watch?v=8Q_tqwpTpVU

雙向 Mamba 在單向 Mamba 的基礎上,引入了對反向序列的 SSM,這使得雙向 Mamba 能更好地對 2D 序列建模,從而提升對視覺輸入的感知能力。基於雙向 Mamba,我們按照 ViT [10] 的設計,引入 [CLS] token 和空間位置編碼,並針對影片建模,引入 3D patch embedding 和空間位置編碼,提出瞭如下所示的 VideoMamba:

為了應用雙向 Mamba 處理時空資訊,我們拓展原本的 2D 掃描到不同的雙向 3D 掃描:

其中空間優先掃描最簡單,實驗證明效果也最好。基於該架構,我們提出了三種不同 size 的模型,VideoMamba-Ti,VideoMamba-S 和 VideoMamba-M。

但在實驗裡,當我們增大 VideoMamba 規模時,非常容易過擬合,導致大模型的結果甚至差於小模型。為此,我們提出了 Self-Distillation 策略,使用訓練好的小模型當老師,引導大模型訓練,有效地避免模型過擬合,而只需少量額外的開銷。
掩碼建模
近來,VideoMAE [11] 引入掩碼建模,顯著增強了模型對細粒度時序的理解能力,而 UMT [12] 進一步提出高效的掩碼對齊策略,不僅大大減小了訓練開銷,還使得模型能魯棒地處理各種單模態和多模態任務。為了增強 VideoMamba 對時序的敏感性,同時驗證它和文字模態的相容性,我們借鑑 UMT 的方式,引入 CLIP-ViT 當 teacher,進行兩階段蒸餾訓練。
不同於 UMT 使用多層對齊,由於 VideoMamba 和 ViT 存在架構差異,我們只對齊模型最後一層,考慮到 Mamba block 對連續 token 更友好,我們設計了逐行掩碼策略:

同時我們也考慮了注意力掩碼策略,這能保持語義性更強的鄰近 token。
Experiments
Scale Up

我們首先在 ImageNet 上進行了影像分類實驗如下所示:

可見在沒有 Self-Distillation (SD) 時,VideoMamba-M 和 VideoMamba-B 都會在訓練的最後過擬合,其中 VideoMamba-B 尤為嚴重。而在引入 SD 後,VideoMamba-M 收斂符合期望,且明顯強於老師模型 VideoMamba-S。為了避免老師模型帶偏訓練,我們引入了 Early Stop 策略,即提前移除蒸餾引導,實驗發現並無提升。完整 ImageNet 對比如下:

和無層次化結構的其他模型相比,VideoMamba 優於其他 CNN 和 ViT 的模型,如 ConvNeXt 和 ViT。隨著模型規模和解析度放大,效能穩定提升。



進一步的消融實驗表明,spatial-first 掃描方案效果最好。不同於 ImageNet 上效能隨解析度逐漸提升,影片資料集上解析度對效能影響有限,而幀數對效能影響明顯。對於掩碼建模,逐行掩碼優於隨機掩碼策略,且注意力掩碼策略最有效;對齊最後一層效果最好;合適的掩碼比例和 Droppath 能較好提升訓練效果。


我們將 VideoMamba 和 BERT 連線,構造多模態模型,並使用大規模多模態資料進行預訓練,在多個影片文字檢索任務上進行了效能評估。實驗揭示 VideoMamba 同樣能很好地作為多模態的視覺編碼器,隨著預訓練資料的增加,能持續提升多模態理解的能力,且由於以 ViT 為視覺編碼器的 UMT,尤其是在包含長影片(ANet 和 DiDeMo)和更復雜場景(LSMDC)的資料集上。

Conclusion
我們提出了僅基於狀態空間模型的影片理解架構 VideoMamba,全面的實驗表明 VideoMamba 對影片理解具有一系列良好特性,我們希望它可以為未來長影片的表徵學習指明道路。

參考文獻

[1] UniFormer https://github.com/Sense-X/UniFormer
[2] Gemini https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
[3] Sora https://openai.com/sora
[4] S4 https://github.com/state-spaces/s4
[5] RWKV https://www.rwkv.com/
[6] RetNet https://github.com/microsoft/unilm/tree/master/retnet
[7] Mamba https://github.com/state-spaces/mamba
[8] Vim https://github.com/hustvl/Vim
[9] VMamba https://github.com/MzeroMiko/VMamba
[10] ViT https://github.com/google-research/vision_transformer
[11] VideoMAE https://github.com/MCG-NJU/VideoMAE
[12] UMT https://github.com/OpenGVLab/unmasked_teacher
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
