點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
一、論文&程式碼

Spatiotemporal Self-attention Modeling with
Temporal Patch Shift for Action Recognition
Temporal Patch Shift for Action Recognition
論文連結:
https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136630615.pdf
模型&程式碼:ModelScope 魔搭社群
二、背景
高效的時空建模(Spatiotemporal modeling)是影片理解和動作識別的核心問題。相較於影像的Transformer網路,影片由於增加了時間維度,如果將Transformer中的自注意力機制(Self-Attention)簡單擴充套件到時空維度,將會導致時空自注意力高昂的計算複雜度和空間複雜度。許多工作嘗試對時空自注意力進行分解,例如ViViT和Timesformer。這些方法雖然減小了計算複雜度,但會引入額外的引數量。本文提出了一種簡單高效的時空自注意力Transformer,在對比2D Transformer網路不增加計算量和引數量情況下,實現了時空自注意力機制。並且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的效能。文章已被ECCV 2022錄用。
三、方法
視覺Transofrmer通常將影像分割為不重疊的塊(patch),patch之間透過自注意力機制(Self-Attention)進行特徵聚合,patch內部透過全連線層(FFN)進行特徵對映。每個Transformer block中,包含Self-Attention和FFN,透過堆疊Transformer block的方式達到學習影像特徵的目的。
在影片動作識別領域,輸入的資料是連續取樣的多幀影像(常用8幀、16幀、32幀等)學習影片的時空特徵,不僅要學習單幀影像的空間視覺特徵,更要建模幀之間的時域特徵。本文提出一種基於視覺transformer的高效時空特徵學習演算法,具體來說,我們透過將patch按照一定的規則進行移動(patch shift),把當前幀中的一部分patch移動到其他幀,同時其他幀也會有一部分patch移動到當前幀。經過patch移動之後,對每一幀影像的patch分別做Self-Attention,這一步學習的特徵就同時包含了時空特徵。具體思想可以由下圖所示:

在常用的2D影像視覺Transformer網路結構上,將上述patch shift操作插入到self-attention操作之前即可,無需額外操作,下圖是patch shift transformer block,相比其他影片transformer的結構,我們的操作不增加額外的計算量,僅需進行記憶體資料移動操作即可。對於patch shift的移動規則,我們提出幾種設計原則:1. 不同幀的塊儘可能均勻地分佈。2.合適的時域感受野。3.保持一定的移動塊比例。具體的分析,讀者可以參考正文。
我們對通道移動(Channel shift) 與 塊移動(patch shift)進行了詳盡的分析和討論,這兩種方法的視覺化如下:

通道移動(Channel shift) 與 塊移動(patch shift)都使用了shift操作,但channel shift是透過移動所有patch的部分channel的特徵來實現時域特徵的建模,而patch shift是透過移動部分patch的全部channel與Self-attention來實現時域特徵的學習。可以認為channel shift的時空建模在空域是稠密的,但在channel上是稀疏的。而patch shift在空域稀疏,在channel上是稠密的。因此兩種方法具有一定的互補性。基於此,我們提出交替迴圈使用 patchshift和channel shift。網路結構如下圖所示:

四、實驗結果
1. 消融實驗

2. 與SOTA方法進行對比



3. 執行速度
可以看到,PST的實際推理速度和2D的Swin網路接近,但具有時空建模能力,效能顯著優於2D Swin。和Video-Swin網路相比,則具有明顯的速度和視訊記憶體優勢。

4. 視覺化結果

圖中從上到下依次為Kinetics400, Diving48, Sthv1的視覺化效果。PST透過學習關聯區域的相關性,並且特徵圖能夠反映出影片當中動作的軌跡。
CVPR/ECCV 2022論文和程式碼下載
後臺回覆:CVPR2022,即可下載CVPR 2022論文和程式碼開源的論文合集
後臺回覆:ECCV2022,即可下載ECCV 2022論文和程式碼開源的論文合集
後臺回覆:Transformer綜述,即可下載最新的3篇Transformer綜述PDF
影片理解/行為識別交流群成立
掃描下方二維碼,或者新增微信:CVer222,即可新增CVer小助手微信,便可申請加入CVer-影片理解 微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、多模態學習、論文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要備註:研究方向+地點+學校/公司+暱稱(如影片理解+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer222,進交流群
CVer學術交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優質開源專案、學習教程和實戰訓練等資料,歡迎掃描下方二維碼,加入CVer學術交流群,已彙集數千人!

▲掃碼進群
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
