點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

[TNNLS 2025 | 通用的視覺Backbone] TransXNet: 全域性動態性+區域性動態性=效能強大,程式碼已開源!

TransXNet: Learning both global and local dynamics with a dual dynamic token mixer for visual recognition
論文:https://goo.su/Y7FONnb
程式碼:https://github.com/LMMMEng/TransXNet
摘要:
香港大學計算機系俞益洲教授(https://i.cs.hku.hk/~yzyu/index.html)及其研究團隊開發了一種新型的通用視覺backbone—TransXNet,該模型同時融合了全域性和動態性。其創新之處在於引入了一個即插即用的模組,名為Dual Dynamic Token Mixer(D-Mixer)。與以往的卷積和self-attention混合模組或全域性與區域性資訊融合模組不同,D-Mixer專注於動態性的捕捉。具體來說,D-Mixer能夠利用網路上一層的feature maps資訊,生成用於提取當前feature maps的全域性和區域性動態權重,從而顯著增強模型對多尺度特徵的動態表徵能力。為了驗證TransXNet的效能,研究團隊分別在ImageNet-1K、COCO 2017和ADE20K資料集上進行了廣泛的實驗,結果表明,TransXNet作為一個通用視覺模型,展現出了卓越的效能。
動機:
在本文中,作者深入探討了self-attention和卷積在權重計算方式上的不同,並基於此提出了改進方案。作者指出,self-attention之所以效能卓越,部分原因在於其權重(即attention matrix)會根據不同的輸入動態變化,這種input-dependent的特性使得模型能夠更好地捕捉輸入資料的特徵。相比之下,傳統的卷積操作中的權重是靜態的,與輸入資料無關,即input-independent,這限制了其表徵能力。據此,作者進一步分析了將self-attention和卷積簡單結合時可能遇到的問題:
表徵能力差異:由於卷積缺乏類似self-attention的動態性,這導致在卷積-attention混合模組中,self-attention的語義建模能力可能會被削弱,因為卷積部分的靜態特性限制了整體模組的表徵能力。
深層模型的挑戰:在深層模型中,self-attention能夠利用先前特徵圖的全域性和區域性資訊來生成動態的attention matrix,從而提高模型的效能。然而,卷積核的靜態特性使其無法利用這些資訊來動態調整,這限制了模型在深層結構中的表現。
方法:
為了解決上述問題,作者提出了一個即插即用模組 D-Mixer。該模組能夠動態地捕獲全域性和區域性資訊,從而使網路兼具大感受野和穩定的歸納偏置。如圖1(a)所示,對於給定的輸入特徵圖,D-Mixer 首先會將其沿通道拆分為兩部分,並分別將這兩部分輸入到兩個不同的模組中,即 Input-dependent Depthwise Convolution(IDConv)以及 Overlapping Spatial Reduction Attention(OSRA)。輸出結果會進一步進行拼接,並且由一個輕量級的 Squeezed Token Enhancer(STE)進行整合。以下為不同模組的具體描述:

圖1 D-Mixer
Input-dependent Depthwise Convolution (IDConv):如圖1(b)所示,對於任意輸入特徵圖,作者首先使用一個自適應平均池化層聚合空間上下文,並將空間維度壓縮為 K×K 大小,其中 K 為待生成的動態卷積核的大小。緊接著,輸出的特徵圖被送入兩個 1×1 卷積層中,並生成一個多組空間注意力圖,維度為 A∈G×C×K×K,其中 G、C 分別表示注意力圖的組數以及輸入特徵圖的通道大小。並且在 G 維度上使用 softmax 函式對注意力圖進行歸一化,使其具備自適應的選擇能力。最後,透過將注意力圖和一組維度同為 G×C×K×K 的可學習引數進行逐元素相乘來生成動態卷積核,並將其用於輸入特徵圖的特徵提取。IDConv 可以根據上一層特徵圖攜帶的語義資訊來動態地生成卷積核的權重,進而可以與 self-attention 進行深度嵌合。
Overlapping Spatial Reduction Attention (OSRA): 如1圖(c)所示,OSRA 的整體流程和 PVT 中提出的 Spatial Reduction Attention(SRA)類似,都採用了 token-to-region 的全域性建模方式。主要不同之處在於,SRA 在降取樣的過程中使用的是 Non-overlapping 的卷積,即卷積核大小和步長大小一致。因此,一些連續的區域性資訊會在這個過程中被破壞,從而降低 key/value 分量包含的空間結構資訊。據此,OSRA 引入了 Overlapping 卷積來進行降取樣,即卷積核的大小大於步長。此外,OSRA 還引入了一個輕量的區域性運算元(以 3×3 的 depthwise 卷積實現)來進一步提煉 key/value 分量的區域性資訊。
Squeezed Token Enhancer (STE):為了高效地將 IDConv 和 OSRA 處理後的特徵進行融合,本文引入了一個輕量級的特徵融合模組 STE。如圖1(d)所示,STE 透過一個 3×3 的 depthwise 卷積和兩個通道壓縮的 1×1 卷積來實現特徵融合。值得一提的是,STE 相較於直接使用一個全連線層進行特徵融合具有更好的效能以及更優的計算複雜度。
TransXNet 整體架構:如圖 2 所示,TransXNet 的基本構成部分主要包含 D-Mixer 和 Multiscale Feed-forward Network(MS-FFN)。其中,MS-FFN 使用了基於不同卷積核大小的 depthwise 卷積來提取多尺度資訊。由於 TransXNet 同樣沿用了 ResNet 和 Swin Transformer 中的金字塔設計,因此,該網路可以應用到各類視覺任務中。

圖2 TransXNet整體架構
實驗結果:
1. 影像分類:TransXNet 在大規模資料集 ImageNet-1K 上表現出了卓越的效能,相較於現有方法,展現出更為出色的效能以及更加優秀的tradeoff,如圖 3 所示。

圖3 不同模型在ImageNet-1K上的效能對比
2. 目標檢測:如表 1 所示,在 COCO 2017 資料集上,TransXNet 同樣展示出了更優的效能。值得注意的是,TransXNet 在處理小目標時比強調區域性性的 Slide-Tranformer 效能更好,充分展現了 TransXNet 利用全域性和區域性動態性的強大能力。
3. 語義分割:如表 2 所示,TransXNet 在 ADE20K 上也進行了全面的評估,其效能在與一些強大的 Vision Backbones 的比較中脫穎而出,並且有著更優秀的tradeoff。
4. 消融研究:如表 3 所示,TransXNet 對核心模組進行了廣泛的消融實驗,例如與不同 token mixer 的效能對比以及和不同動態卷積的效能對比等。可以看出,TransXNet 中的核心部件相較於其他演算法有著更加出眾的效能。除此之外,原文還包含有更多的效能和效率對比及分析。

表1 目標檢測和例項分割效能對比

表2 語義分割效能對比

表3 核心部件的消融研究
5. 視覺化研究:
動態卷積在卷積 – Attention 混合模型中重要性:
如圖 4 (a) 所示,在動態卷積的加持下,卷積-Attention 混合模型能夠擁有更大的有效感受野(Effective Receptive Field, ERF)。其中,所提出的 IDConv 展現出了最好的效能,表明其可以更好地配合 self-attention 模組來捕獲上下文資訊。
不同 Vision Backbones 的 ERF 對比:
如圖 4 (b) 所示,TransXNet 在具有最大感受野的同時還具備顯著的區域性敏感度,這是其他模型無法兼備的能力,進一步表明了全域性和區域性動態性的重要性。

圖4 不同模型有效感受野(Effective Receptive Field, ERF)對比
何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!
CVPR 2025 論文和程式碼下載
在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
ECCV 2024 論文和程式碼下載
在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
