CVPR2025|MobileMamba:輕量級多感受野視覺Mamba主幹

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

(來自浙大,騰訊優圖,華中科技大學)
論文連結:https://arxiv.org/pdf/2411.15941
專案程式碼:
https://github.com/lewandofskee/MobileMamba
(所有程式碼/模型權重均已開源)
如果你想持續瞭解更多更新的CVPR 2025 論文和程式碼,歡迎加入CVer學術知識星球!而且可以關注CVPR2025-Papers-with-Code,在CVer公眾號後臺回覆CVPR2025,即可下載,也歡迎中稿的同學提交分享論文!連結如下:
https://github.com/amusi/CVPR2025-Papers-with-Code
圖1 頂部:不同結構下有效感受野ERF的視覺化影像;
底部:最近基於CNN/Transformer/Mamba方法的效果 vs. FLOPs對比。
總結
過去輕量化模型研究主要集中在基於CNN和Transformer的設計。但是CNN的區域性有效感受野在高解析度輸入時難以獲得長距離依賴。而Transformer儘管有著全域性建模能力但是其平方級計算複雜度限制了其在高解析度下的輕量化應用。最近狀態空間模型如Mamba由於其線性計算複雜度和出色的效果被廣泛用在視覺領域。然而基於Mamba的輕量化模型雖然FLOPs低但是其實際的吞吐量極低。因此,作者提出了MobileMamba的框架良好的平衡了效率與效果,推理速度遠超現有基於Mamba的模型。具體來說,首先作者在粗粒度上設計了三階段網路顯著提升推理速度。隨後在細粒度上提出了高效多感受野特徵互動 (MRFFI)模組包含長距離小波變換增強Mamba (WTE-Mamba)、高效多核深度可分離卷積 (MK-DeConv)和去冗餘恆等對映三個部分。有利於在長距離建模的特徵上融合多尺度多感受野資訊並加強高頻細節特徵提取。最後使用兩個訓練和一個推理策略進一步提升模型的效能與效率。大量實驗驗證了MobileMamba超過現有方法最高可達83.6在Top-1準確率上。並且速度是LocalVim的21倍和EfficientVMamba的3.3倍。大量的下游任務實驗也驗證了方法在高解析度輸入情況下取得了效果與效率的最佳平衡。
圖2:現有基於Mamba的輕量化模型效果 vs. 吞吐量。
具體內容
隨著移動裝置的普及,資源受限環境中對高效、快速且準確的視覺處理需求日益增長。開發輕量化模型,有助於顯著降低計算和儲存成本,還能提升推理速度,從而拓展技術的應用範圍。現有被廣泛研究的輕量化模型主要被分為基於CNN和Transformer的結構。基於CNN的MobileNet設計了深度可分離卷積大幅度減少了計算複雜度。GhostNet提出將原本將原本全通道1×1卷積替換為半數通道進行廉價計算,另半數通道直接恆等對映。這些方法給後續基於CNN的工作奠定了良好的基礎。但是基於CNN方法的主要缺陷在於其區域性感受野,如圖1(i)所示,其ERF僅在中間區域而缺少遠距離的相關性。並且在下游任務高解析度輸入下,基於CNN的方法僅能透過堆疊計算量來換取效能的少量提升。
ViT有著全域性感受野和長距離建模能力,如圖1(ii)所示。但是由於其平方級別的計算複雜度,計算開銷比CNN更大。一些工作嘗試從減少解析度或者減少通道數上來改減少所帶來的計算複雜度的增長取得了出色的效果。但是基於純ViT的結構缺少了歸納偏置,因此越來越多的研究者將CNN與Transformer結合得到混合結構得到更好的效果並獲得區域性和全域性的感受野如圖1(iii)所示。但是尤其在下游任務高解析度輸入下,基於ViT的方法仍然受到平方級別計算複雜度的問題。
最近,基於狀態空間模型由於其出色的捕捉長距離依賴關係並且線性的計算複雜度引起了廣泛關注。大量的研究者將其應用於視覺領域在效果和效率上取得了出色的效果。基於Mamba的輕量化模型LocalMamba提出了將影像劃分為視窗並在視窗內區域性掃描的方式減少計算複雜度。EfficientVMamba設計了高效2D掃描方式降低了計算複雜度。但是他們都僅僅公佈了FLOPs,而FLOPs低並不能代表推理速度快。經實驗發現如圖2所示,現有的基於Mamba結構的推理速度較慢並且效果較差。
因此,作者提出了MobileMamba,並分別從粗粒度、細粒度和訓練測試策略三個方面來設計高效輕量化網路。首先,在3.1節作者討論了四階段和三階段在準確率、速度、FLOPs上的權衡。在同等吞吐量下,三階段網路會取得更高的準確率。同樣的相同效果下三階段網路有著更高的吞吐量。因此作者選擇三階段網路作為MobileMamba的粗粒度設計框架。在細粒度模組設計方面在3.2節,作者提出了高效高效多感受野特徵互動 (MRFFI)模組。具體來說,將輸入特徵根據通道維度劃分三個部分。第一部分將透過小波變換增強的Mamba模組提取全域性特徵的同時加強邊緣細節等細粒度資訊的提取能力。第二部分透過高效多核深度可分離卷積操作獲取多尺度感受野的感知能力。最後部分透過去冗餘恆等對映,減少高維空間下通道冗餘的問題,並減少計算複雜度提高運算速度。最終經過MRFFI得到的特徵融合了全域性和多尺度區域性的多感受野資訊,並且加強了邊緣細節的高頻資訊提取能力。最後,在3.3節作者透過兩個訓練階段策略知識蒸餾和延長訓練輪數增強模型的學習能力,提升模型效果;以及一個歸一化層融合的測試階段策略提升模型的推理速度。   
如圖1(iv)所示,MobileMamba有著全域性感受野的同時,高效多核深度可分離卷積操作有助於提取相鄰資訊。圖1底部與SoTA方法的對比可知,MobileMamba從200M到4G FLOPs的模型在使用訓練策略後分別達到76.9,78.9,80.7,82.2,83.3,83.6的Top-1在ImageNet-1K上的效果均超過現有基於CNN、ViT和Mamba的方法。與同為Mamba的方法相比如圖2所示,MobileMamba比LocalVim在Top-1上提升0.7↑的同時速度快21倍。比EfficientVMamba提升2.0↑的同時速度快3.3↑倍。顯著優於現有基於Mamba的輕量化模型設計。同時,在下游任務目標檢測、實力分割、語義分割上大量實驗上也驗證了方法的有效性。在Mask RCNN上比EMO提升1.3↑在mAP並且吞吐量提升56%↑。在RetinaNet上比EfficientVMamba提升+2.1↑在mAP並且吞吐量提升4.3↑倍。在SSDLite透過提高解析度達到24.0/29.5的mAP。在DeepLabv3, Se-mantic FPN, and PSPNet上有著較少的FLOPs分別最高達到37.4/42.7/36.9的mIoU。在高解析度輸入的下游任務與基於CNN的MobileNetv2和ViT的MobileViTv2相比分別提升7.2↑和0.4↑,並且FLOPs僅有其8.5%和11.2%。   
總的來說,作者貢獻如下:
  • 作者提出了一個輕量級的三階段MobileMamba框架,該框架在效能和效率之間實現了良好的平衡。MobileMamba的有效性和效率已經在分類任務以及三個高解析度輸入的下游任務中得到了驗證。
  • 作者設計了一個高效的多感受野特徵互動(MRFFI)模組,以透過更大的有效感受野增強多尺度感知能力,並改進細粒度高頻邊緣資訊的提取。
  • MobileMamba透過在不同FLOPs大小的模型上採用訓練和測試策略,顯著提升了效能和效率。
圖2 MobileMamba結構概述。(a) 粗粒度結構設計: 三階段MobileMamba總體框架。(b) 16 ×16 下采樣PatchEmbed. (c) MobileMamba Block結構。(d) 細粒度結構設計: 所提出的高效多感受野特徵互動模組 (MRFFI).
更多實驗結果如下:   

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章