頂刊TPAMI2025!低解析度自注意力LRSA:語義分割的高效新正規化

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

導讀
語義分割是計算機視覺的一項核心任務,Vision Transformer在該領域取得了顯著進展。然而,其核心的自注意力機制在處理高解析度特徵圖時,會產生高昂的計算成本,這一直是制約其應用和發展的一個關鍵瓶頸。那麼,我們是否必須在如此高的解析度上捕捉全域性上下文資訊呢?針對這一問題,南開大學與新加坡科技局等機構聯合提出了一種新穎的低解析度自注意力(Low-Resolution Self-Attention, LRSA)機制,並據此構建了一款高效的語義分割新模型——LRFormer。該方法的核心思想是將自注意力的計算固定在固定的低維空間中,從而顯著降低計算開銷。實驗表明,LRFormer在ADE20K、COCO-Stuff和Cityscapes等主流資料集上取得了領先的效能。此外,該方法還被成功應用於視覺語言模型,展示了其良好的通用性與應用潛力。
論文標題: Low-Resolution Self-Attention for Semantic Segmentation
收錄期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025
作者:Yu-Huan Wu, Shi-Chen Zhang, Yun Liu, Le Zhang, Xin Zhan, Daquan Zhou,
Jiashi Feng, Ming-Ming Cheng, and Liangli Zhen
單位:南開大學,新加坡科技研究局,電子科技大學,有鹿機器人,北京大學,字節跳動
論文連結:
https://mmcheng.net/wp-content/uploads/2025/06/25PAMI_LRFormer.pdf
程式碼連結 (已開源):
https://github.com/yuhuan-wu/LRFormer

Part 1. 引言

語義分割的目標是為影像中的每個畫素分配一個語義標籤。傳統的基於CNN的方法和現代基於Transformer的方法都普遍認為,高解析度特徵圖是確保分割精度的關鍵。雖然Vision Transformer因其強大的全域性感受野能力在分割任務中表現出色,但其自注意力機制的計算複雜度與輸入序列長度(即解析度)的平方成正比,這帶來了巨大的計算開銷。
為了緩解這個問題,之前的工作主要有三種正規化(如下圖所示):
1. Vanilla(原始):直接在原始解析度上計算全域性注意力,計算成本極高 。
2. Window-based(基於視窗):將特徵圖劃分為多個小視窗,在視窗內部分別計算注意力,限制了全域性資訊的互動 。
3.Downsampling-based(基於下采樣):保持Query(查詢)的解析度不變,僅對Key(鍵)和Value(值)進行固定比例的下采樣 。這種方法雖然降低了部分計算量,但計算開銷仍然不可忽視,尤其是在處理高解析度輸入時。

圖1. 不同自注意力計算正規化對比。

我們不禁要問:為了捕獲全域性上下文,自注意力真的需要在高解析度空間進行計算嗎?
本文的工作給出了一個創新性的答案 。我們提出將Query、Key和Value全部下采樣到一個固定的、極小的尺寸進行注意力計算,同樣可以提取圖片的全域性資訊 。這種方法,我們稱之為低解析度自注意力(LRSA) 。

Part 2LRFormer方法介紹

1.低解析度自注意力 (Low-Resolution Self-Attention, LRSA)

與以往的方法不同,LRSA徹底擺脫了對高解析度特徵圖的依賴,其核心思想是在一個極低解析度的空間中高效地計算全域性注意力 。
標準的自注意力(Vanilla Self-Attention)計算公式如下: 

其中Q, K, V由輸入特徵Fin線性變換而來,計算複雜度為。
為在保持特徵圖高解析度的同時降低計算成本,近年來的下采樣式視覺Transformer方法(如PVTP2T)將自注意力的計算方式修改為:

其中,

等特徵的序列長度為原始K和V的1/s2倍。然而,如果原始的 K 和 V 長度本身就很大,即使經過下采樣,前者仍然可能是較長的序列,進而在自注意力計算中引入大量的計算開銷。

我們的LRSA則從根本上改變了這一流程。
核心機制:對於輸入的特徵圖 Fin,LRSA首先將其透過池化操作下采樣到一個固定的尺寸m(例如 16x16)。隨後,所有的注意力計算都在這個低維空間中完成 。其計算公式變為:

其中,Qp,Kp,Vp 是從池化後的特徵圖線性變換得到的,它們的序列長度始終是一個小常數m 。最後,透過雙線性插值將結果上取樣回原始解析度,並與原始輸入進行殘差連線 。
計算複雜度:LRSA的計算複雜度僅為 。其中N是輸入token數,C是通道數。由於池化後的尺寸m是一個小常數,使得注意力部分的計算開銷與輸入解析度N完全解耦,遠低於現有方法。
區域性細節補償:為了彌補在低解析度空間計算可能丟失的區域性細節,我們在LRSA模組前加入了一個並行的 3x3 深度可分離卷積(DWConv)分支,用於在高解析度空間捕捉精細的區域性特徵 。

圖2. LRFormer基礎模組示意圖,包含Depth-Wise Conv (DWConv)、LRSA和FFN。

2. LRFormer整體架構

我們基於LRSA構建了一個強大的語義分割模型——LRFormer,它採用經典的編碼器-解碼器架構。
·編碼器:由四個階段組成,構建了一個金字塔形的特徵層次結構 。每個階段由多個我們設計的基礎模組堆疊而成。在階段之間,使用標準的Patch Embedding操作將特徵圖尺寸減半 。其計算流程可以精確地表述為 :

·解碼器:我們設計了一個簡潔高效的解碼器頭。它首先將編碼器輸出的多級特徵(F2, F3, F4)統一到相同尺寸並進行拼接 。接著,我們再次利用一個LRSA基礎模組對融合後的特徵進行增強,以加強語義推理能力 。最後透過一個 1x1 卷積輸出最終的分割圖 。

圖3. LRFormer整體流程圖。

Part 3. 實驗結果

我們在三大主流語義分割基準資料集(ADE20K, COCO-Stuff, Cityscapes)和影像分類基準(ImageNet)上進行了詳盡的實驗,結果充分驗證了LRFormer的卓越效能和效率 。

1. 與SOTA模型的比較

LRFormer在不同規模的模型上(T/S/B/L)均表現出強大的競爭力,實現了效能和效率的完美平衡。

圖4. ADE20K資料集上的效能-FLOPs對比圖,LRFormer系列模型(紅色/綠色星形)在效率和精度上全面領先 。上面的子圖代表在ImageNet-22K預訓練的結果。 
·ADE20K:如圖4所示,LRFormer的效能-FLOPs曲線全面優於所有對比方法 。例如,LRFormer-L在SegFormer-B5 FLOPs相同的情況下,mIoU高出1.6% 。即便是與基於ImageNet-22K預訓練的更強的模型(如MaskFormer, CSwin)相比,LRFormer-L依然能以更低的計算量取得1.1%至2.4%的效能優勢 。

·COCO-Stuff:LRFormer在所有模型規模上都取得了最高的mIoU,全面超越了SegFormer和HRFormer 。

·Cityscapes:該資料集輸入解析度高,更能體現LRFormer的效率優勢 。例如,SegFormer-B2需要717G FLOPs,而我們的LRFormer-S僅需其41%的計算量(295G FLOPs),mIoU還高出0.9% 。

2. 視覺化分析

從下圖的分割結果可以看出,相比於強有力的基線模型SegFormer,LRFormer能夠生成更完整、更精確的分割圖,尤其是在物體邊界和細節區域(紅框所示)。

圖5. ADE20K驗證集上的視覺化對比。從左到右:原圖,GT,SegFormer結果,LRFormer結果 。

3. 消融實驗

我們透過一系列詳盡的消融研究,驗證了LRFormer設計的合理性 。
·固定的池化大小:實驗表明,當池化尺寸大於等於 16x16 時,效能趨於飽和 。繼續增大尺寸只會帶來巨大的計算和記憶體開銷,但效能提升甚微甚至下降 。因此,我們預設採用 16x16 作為固定池化尺寸。

·區域性性資訊的捕獲:DWConv對於捕捉區域性細節至關重要。實驗證明,在LRSA前和FFN中加入DWConv分別帶來了0.5%和1.4%的mIoU提升 。若同時移除,效能會大幅下降3.8% 。

·小物體上的效能:我們將物體按尺寸分為小、中、大三類進行分析 。結果顯示,如果將池化尺寸減小到 4x4 ,所有類別的效能都會下降,其中小物體受影響最大 。這證明我們預設的 16x16 設定能夠在不犧牲小物體細節的前提下高效工作。

·解碼器頭對比:我們將LRFormer的解碼器與其他流行的解碼器頭(如PPM, DA, CC, OCR)進行了公平對比 。結果顯示,我們的解碼器在FLOPs遠低於對手的情況下,取得了更好或相當的效能 。

·記憶體與FLOPs分析:我們詳細分析了LRFormer和SegFormer在不同輸入解析度下的資源消耗 。如下表所示,隨著輸入尺寸從 5122 增加到 15362 ,SegFormer的注意力計算FLOPs從3.4G飆升至293.6G,而LRFormer始終保持在1.1G左右,展現了巨大的效率優勢 。

·更先進的LRFormer+:為了探索LRFormer編碼器的潛力,我們將其與強大的查詢式解碼器Mask2Former結合,構建了LRFormer+ 。在ADE20K上,LRFormer+全面超越了Mask2Former、Mask DINO等SOTA模型,再次證明了我們編碼器設計的優越性 。例如,LRFormer-B+比強大的P2T-L+版本還要高出1.2% mIoU 。

4. 應用到視覺語言模型

為了驗證LRFormer的通用性,我們將其應用於新興的推理分割任務中 。我們將LISA模型的視覺骨幹網路分別替換為ViT-L、Swin-L和我們的LRFormer-XL 。
下表所示,使用LRFormer-XL作為骨幹網路,在gIoU和cIoU指標上分別比Swin-L高出2.8%和2.6%,比ViT-L高出4.0%和4.6% 。這一結果有力地證明了LRFormer不僅在傳統的語義分割任務上表現卓越,其強大的特徵提取能力同樣能夠賦能更復雜的視覺語言模型,具有廣泛的應用潛力 。

Part 4結論
本文提出了一種新穎高效的低解析度自注意力(LRSA)機制,並基於此構建了LRFormer模型 。我們挑戰並證實了“在注意力計算中保持高解析度並非捕獲全域性上下文的必要條件”。透過在一個固定的低解析度空間進行注意力計算,LRFormer在大幅降低計算成本的同時,在多個主流語義分割基準上取得了SOTA效能 。這項工作不僅為設計高效的視覺Transformer提供了新的思路,也為未來在更多視覺任務中的應用打開了想象空間。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章