拿下二區idea!即插即用創新點:多尺度注意力!

今天給大家分享一個,至少能出二區idea的即插即用創新點:多尺度注意力! 其不僅漲點效果顯著,而且很有啟發性,近來熱度一直居高不下!比如代表模組EMA,23年5月才發表,如今引用量已經100+了!此外,還有像是模組MSDA,則能在效能提升的同時,浮點運算降低70%!
主要在於:該模組通常包括多個並行的注意力子模組,每個子模組關注於輸入資料的不同尺度或解析度。這些子模組可以獨立地計算注意力權重,並生成對應尺度的特徵表示。 從而幫助模型更好地利用輸入資料中的資訊,提升效能和泛化能力。
為讓大家更加深入理解該方法,落地到自己的文章裡,我給大家準備了17種創新方法,原文和程式碼都有,一起來看!
掃描下方二維碼,回覆「多尺度attention」
免費獲取全部論文合集及專案程式碼

論文分享

[引用113次)]1. Efficient Multi-Scale Attention Module with Cross-Spatial Learning
「簡述」
通道或空間注意力機制在各種計算機視覺任務中顯示出顯著的有效性,能夠產生更易於識別的特徵表示。然而,透過通道維度減少來建模跨通道關係可能會帶來提取深層視覺表示的副作用。
在這篇論文中,提出了一種新穎的高效多尺度注意力(EMA)模組。專注於保留每條通道的資訊並減少計算開銷,作者將部分通道重塑為批次維度,並將通道維度分組為多個子特徵,使空間語義特徵在每個特徵組內得到均勻分佈。 具體來說,除了將全域性資訊編碼到每個並行分支中以重新校準通道維度上的權重外,兩個並行分支的輸出特徵還透過跨維度互動進一步聚合,以捕捉畫素級對之間的關係。

「Nature」2. Multi-scale attention network (MSAN) for track circuits fault diagnosis
「簡述」
本文提出一種基於多尺度注意力網路的故障診斷方法,使用Gramian Angular Field(GAF)將一維時間序列轉換為二維影像,充分利用卷積網路處理影像資料的優勢。設計了一種新的特徵融合訓練結構,有效地訓練模型,充分提取不同尺度的特徵,並透過空間注意力機制融合空間特徵資訊。 最後,使用真實的軌道電路故障資料集進行實驗,故障診斷的準確率達到99.36%,該模型在與經典和當前最佳模型的比較中表現出更好的效能。消融實驗驗證了該設計模型中的每個模組都發揮了關鍵作用。

3. DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition
「簡述」
在這項工作中,本文探索有效的Vision Transformers,以在計算複雜度和關注感知野大小之間實現更理想的權衡。透過分析ViTs的全域性注意力的塊互動,作者在淺層觀察到兩個關鍵特性:區域性性和稀疏性,這表明ViTs淺層的全域性依賴模型存在冗餘。 因此,我們提出Multi-Scale Dilated Attention(MSDA)來在滑動視窗內建模區域性和稀疏的塊互動。透過採用金字塔結構,本文構建了Multi-Scale Dilated Transformer(DilateFormer),其中堆疊了MSDA塊。在低層階段採用稀疏卷積和全域性多頭自注意力塊,在高層階段採用稀疏卷積和全域性多頭自注意力塊。

4. Multi-Scale Representations by Varying Window Attention for Semantic Segmentation
「簡述」
多尺度學習是語義分割的核心。本文可視化了標準多尺度表示的有效感受野(ERF),並指出了學習它們的兩個風險:尺度不足和感受野失活。 為了解決這些問題,本文提出了一種新穎的多尺度學習器——可變視窗注意力(VWA)。VWA利用區域性視窗注意力(LWA),並將其分解為查詢視窗和上下文視窗,使上下文的尺度可變,以便查詢學習在不同尺度上的表示。
本文提出了一種簡單但專業的重縮放策略,以消除額外的引入成本,而不影響效能。因此,VWA的成本與LWA相同,從而克服了局部視窗的感受野限制。此外,作者根據VWA和使用各種MLPs,引入了多尺度解碼器(MSD)VWFormer,以改善語義分割的多尺度表示。 VWFormer在效率上與像FPN和MLP解碼器等計算友好的MSDs相當,但在效能上卻比任何MSD都要好。

掃描下方二維碼,回覆「多尺度attention」
免費獲取全部論文合集及專案程式碼
5. scAMAC: self-supervised clustering of scRNA-seq data based on adaptive multi-scale autoencoder
「簡述」
本文開發了一種基於自適應多尺度自動編碼器的全新自監督聚類方法,稱為scAMAC。該自監督聚類網路利用多尺度注意力機制將多尺度自動編碼器的編碼器、隱藏層和解碼器層的特徵資訊融合在一起,從而在相同尺度內探索細胞之間的關聯,並在不同尺度上捕獲深層特徵。 自監督聚類網路使用融合後的潛特徵計算成員矩陣,並根據成員矩陣最佳化聚類網路。scAMAC採用自適應反饋機制來監督多尺度自動編碼器的引數更新,從而獲得更能有效表示細胞特徵的表示。scAMAC不僅可以進行細胞聚類,還可以透過解碼層進行資料重構。

6. Hierarchical Point Attention for Indoor 3D Object Detection
「簡述」
這項工作提出了兩種新穎的注意力操作,作為點雲Transformer檢測器的通用層次結構設計。首先,本文提出了Aggregated MultiScale Attention(MS-A),從單尺度輸入特徵構建多尺度令牌,以實現更細粒度的特徵學習。其次,我們提出了Size-Adaptive Local Attention(Local-A),在邊界框提案內採用自適應注意力區域進行區域性特徵聚合。 這兩種注意力操作都是與模型無關的網路模組,可以插入現有的點雲Transformer中進行端到端訓練。本文將在兩個廣泛使用的室內檢測基準上評估我們的方法。透過將我們提出的模組整合到當前最先進的基於變換器的3D檢測器中,在兩個基準測試上都提高了之前的最佳成績,尤其是在較小物體上的改進更為顯著。

7. EffcientViT: Lightweight Ulti-Scale Attention forOn-Device Semantic Segmentation
「簡述」
本文介紹了EfficientViT,這是一種新型的高解析度視覺模型,具有新穎的多尺度線性注意力機制。與依賴於重型softmax注意力、硬體效率低的大核卷積或複雜的拓撲結構以獲得良好效能的先前高解析度稠密預測模型不同,我們的多尺度線性注意力僅透過輕量級和硬體高效的操作實現了全域性感受野和多尺度學習(對於高解析度稠密預測的兩個理想特性)。 因此,EfficientViT在包括移動CPU、邊緣GPU和雲GPU在內的多種硬體平臺上實現了顯著的效能提升,同時在Cityscapes上沒有效能損失。

8. LENet: Lightweight And Efficient LiDAR Semantic Segmentation UsingMulti-Scale Convolution Attention
「簡述」
基於LiDAR的語義分割在機器人學和自動駕駛領域至關重要,因為它能提供對場景的全面理解。本文提出了一種名為LENet的輕量級高效投影基語義分割網路,具有編碼器-解碼器結構,用於LiDAR基語義分割。編碼器由一種新穎的多尺度卷積注意力(MSCA)模組組成,具有可變的接收域大小,以捕獲特徵。解碼器採用Interpolation And Convolution(IAC)機制,利用雙線性插值進行多解析度特徵圖的上取樣,並透過單個卷積層將先前和當前維度的特徵進行整合。 這種方法顯著降低了網路的複雜性,同時提高了其準確性。此外,本文引入了多個輔助分割頭,進一步提升網路的準確性。

掃描下方二維碼,回覆「多尺度attention」
免費獲取全部論文合集及專案程式碼

相關文章