注意力機制魔改再出圈!姚期智院士團隊都在做!新型注意力,節省90%記憶體!

都2025了,還能靠注意力機制魔改發論文嗎?毫無疑問沒問題!南開大學就靠改進多頭注意力,拿下CVPR25!清華姚期智院士團隊也下場,提出新型注意力,節省90%記憶體,統一現代注意力設計!且ICLR、ICML等頂會也都有多篇……
其熱度可見一斑!想發文的夥伴勇敢衝!但同時也要注意使用方法,不然不漲點反而掉點!比如,具體的任務場景,最好選該任務下效果突出的注意力。最典型的就是目標檢測了,自注意力的效果無人能及!再有就是要考慮注意力放置的位置。你要是放在網路結構的末尾,可能就會因為通道數過多,而過擬合……
為方便大家理解和使用,實現高效漲點!我給大家把2024-2025有代表性的注意力機制魔改都進行了梳理,原文和原始碼都有,共174種!主要涉及注意力機制自身改、與其他技術結合兩大路線!
掃描下方二維碼,回覆174注意」
免費獲取全部論文合集及專案程式碼
新一代注意力 
Tensor Product Attention Is All You Need
內容:論文提出了一種名為 Tensor Product Attention (TPA) 的新型注意力機制,透過張量分解來緊湊地表示查詢(Q)、鍵(K)和值(V),顯著減少了推理時的鍵值(KV)快取大小,同時提升了模型效能。基於 TPA,作者還設計了T6模型架構,用於序列建模任務。實驗表明,T6 在語言建模任務中優於標準 Transformer 基線(如 MHA、MQA、GQA 和 MLA),並且在固定資源約束下能夠處理更長的序列,解決了現代語言模型中的關鍵可擴充套件性問題。
概念注意力 
ConceptAttention: Diffusion TransformersLearn Highly Interpretable Features
內容:論文提出了一種名為 ConceptAttention 的新方法,用於解釋多模態擴散變換器(DiTs)的豐富表示,並生成高質量的顯著性圖,以精確定點陣圖像中的文字概念。該方法無需額外訓練,透過重新利用 DiT 注意力層的引數來產生上下文化的概念嵌入,並發現線上性投影到注意力輸出空間時,可以生成比常用交叉注意力機制更清晰的顯著性圖。ConceptAttention 在零樣本影像分割基準測試中達到了最先進的效能,超越了基於 CLIP、DINO 和 UNet 的多種零樣本可解釋性方法。該研究首次證明了多模態 DiT 模型(如 Flux)的表示可以高度遷移到視覺任務(如分割)中,甚至優於多模態基礎模型 CLIP。
多token注意力 
Multi-Token Attention
內容:論文提出了一種名為MTA的新注意力機制,旨在解決傳統注意力機制中僅依賴單個查詢(query)和鍵(key)向量相似度來確定相關性的侷限性。MTA 透過在查詢、鍵和注意力頭之間應用卷積操作,允許模型同時基於多個查詢和鍵向量來調整注意力權重,從而能夠利用更豐富的資訊來定位上下文中的相關部分。實驗表明,MTA 在多種基準測試中表現出色,尤其是在需要在長上下文中搜索資訊的任務中,其利用更豐富資訊的能力顯得尤為有益。

掃描下方二維碼,回覆174注意」

免費獲取全部論文合集及專案程式碼
分層多頭注意力 
Devil is in the Uniformity: Exploring Diverse Learners within Transformer for Image Restoration
內容:論文出了一種名為 HINT的新型影像恢復模型。該模型透過引入層次化多頭注意力(HMHA)和查詢-鍵快取更新(QKCU)機制,解決了傳統多頭注意力(MHA)中存在的冗餘問題,能夠學習到更具多樣性的上下文特徵,並增強不同注意力頭之間的互動。HINT 在包括低光照增強、去霧、除雪、去噪和去雨等 5 種典型影像恢復任務的 12 個基準資料集上進行了廣泛的實驗,表現出優於現有先進演算法的恢復影像質量和模型複雜度。
頻域注意力 
FDG-Diff: Frequency-Domain-Guided Diffusion  Framework for Compressed Hazy Image Restoration
內容:論文提出了一種名為 FDG-Diff 的新型去霧框架,專門針對壓縮後的霧霾影像恢復問題。該框架透過頻域引導的擴散模型,結合高頻補償模組(HFCM)和降噪時間步預測器(DADTP),有效解決了霧霾退化與 JPEG 壓縮之間的複雜聯合損失問題。FDG-Diff 首先透過頻譜分解網路分離壓縮效應和無損資訊,然後利用這些資訊指導擴散模型取樣,顯著提升了壓縮霧霾影像的恢復質量。實驗結果表明,該方法在多個壓縮去霧資料集上優於最新的去霧方法。
卷積注意力 
EMCAD:Efficient Multi-scale Convolutional Attention Decoding for Medical  Image Segmentation
內容:論文提出了一種名為EMCAD的高效多尺度卷積注意力解碼器,用於醫學影像分割任務。EMCAD透過獨特的多尺度深度可分離卷積塊顯著增強特徵圖,並結合通道、空間和分組(大核)門控注意力機制,有效捕捉複雜的空間關係,同時聚焦於顯著區域。該解碼器在保持高效能的同時,計算效率極高,例如在標準編碼器下僅需1.91M引數和0.381G FLOPs。透過在12個數據集上的嚴格評估,EMCAD在多個醫學影像分割任務中達到了最先進的效能,同時在引數數量和計算量上分別減少了79.4%和80.3%。此外,EMCAD的適應性使其能夠與不同的編碼器結合,並在多種分割任務中表現出色,為醫學影像分析領域提供了一種更高效、更準確的工具。

掃描下方二維碼,回覆174注意」

免費獲取全部論文合集及專案程式碼

相關文章