ICLR2025|效能與效率的更優平衡!哈工深等提出極性感知線性自注意力機制

哈工大深圳、鵬城實驗室和昆士蘭大學合作提出了一種極性感知線性自注意力機制(Polarity-aware Linear Attention)。
從注意力權重矩陣的兩個特性(即正值性和低資訊熵)入手,指出現有線性自注意力機制在保證注意力分數正值性時會忽視掉 Q,K 矩陣中的負值元素,並從理論上給出一族具有特殊性質的對映函式能夠降低資訊熵,解決了標準自注意力機制平方複雜度的低效性與線性自注意力機制的任務精度低的問題。
該模型可以直接替換掉 Vision Transformer 模型中的自注意力模組,並在分類、分割與檢測任務上取得了精度與效率的更優平衡。
論文題目:
PolaFormer: Polarity-aware Linear Attention for Vision Transformers
論文連結:
https://arxiv.org/abs/2501.15061
程式碼連結:
https://github.com/ZacharyMeng/PolaFormer

Polarity-aware Linear Attention(PolaFormer)是一種基於矩陣元素極性的線性自注意力機制。注意力得分矩陣需要至少滿足兩大特性:正值性與低資訊熵。
然而,現有方法在滿足這兩點的同時,存在負值忽略與資訊熵過大等問題。本工作透過分開計算 qk 對的正值與負值,在確保最終注意力得分為正的同時,使每個元素都參與計算;與此同時,本工作提出具有特殊性質逐元素計算的函式具有降低資訊熵的作用。憑藉更完整的計算元素與更低的資訊熵,我們的演算法具有更準確的相似度。
現有工作缺點

1. 負值丟失。依賴非負特徵對映(如 ReLU)的線性注意力模型無法保持與原始 q,k 點積的一致性。這些特徵對映僅保留了正-正互動作用,而關鍵的正-負和負-負互動作用則完全丟失。這種選擇性表示限制了模型捕獲全面關係範圍的能力,導致注意力圖的表達能力減弱和判別力降低。 
2. 注意力分佈高資訊熵。沒有 softmax 的指數縮放,線性注意力會導致權重分佈更加均勻且熵更低。這種均勻性削弱了模型區分強弱 q,k 對的能力,損害了其對重要特徵的關注,並在需要精細細節的任務中降低了效能。

核心方法

PolaFormer 為了解決上述問題,我們的極性感知注意力機制根據 q,k 的正負值將它們分開,並分別計算它們之間的相互作用。注意力權重的計算方式如下:
PolaFormer 根據正負明確地將 q,k 對分開,按照維度的同號和異號互動作用進行內積計算。這些互動作用在兩個流中處理,從而能夠更準確地重建原始的 softmax 注意力權重。
為了避免不必要的複雜性,我們沿著通道維度拆分v向量,分別處理這兩種型別的互動作用。然後,將輸出進行拼接,並透過一個可學習的符號感知矩陣進行縮放,以確保準確重建 q,k 關係。計算規則如下:

理論支撐

我們重定義了未歸一化的正值序列資訊熵,並基於此闡明為什麼先前的特徵對映會提高資訊熵,從而導致注意力分佈過於平滑。
我們設計了可學習的冪次來捕捉每個維度的不同重要性:
最後,我們探索了各種技術來增加註意力矩陣的秩並進行了消融實驗,比如 DWC 和 DCN。

實驗

首先,我們從頭開始在影像分類任務上訓練了模型。然後,我們在 ADE20K 資料集上對預訓練模型進行微調,用於語義分割任務,還在 COCO 資料集上進行微調,用於目標檢測任務。
此外,我們統計分析了兩個 G 矩陣的特性,存在一個明顯的負相關和價值差異。這證明了我們的可學習混合策略補償了鬆弛減法操作所帶來的影響。
總結

在本研究中,我們提出一種具有線性複雜度的新型高效 Transformer,PolaFormer,主要貢獻如下:

1)我們解決了負值忽略的問題,以極性感知的形式計算相似度,在保證正值的同時讓每個元素都參與到注意力的計算;
2)從數學角度出發,提出並證明了存在一族逐元素函式能夠降低熵,並以可學習的冪函式為例按通道實現重新縮放;
3)最後,我們還使用了卷積技術來緩解由自注意力矩陣的低秩特性引起的退化解問題,並引入了極性感知係數矩陣來學習同號值和異號值之間的互補關係。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章