YOLOv12來了!還加入了Attention

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

來源:機器之心
本文由紐約州立大學布法羅分校的田運傑,David Doermann和中國科學院大學的葉齊祥合作完成。田運傑是布法羅大學博士後,David Doermann是布法羅大學教授、IEEE Fellow, 葉齊祥是中國科學院大學教授。三位作者長期從事計算機視覺、機器感知等方向的研究。
YOLO 系列模型的結構創新一直圍繞 CNN 展開,而讓 transformer 具有統治優勢的 attention 機制一直不是 YOLO 系列網路結構改進的重點。這主要的原因是 attention 機制的速度無法滿足 YOLO 即時性的要求。本週三放出的 YOLOv12 著力改變這一現狀並取得具有優勢的效能。
  • 論文標題:YOLOv12: Attention-Centric Real-Time Object Detectors
  • 論文地址:https://arxiv.org/pdf/2502.12524
  • 程式碼地址:https://github.com/sunsmarterjie/yolov12
介紹
造成 attention(注意力機制)不能作為核心模組用於 yolo 框架的主要原因在於其本身的低效性,這主要源於兩個因素:(1)attention 的計算複雜度呈二次增長;(2)attention 的記憶體訪問操作低效(後者是 FlashAttention 主要解決的問題)。在相同的計算預算下,基於 CNN 的架構比基於 attention 的架構快約 2-3 倍,這極大限制了 attention 在 YOLO 系統中的應用,由於 YOLO 體系高度依賴高推理速度。
首先,作者提出了一種簡單而高效的區域注意力模組(area attention, A2),該模組在保持大感受野的同時,以最簡單直接的方式降低了 attention 的計算複雜度,從而提升了計算速度。
其次,作者引入了殘差高效層聚合網路(R-ELAN),以解決 attention(主要是大規模模型)帶來的最佳化難題。
R-ELAN 在原始的基礎上進行了兩項改進:1)block 級殘差設計,結合縮放技術以最佳化梯度流動;2)重新設計的特徵聚合方法,以提升模型的最佳化效率。
最後,作者針對 YOLO 體系對 attention 進行了一系列架構改進,優化了傳統的 attention 主導架構,包括:1)引入 FlashAttention 以解決注意力機制的視訊記憶體訪問問題;2)移除位置編碼等設計,使模型更加高效簡潔;3)調整 MLP ratio(從 4 降至 1.2),以平衡注意力機制和前饋網路的計算開銷,從而提升整體效能;4)減少堆疊塊的深度,以簡化最佳化過程等。
Area Attention

首先介紹 area attention 機制,其目的在於降低傳統 attention 的計算代價,同時克服線性注意力和區域性注意力在全域性依賴性、穩定性及感受野方面的侷限性。為此,作者提出了一種簡單高效的區域注意力(A2)模組。
不同於區域性注意力的顯式視窗劃分,A2 採用最簡單的方式將特徵圖劃分為縱向或橫向的區域(每個區域大小為

,這僅需簡單的 reshape 操作,避免了額外的複雜計算帶來的開銷,從而提升計算效率。

在實驗中,作者將預設分割數

設為 4,使感受野縮小至原來的

,仍能覆蓋足夠的資訊範圍。在計算複雜度方面,A2 將注意力機制的計算量從 

降低至 

儘管仍保持二次複雜度,但在 token 數量 n 不是特別大的情況下(如 YOLO:640x640),此最佳化方案在實際應用中仍足夠高效,滿足了即時推理的需求。最終,實驗表明,A2 僅對效能產生輕微影響,但顯著提升了計算速度,為 YOLO 等對速度要求極高的任務提供了一種更優的注意力機制替代方案。

R-ELAN

R-ELAN 的主要動機是最佳化 ELAN 結構,以提升特徵聚合效率並解決其帶來的最佳化不穩定性問題,尤其是在引入注意力機制後,引數量較大的模型(如 YOLOv12-L 和 YOLOv12-X)容易發生梯度阻塞或收斂困難。為此,作者提出了殘差高效層聚合網路(R-ELAN)。
與原始 ELAN 不同,R-ELAN 在整個 block 內引入從輸入到輸出的殘差連線,並結合縮放因子(預設 0.01),以穩定訓練並最佳化梯度流動。
此外,作者重新設計了特徵聚合方式,使其採用瓶頸結構(如上圖所示),透過調整通道維度並簡化計算流程,以減少計算成本和視訊記憶體佔用,同時保持高效的特徵融合能力。最終,R-ELAN 顯著提升了模型的最佳化穩定性和計算效率,使 YOLOv12 的大規模模型能夠更好地收斂,並在保證效能的同時提升推理速度。
結構改進
另外,作者還提出一些最佳化技術,使注意力機制更適應即時目標檢測任務,同時降低計算開銷並提升最佳化穩定性。
首先,作者保留了 YOLO 主幹網路的分層設計,不同於很多基於 attention 的架構採用的平鋪結構的視覺 Transformer。
此外,作者減少了主幹網路(Backbone)最後階段的堆疊的 block 數量,僅保留單個 R-ELAN block,以減少計算量並最佳化訓練收斂性。主幹網路的前兩階段繼承自 YOLOv11,未使用 R-ELAN,以保持輕量級設計。
同時,作者對基礎注意力機制進行了一系列最佳化,包括:調整 MLP ratio(從 4 降至 1.2 或 2)以更合理地分配計算資源,用 Conv2d+BN 替換 Linear+LN 以充分利用卷積運算元的計算效率,移除位置編碼並引入 7×7 可分離卷積(Position Perceiver) 以幫助區域注意力感知位置資訊。
最終,這些改進提升了模型的最佳化穩定性和計算效率,使其更適用於 YOLO 系統,同時保持具有競爭力的效能。
實驗結果
YOLOv12 在 COCO 上取得的效果如下表所示:
  • N-scale 模型:YOLOv12-N 比 YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N 和 YOLOv11-N 分別提升 3.6%、3.3%、2.1%、1.2%,同時計算量和引數規模相近或更少,推理速度達到具有競爭力的 1.64 ms / 影像。
  • S-scale 模型:YOLOv12-S 在 21.4G FLOPs 和 9.3M 引數的情況下,實現 48.0% mAP,比 YOLOv8-S、YOLOv9-S、YOLOv10-S 和 YOLOv11-S 分別提升 3.0%、1.2%、1.7%、1.1%,計算量相近或更少,並且在推理速度、計算開銷和引數量方面明顯優於 RT-DETR-R18 / RT-DETRv2-R18。
  • M-scale 模型:YOLOv12-M 在 67.5G FLOPs 和 20.2M 引數的情況下,實現 52.5 mAP,推理速度 4.86 ms / 影像,在各項指標上均優於 Gold-YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10-M、YOLOv11-M 以及 RT-DETR-R34 / RT-DETRv2-R34。
  • L-scale 模型:YOLOv12-L 相較於 YOLOv10-L,減少了 31.4G FLOPs 的計算量,同時 mAP 仍優於 YOLOv11-L 達 0.4%,計算量和引數量相近。此外,YOLOv12-L 在推理速度、FLOPs(減少 34.6%)和引數量(減少 37.1%)方面均優於 RT-DETR-R50 / RT-DETRv2-R50。
  • X-scale 模型:YOLOv12-X 比 YOLOv10-X 和 YOLOv11-X 分別提升 0.8% 和 0.6%,計算量和引數量相近,推理速度基本持平。同時,相比 RT-DETR-R101 / RT-DETRv2-R101,YOLOv12-X 計算量減少 23.4%,引數量減少 22.2%,且推理速度更快。
視覺化分析
引數量 / CPU 速度 – 精度的 Trade-offs 比較:YOLOv12 在引數量和 CPU 推理速度方面上均實現了突破。如上圖所示,實驗結果顯示,YOLOv12 在準確率 – 引數量平衡方面優於現有方法,甚至超越了引數量更少的 YOLOv10,證明了其高效性。此外,在 CPU(Intel Core i7-10700K @ 3.80GHz)上的推理速度測試中,YOLOv12 在不同 YOLO 版本中展現出最佳的計算效率。
YOLOv12 熱力圖分析:上圖展示了 YOLOv12 與當前最先進的 YOLOv10 和 YOLOv11 的熱力圖對比。這些熱力圖來自 X-scale 模型主幹網路的第三階段,顯示了模型啟用的區域,從而反映其目標感知能力。結果表明,相較於 YOLOv10 和 YOLOv11,YOLOv12 能夠生成更清晰的目標輪廓和更精確的前景啟用,說明其目標感知能力得到了提升。這一改進主要歸因於區域注意力機制(Area Attention),該機制相比卷積網路具有更大的感受野,因此在捕捉全域性上下文資訊方面更具優勢,從而實現了更精準的前景啟用。作者認為,這一特性使 YOLOv12 在檢測效能上佔據優勢。
最後,我們期待 YOLO 社群能繼續提出更強大的檢測器,為即時目標檢測任務提供更多選擇。

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2024,即可下載CVPR 2024論文和程式碼開源的論文合集
目標檢測和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和目標檢測微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如目標檢測或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章