YOLOv12來了！還加入了Attention

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【目標檢測】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

來源：機器之心

本文由紐約州立大學布法羅分校的田運傑，David Doermann和中國科學院大學的葉齊祥合作完成。田運傑是布法羅大學博士後，David Doermann是布法羅大學教授、IEEE Fellow, 葉齊祥是中國科學院大學教授。三位作者長期從事計算機視覺、機器感知等方向的研究。

YOLO 系列模型的結構創新一直圍繞 CNN 展開，而讓 transformer 具有統治優勢的 attention 機制一直不是 YOLO 系列網路結構改進的重點。這主要的原因是 attention 機制的速度無法滿足 YOLO 即時性的要求。本週三放出的 YOLOv12 著力改變這一現狀並取得具有優勢的效能。

論文標題：YOLOv12: Attention-Centric Real-Time Object Detectors
論文地址：https://arxiv.org/pdf/2502.12524
程式碼地址：https://github.com/sunsmarterjie/yolov12

介紹

造成 attention（注意力機制）不能作為核心模組用於 yolo 框架的主要原因在於其本身的低效性，這主要源於兩個因素：（1）attention 的計算複雜度呈二次增長；（2）attention 的記憶體訪問操作低效（後者是 FlashAttention 主要解決的問題）。在相同的計算預算下，基於 CNN 的架構比基於 attention 的架構快約 2-3 倍，這極大限制了 attention 在 YOLO 系統中的應用，由於 YOLO 體系高度依賴高推理速度。

首先，作者提出了一種簡單而高效的區域注意力模組（area attention, A2），該模組在保持大感受野的同時，以最簡單直接的方式降低了 attention 的計算複雜度，從而提升了計算速度。

其次，作者引入了殘差高效層聚合網路（R-ELAN），以解決 attention（主要是大規模模型）帶來的最佳化難題。

R-ELAN 在原始的基礎上進行了兩項改進：1）block 級殘差設計，結合縮放技術以最佳化梯度流動；2）重新設計的特徵聚合方法，以提升模型的最佳化效率。

最後，作者針對 YOLO 體系對 attention 進行了一系列架構改進，優化了傳統的 attention 主導架構，包括：1）引入 FlashAttention 以解決注意力機制的視訊記憶體訪問問題；2）移除位置編碼等設計，使模型更加高效簡潔；3）調整 MLP ratio（從 4 降至 1.2），以平衡注意力機制和前饋網路的計算開銷，從而提升整體效能；4）減少堆疊塊的深度，以簡化最佳化過程等。

Area Attention

首先介紹 area attention 機制，其目的在於降低傳統 attention 的計算代價，同時克服線性注意力和區域性注意力在全域性依賴性、穩定性及感受野方面的侷限性。為此，作者提出了一種簡單高效的區域注意力（A2）模組。

不同於區域性注意力的顯式視窗劃分，A2 採用最簡單的方式將特徵圖劃分為縱向或橫向的區域（每個區域大小為

或

，這僅需簡單的 reshape 操作，避免了額外的複雜計算帶來的開銷，從而提升計算效率。

在實驗中，作者將預設分割數

設為 4，使感受野縮小至原來的

，仍能覆蓋足夠的資訊範圍。在計算複雜度方面，A2 將注意力機制的計算量從

降低至

。儘管仍保持二次複雜度，但在 token 數量 n 不是特別大的情況下（如 YOLO：640x640），此最佳化方案在實際應用中仍足夠高效，滿足了即時推理的需求。最終，實驗表明，A2 僅對效能產生輕微影響，但顯著提升了計算速度，為 YOLO 等對速度要求極高的任務提供了一種更優的注意力機制替代方案。

R-ELAN

R-ELAN 的主要動機是最佳化 ELAN 結構，以提升特徵聚合效率並解決其帶來的最佳化不穩定性問題，尤其是在引入注意力機制後，引數量較大的模型（如 YOLOv12-L 和 YOLOv12-X）容易發生梯度阻塞或收斂困難。為此，作者提出了殘差高效層聚合網路（R-ELAN）。

與原始 ELAN 不同，R-ELAN 在整個 block 內引入從輸入到輸出的殘差連線，並結合縮放因子（預設 0.01），以穩定訓練並最佳化梯度流動。

此外，作者重新設計了特徵聚合方式，使其採用瓶頸結構（如上圖所示），透過調整通道維度並簡化計算流程，以減少計算成本和視訊記憶體佔用，同時保持高效的特徵融合能力。最終，R-ELAN 顯著提升了模型的最佳化穩定性和計算效率，使 YOLOv12 的大規模模型能夠更好地收斂，並在保證效能的同時提升推理速度。

結構改進

另外，作者還提出一些最佳化技術，使注意力機制更適應即時目標檢測任務，同時降低計算開銷並提升最佳化穩定性。

首先，作者保留了 YOLO 主幹網路的分層設計，不同於很多基於 attention 的架構採用的平鋪結構的視覺 Transformer。

此外，作者減少了主幹網路（Backbone）最後階段的堆疊的 block 數量，僅保留單個 R-ELAN block，以減少計算量並最佳化訓練收斂性。主幹網路的前兩階段繼承自 YOLOv11，未使用 R-ELAN，以保持輕量級設計。

同時，作者對基礎注意力機制進行了一系列最佳化，包括：調整 MLP ratio（從 4 降至 1.2 或 2）以更合理地分配計算資源，用 Conv2d+BN 替換 Linear+LN 以充分利用卷積運算元的計算效率，移除位置編碼並引入 7×7 可分離卷積（Position Perceiver）以幫助區域注意力感知位置資訊。

最終，這些改進提升了模型的最佳化穩定性和計算效率，使其更適用於 YOLO 系統，同時保持具有競爭力的效能。

實驗結果

YOLOv12 在 COCO 上取得的效果如下表所示：

N-scale 模型：YOLOv12-N 比 YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N 和 YOLOv11-N 分別提升 3.6%、3.3%、2.1%、1.2%，同時計算量和引數規模相近或更少，推理速度達到具有競爭力的 1.64 ms / 影像。
S-scale 模型：YOLOv12-S 在 21.4G FLOPs 和 9.3M 引數的情況下，實現 48.0% mAP，比 YOLOv8-S、YOLOv9-S、YOLOv10-S 和 YOLOv11-S 分別提升 3.0%、1.2%、1.7%、1.1%，計算量相近或更少，並且在推理速度、計算開銷和引數量方面明顯優於 RT-DETR-R18 / RT-DETRv2-R18。
M-scale 模型：YOLOv12-M 在 67.5G FLOPs 和 20.2M 引數的情況下，實現 52.5 mAP，推理速度 4.86 ms / 影像，在各項指標上均優於 Gold-YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10-M、YOLOv11-M 以及 RT-DETR-R34 / RT-DETRv2-R34。
L-scale 模型：YOLOv12-L 相較於 YOLOv10-L，減少了 31.4G FLOPs 的計算量，同時 mAP 仍優於 YOLOv11-L 達 0.4%，計算量和引數量相近。此外，YOLOv12-L 在推理速度、FLOPs（減少 34.6%）和引數量（減少 37.1%）方面均優於 RT-DETR-R50 / RT-DETRv2-R50。
X-scale 模型：YOLOv12-X 比 YOLOv10-X 和 YOLOv11-X 分別提升 0.8% 和 0.6%，計算量和引數量相近，推理速度基本持平。同時，相比 RT-DETR-R101 / RT-DETRv2-R101，YOLOv12-X 計算量減少 23.4%，引數量減少 22.2%，且推理速度更快。

視覺化分析

引數量 / CPU 速度 – 精度的 Trade-offs 比較：YOLOv12 在引數量和 CPU 推理速度方面上均實現了突破。如上圖所示，實驗結果顯示，YOLOv12 在準確率 – 引數量平衡方面優於現有方法，甚至超越了引數量更少的 YOLOv10，證明了其高效性。此外，在 CPU（Intel Core i7-10700K @ 3.80GHz）上的推理速度測試中，YOLOv12 在不同 YOLO 版本中展現出最佳的計算效率。

YOLOv12 熱力圖分析：上圖展示了 YOLOv12 與當前最先進的 YOLOv10 和 YOLOv11 的熱力圖對比。這些熱力圖來自 X-scale 模型主幹網路的第三階段，顯示了模型啟用的區域，從而反映其目標感知能力。結果表明，相較於 YOLOv10 和 YOLOv11，YOLOv12 能夠生成更清晰的目標輪廓和更精確的前景啟用，說明其目標感知能力得到了提升。這一改進主要歸因於區域注意力機制（Area Attention），該機制相比卷積網路具有更大的感受野，因此在捕捉全域性上下文資訊方面更具優勢，從而實現了更精準的前景啟用。作者認為，這一特性使 YOLOv12 在檢測效能上佔據優勢。

最後，我們期待 YOLO 社群能繼續提出更強大的檢測器，為即時目標檢測任務提供更多選擇。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2024，即可下載CVPR 2024論文和程式碼開源的論文合集

目標檢測和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和目標檢測微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如目標檢測或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群