CVPR2025|突破注意力機制！vHeat：基於熱傳導的視覺表徵模型

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：機器之心

本文作者為VMamba的原班人馬，其中第一作者王兆植是中國科學院大學和鵬城實驗室的2022級聯合培養博士生，共同一作劉悅是中國科學院大學2021級直博生。他們的主要研究方向是視覺模型設計和自監督學習。

如何突破 Transformer 的 Attention 機制？中國科學院大學與鵬城國家實驗室提出基於熱傳導的視覺表徵模型 vHeat。將圖片特徵塊視為熱源，並透過預測熱傳導率、以物理學熱傳導原理提取影像特徵。相比於基於Attention機制的視覺模型， vHeat 同時兼顧了：計算複雜度（1.5次方）、全域性感受野、物理可解釋性。

vHeat-base 模型在高解析度影像輸入時，throughput、GPU 視訊記憶體佔用、flops 分別是 Swin-base 模型的3倍、1/4、3/4，在影像分類、目標檢測、語義/例項分割等基礎下游任務上達到了先進的效能表現。

論文地址: https://arxiv.org/pdf/2405.16555
程式碼地址: https://github.com/MzeroMiko/vHeat
論文標題：vHeat: Building Vision Models upon Heat Conduction

Overview

CNN 和視覺 Transformer（ViT）是當前最主流的兩類基礎視覺模型。然而，CNN的效能表現受限於區域性感受野和固定的卷積核算子。ViT 具有全域性依賴關係的表徵能力，然而代價是高昂的二次方級別計算複雜度。我們認為 CNN 和 ViT 的卷積運算元和自注意力運算元都是特徵內部的畫素傳播過程，分別是一種資訊傳遞的形式，這也讓我們聯想到了物理領域的熱傳導。於是我們根據熱傳導方程，將視覺語義的空間傳播和物理熱傳導建立聯絡，提出了一種 1.5 次方計算複雜度的視覺熱傳導運算元（Heat Conduction Operator, HCO），進而設計出了一種兼具低複雜度、全域性感受野、物理可解釋性的視覺表徵模型 vHeat。HCO 與 self-attention 的計算形式和複雜度對比如下圖所示。實驗證明了 vHeat 在各種視覺任務中表現優秀。例如 vHeat-T 在 ImageNet-1K 上達到 82.2% 的分類準確率，比 Swin-T 高 0.9%，比 Vim-S 高1.7%。效能之外，vHeat 還擁有高推理速度、低 GPU 視訊記憶體佔用和低 FLOPs 這些優點。在輸入影像解析度較高時，base 規模的 vHeat 模型相比於 Swin 達到 3 倍吞吐量、1/4 的GPU視訊記憶體佔用和 3/4 的 FLOPs。

方法介紹

用

表示點

在 t 時刻下的溫度，物理熱傳導方程為

，其中 k>0，表示熱擴散率。給定 t=0 時刻下的初始條件

，該熱傳導方程可以採用傅立葉變換求得通解，表示如下：

其中

和

分別表示傅立葉變換和逆傅立葉變換，

表示頻域空間座標。

我們利用 HCO 來實現視覺語義中的熱傳導，先將物理熱傳導方程中的

擴充套件為多通道特徵

，將

視為輸入，

視為輸出，HCO 模擬了離散化形式的熱傳導通解，如下公式所示：

其中

和

分別表示二維離散餘弦變換和逆變換，HCO 的結構如下圖 (a) 所示。

此外，我們認為不同影像內容應該對應不同的熱擴散率，考慮到

的輸出在頻域中，我們根據頻率值來決定熱擴散率，

。由於頻域中不同位置表示了不同的頻率值，我們提出了頻率值編碼（Frequency Value Embeddings, FVEs）來表示頻率值資訊，與 ViT 中的絕對位置編碼的實現和作用類似，並用 FVEs 對熱擴散率 k 進行預測，使得 HCO 可以進行非均勻、自適應的傳導，如下圖所示。

vHeat 採用多層級的結構實現，如下圖所示，整體框架與主流的視覺模型類似，其中的 HCO layer 如圖 2 (b) 所示。

實驗結果

ImageNet分類

透過對比實驗結果不難看出，在相似的引數量和 FLOPs 下:

vHeat-T 取得了 82.2% 的效能，超過 DeiT-S 達 2.4%、Vim-S 達 1.7%、Swin-T 達 0.9%。
vHeat-S 取得了 83.6% 的效能，超過 Swin-S 達 0.6%、ConvNeXt-S 達 0.5%。
vHeat-B 取得了 83.9% 的效能，超過 DeiT-B 達 2.1%、Swin-B 達 0.4%。

同時，由於 vHeat 的 O (N^1.5) 低複雜度和可平行計算性，推理吞吐量相比於 ViTs、SSM 模型有明顯的優勢，例如 vHeat-T 的推理吞吐量為 1514 img/s，比 Swin-T 高 22%，比 Vim-S 高 87%，也比 ConvNeXt-T 高 26%，同時擁有更好的效能。

下游任務

在 COCO 資料集上， vHeat 也擁有效能優勢：在 fine-tune 12 epochs 的情況下，vHeat-T/S/B 分別達到 45.1/46.8/47.7 mAP，超過了 Swin-T/S/B 達 2.4/2.0/0.8 mAP，超過 ConvNeXt-T/S/B 達 0.9/1.4/0.7 mAP。在 ADE20K 資料集上，vHeat-T/S/B 分別達到 46.9/49.0/49.6 mIoU，相比於 Swin 和 ConvNeXt 依然擁有更好的效能表現。這些結果驗證了 vHeat 在視覺下游實驗中完全 work，展示出了能平替主流基礎視覺模型的潛力。

分析實驗

有效感受野

vHeat 擁有全域性的有效感受野，視覺化對比的這些主流模型中只有 DeiT 和 HiViT 也具備這個特性。但是值得注意的是，DeiT 和 HiViT 的代價是平方級的複雜度，而 vHeat 是 1.5 次方級的複雜度。

計算代價

上圖從左到右分別為 vHeat-B 與其他 base 規模下的 ViT-based 模型的推理吞吐量 / GPU 視訊記憶體佔用 / 計算量 FLOPs 對比。可以明顯看出，由於 O (N^1.5) 的計算複雜度，vHeat 相比於對比的模型有更快的推理速度、更低的視訊記憶體佔用以及更少的 FLOPs，並且在影像解析度越大時，優勢會更為明顯。在輸入影像為 768*768 解析度時，vHeat-B 的推理吞吐量為 Swin-B 的 3 倍左右，GPU 視訊記憶體佔用比 Swin-B 低 74%，FLOPs 比 Swin-B 低 28%。vHeat 與 ViT-based 模型的計算代價對比，展示出其處理高解析度影像的優秀潛質。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）人數破萬！如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料，一定要掃描下方二維碼，加入CVer知識星球！最強助力你的科研和工作！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

dignews.cc

CVPR2025|突破注意力機制！vHeat：基於熱傳導的視覺表徵模型

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

CVPR2025|港大提出OverLoCK：一種仿生的卷積神經網路視覺基礎模型

ICLR2025|Spatial-Mamba：基於結構感知狀態融合的高效視覺狀態空間模型

英偉達提出首個Mamba-Transformer視覺骨幹網路！打破精度/吞吐瓶頸|CVPR2025

頂刊TNNLS2025！TransXNet：通用的視覺Backbone，效能強大！

IndoorMS：首個多光譜室內場景理解語義分割資料集

CVPR2025Oral|南京大學提出UniAP：分散式訓練演算法！大模型訓練加速3.8倍！

再次顛覆學界想象！何愷明發表新作：擴散模型不一定需要噪聲條件

ICLR2025|精度近乎無損！首個Mamba系列模型量化方案MambaQuant

ICML2025|英偉達提出SANA1.5：線性擴散Transformer重新整理文生圖SOTA！

ICLR2025Oral|BlockDiffusion：打通了自迴歸和擴散模型

AI/CV重磅乾貨，第一時間送達 點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！ 掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！