點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!


標題:Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption
作者:Jinyuan Liu, Guanyao Wu, Zhu Liu, Di Wang, Zhiying Jiang, Long Ma, Wei Zhong, Xin Fan, Risheng Liu
機構:大連理工大學
https://ieeexplore.ieee.org/abstract/document/10812907
https://github.com/RollingPlain/IVIF_ZOO
1. 引言簡介
紅外-可見光影像融合(IVIF)是計算機視覺領域的一個基礎性關鍵的任務,旨在將紅外和可見光光譜的獨特特徵整合到整體表示中。

將一對紅外影像和可見光影像進行融合,這一過程稱為紅外-可見光影像融合,是計算機視覺領域的一個基礎性關鍵的任務,融合影像具有1)增強資訊表達能力;2)抑制噪聲引起的干擾等優勢,可以更好地支援諸如遙感、軍事監視和自動駕駛等廣泛的實際應用。 自 2018 年以來,IVIF方法獲得了長足的發展。相比傳統方法,這些基於學習的解決方案在視覺質量、魯棒性和計算效率方面表現更好,因此受到越來越多的關注。然而現有的調查大多數專注於綜述傳統的或基於學習的IVIF方法,並沒有從多個方面(資料、融合和任務)對IVIF進行研究。
2. 本文主要貢獻

我們的綜述採用了更全面的視角,細緻審查了多個關鍵因素。並且們強調了初步資料相容性和後續任務的關鍵作用,這對於IVIF的實際應用至關重要。本研究的主要貢獻有四個方面:
-
本綜述首次從多維視角(資料、融合與任務)出發,統一理解並系統組織了基於學習的紅外與可見光影像融合方法。整理了180多個基於學習的方法。 -
我們針對每個視角進行了深入討論,包括最近採用的架構和損失函式。同時,討論了代表性方法的核心思想,為後續的研究人員提供便利。 -
為了闡明面向應用的紅外與可見光影像融合方法,我們用分層和結構化的方式系統地概述了技術層面和資料集的最新進展。並且,我們首次比較了初步配準和後續任務(如目標檢測和語義分割)的融合效能。
3. 全新的分類方法

圖3 文中關鍵方法分類圖表整合 詳細大圖請參考原文
為了更直觀地梳理紅外與可見光影像融合領域的研究脈絡,文章中的關鍵圖表進行了整合。文內包含方法彙總大表格:按類別整理了已有方法,涵蓋代表模型、特徵處理方式、融合策略等關鍵資訊,一目瞭然地展示了當前研究熱點與發展趨勢。資料集概覽表:羅列並比較了該領域主流資料集,包含採集方式、模態型別、任務適用性等,為研究選型和復現提供參考依據。桑基圖:視覺化展示了不同方法與任務之間的流向關係,幫助讀者理解各類方法的適用場景。
我們總體上將IVIF分為三類,並且在文章中進行了詳細的說明:
A:用於視覺增強的融合:提升融合影像的視覺效果,讓影像所呈現的資訊更加清晰、全面。
基於自編碼器(AE)的方法:先預訓練 AE,再用其編碼器提取特徵、解碼器重建影像,融合方式有手動規則或二次訓練。現有方法可分為改進融合規則和資料整合、創新網路架構兩類。
基於卷積神經網路(CNN)的方法:包含特徵提取、融合、重建三步。創新點在基於最佳化、修改損失函式和架構改進。
基於生成對抗網路(GAN)的方法:分為單重判別和雙重判別。單重判別易導致模態不平衡,雙重判別旨在解決此問題,但面臨引導判別器提取多樣模態特徵的挑戰。
基於 Transformer 的方法:結合 CNN 和 Transformer,利用自注意力機制,但計算資源需求大。
B:面向應用的融合:在實際高階視覺任務中具有廣泛的應用場景
目標檢測:有的方法透過雙層最佳化等手段結合影像融合與目標檢測;也有直接用紅外和可見光影像檢測的方法,透過多種機制增強精度。
語義分割:包括級聯融合與分割任務、提出多功能框架、引入漸進式語義注入等方法。
其他感知任務:在目標跟蹤、人群計數、顯著目標檢測、深度估計等方面,多模態融合都起到重要作用。
C:資料相容融合:解決資料相容性問題的相關方法。
免配準方法:分為偽標籤生成(基於風格遷移)和構建模態無關特徵空間(基於潛在空間)兩類,用於解決配準問題。
通用融合方法:它能夠有效整合不同的成像技術,有著優秀的演算法通用性和可拓展性,潛力巨大。
對抗攻擊:在影像中新增微小且不可察覺的擾動,干擾神經網路的估計結果。
4. 全面評價和總結
我們不僅對大量的IVIF方法進行了分類,還對這些方法進行了極為全面的評價,包括配準、融合及其他後續下游操作等任務的定性和定量結果,並進行了計算複雜度分析。
在評價中,我們針對分類法中不同的融合方法選用多個數據集,並將各個方法的效能進行對比,得出全面的效能總結。

圖4 文中關鍵對比結果圖表整合 詳細大圖、大表請參考原文
這些旨在為紅外與可見光影像融合領域的研究人員,工程師和愛好者提供一個核心庫,促進紅外-可見影像融合技術的進步和協作。
所有的結果,包括基準資料集、評價指標和定性定量結果都已開源至我們的Git倉庫IVIF_ZOO中:

5. 未來趨勢分析
目前基於學習的IVIF方法獲得了長足的發展。但仍存在幾個關鍵問題,需要未來的研究加以關注。
A:處理錯位/攻擊資料
影像融合網路在複雜對抗情境下的魯棒性,仍然是一個重大挑戰。
B.:開發基準
高質量的基準對於IVIF研究至關重要,儘管已經出現了許多相關的資料集,滿足了一定的需要,但是仍有三大緊迫問題需要關注。
-
建立紅外和可見光影像配準基準至關重要,因為現有基準主要關注畫素對齊的影像對。 -
擴充套件IVIF基準以包含各種高層次任務。 -
探索多樣化的挑戰性場景。
C.:更有效的評價指標
傳統的指標如EN、MI、CC和SCD各自僅衡量影像質量的一個方面,且可能與主觀評價不一致,特別是在高噪聲水平等條件下。因此,這些指標單獨使用無法全面捕捉影像融合質量的 本質。
D.:輕量化設計
大多數現有裝置(如無人機(UAV)和手持裝置)無法支援重型GPU的計算需求,這需要探索更高效且資源佔用更少的網路架構。
E.:多工結合
IVIF 作為一種基本的影像增強技術,無疑可以提升、輔助或結合其他視覺任務。如高階場景分析、深度估計與三維重建等
6. 結語
紅外與可見光影像融合,正站在從理論研究走向實際應用的關鍵十字路口。本綜述不僅系統梳理了當前主流方法與資料集,也首次從“資料-融合-任務”的完整鏈路出發,搭建起了一個統一的研究框架。我們希望這份工作,能為研究者提供參考,為工程實踐者帶來啟發,也為未來的發展方向提供一些思路。歡迎關注本文的 GitHub 專案,共同完善紅外與可見光融合技術的知識地圖!
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
