點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

該工作由南洋理工大學陶大程教授團隊與武漢大學羅勇教授、杜博教授團隊等合作完成。
近些年,多模態大語言模型(MLLMs)在視覺問答、推理以及 OCR 等任務上取得了顯著的成功。然而,早期的 MLLMs 通常採用固定的解析度(例如 LLaVA-v1.5 將輸入影像縮放為),對於輸入影像為高解析度影像(例如 8K 解析度)會導致影像變得模糊,損失大量有效的視覺資訊。
為了解決上述問題,目前的解決方案分為三類:
1.基於裁剪的方法:對於高解析度影像裁剪成多個子圖,每個子圖分別透過視覺編碼器提取視覺特徵後再進行拼接。然而對於 8K 的影像,假設採用 ViT-L/14 就需要接近 300K 的 visual token 長度,這對於目前大語言模型(LLM)的長上下文建模能力是一個巨大的挑戰。
2. 採用處理高分影像的視覺編碼器:使用能處理更高解析度影像的視覺編碼器代替基於 CLIP 訓練的 ViT。然而,對於 8K 解析度的影像,依舊會縮放到對應視覺編碼器能接受的輸入解析度 (例如 ConvNeXt-L 的解析度為

)。
3. 基於搜尋的方法:這類方法不需要訓練,透過將高解析度影像構建成樹結構,在樹結構上進行搜尋。然而,這類方法在搜尋的開始階段輸入的是高解析度影像,從而容易搜尋錯誤的路徑,導致推理時延增加甚至搜尋到錯誤的結果。
事實上,在自然語言處理領域,對於長上下文建模,透過檢索增強生成技術(RAG),檢索關鍵的文字片段代替原始的長上下文作為輸入,從而提高 LLM 回覆的準確度。那麼在 MLLM 中,是否也可以基於 RAG 技術提高 MLLM 對高解析度影像的感知?
為了回答上述問題,研究人員透過實驗,探索 RAG 應用在 MLLM 對於高解析度影像感知的可行性。基於實驗發現,提出了 Retrieval-Augmented Perception (RAP), 一種無需訓練的基於 RAG 技術的高解析度影像感知外掛。該工作已被 ICML 2025 接收,並獲評為 Spotlight 論文(top 2.6%)。

-
論文連結:https://arxiv.org/abs/2503.01222
-
主頁連結:https://dreammr.github.io/RAP
-
程式碼連結:https://github.com/DreamMr/RAP
思考
為了探究將 RAG 應用於 MLLM 的高解析度影像感知,研究人員提出了三個問題:
1. 檢索出來的影像塊如何佈局?
2. 檢索的影像塊數量對最終效能的影響如何?
3. 如何基於上述發現,將 RAG 更好的應用於 MLLMs 對高解析度影像的感知?
檢索出來的影像塊佈局方式
為了探究檢索影像塊佈局的影響,研究人員設計了三種策略:1)按照檢索的分數從高到低進行排列;2)按照原始順序進行排列和 3)維持檢索影像塊的相對位置關係。具體的佈局例子見下圖。

如下表所示,在三種佈局方案中,對於單例項感知任務(FSP)都有顯著提升,然而 1)和 2)在跨例項感知任務(FCP)上相較於 baseline 有明顯效能下降。而 3)由於維持了影像塊之間的相對位置關係,因此 3)在 FCP 任務上在三種策略中取得更好的效果。

結論 1: 維持檢索影像塊之間的相對位置關係是有必要的,特別是對於需要空間感知的任務。
檢索的影像塊數對最終效能的影響
為了探究檢索的影像塊數的影響,研究人員使用 LLaVA-v1.5 和 LLaVA-v1.6 7B & 13B 在高分影像感知評測資料集 HR-Bench 上進行實驗。
如下圖所示,當檢索的數量 (K) 增加時,由於提供了更多的視覺資訊,在 FCP 任務上的效能逐漸增加。然而,當K增加時,輸入影像的解析度也相應增加,導致模型輸出的結果準確性下降。相反,對於 FSP 任務而言,較小的 K 便能取得更好的效果,但是在 FCP 任務上效果較差。

結論 2: 不同的任務型別需要保留的影像塊數不同。對於 FSP 任務而言,僅需要較少的影像塊數便能取得較好的效果,更多的影像塊數反而影響模型的效能。對於 FCP 任務而言,更多的影像塊數能夠保留足夠的視覺資訊,但是依舊受到輸入影像解析度的限制。
方法
基於上述實驗發現,研究人員提出了一種無需訓練的高分影像檢索增強框架 —— Retrieval-Augmented Perception (RAP)。RAP 的設計原理是透過檢索和使用者問題相關的影像塊,代替原始的高解析度影像輸入到 MLLMs 中。該方法有效地降低輸入影像的解析度,並且保留和使用者問題相關的關鍵視覺資訊。為了維持檢索影像塊之間的相對位置關係,研究人員設計了 Spatial-Awareness Layout 演算法,透過確定關鍵的影像塊的位置,剔除無效的行和列,在降低影像解析度的同時,有效保持影像塊之間的相對位置關係。此外,為了自適應選擇合適的K,研究人員提出了 Retrieved-Exploration Search (RE-Search),透過檢索的相似度分數和模型的置信度分數作為啟發式函式,引導模型搜尋合適的K。方法架構圖如下圖所示:

Spatial-Awareness Layout: 對於一張高解析度影像,首先對其進行裁剪成多個影像塊 (V)。接著透過檢索器 VisualRAG 計算每個影像塊和使用者問題 (q) 的相似度分數

:

然後根據預先設定要保留的影像塊數K,篩選出 top – K影像塊,並構建 0-1 矩陣M標記要保留的影像塊的位置為 1,其餘位置標記為 0。接著對矩陣M進行掃描,提取其中非零行和列的索引,其餘位置刪除,從而生成壓縮矩陣

。最後根據壓縮矩陣

提取出相應的影像塊合成新的影像

。
RE-Search: 為了自適應選擇保留的影像塊數K,研究人員受到

演算法的啟發提出了 RE-Search。研究人員將當前的影像按照不同的保留影像塊數的比例,透過 Spatial-Awareness Layout 演算法對影像進行壓縮,生成子節點。與之前基於搜尋的方法不同,為了避免在搜尋的初始階段受到影像解析度的影響,RE-Search 引入了每個影像塊和使用者問題的相似度分數

:

這裡

表示有效的影像塊,n表示有效的影像塊的數量,g(t)表示當前的影像與使用者問題的語義相似度。在

演算法中透過啟發式函式h估計從當前狀態到目標狀態的花費。這裡透過讓 MLLM 自身判斷當前的影像

是否有足夠的視覺資訊回答使用者的問題:

其中

表示 MLLM,

是提示模板用於構造文字問題(例如:“Question: {q} Could you answer the question based on the available visual information?”)。這裡計算模型對於回覆為 “Yes” 的置信度分數作為啟發式函式。
由於在最開始影像的解析度較大,模型輸出的結果h(t)不可靠。因此在最開始搜尋過程中降低h(t)的權重,隨著搜尋深度加深,逐漸增加h(t)的權重,具體計算公式如下:

其中b是一個超引數,具體實現時設定為0.2,d是搜尋的深度。
實驗結果
本文在高解析度影像評測資料集

Bench 和 HR-Bench 上進行評測。對比的方法包括基於裁剪的方法(LLaVA-v1.6, InternVL-1.5 等)以及使用處理高解析度影像的視覺編碼器的方法(LLaVA-HR-X),實驗結果如下表所示,RAP 在單例項感知和多例項感知任務上都能帶來明顯的效能提升。特別是在 HR-Bench 4K 和 8K 上分別帶來最大 21% 和 21.7% 的準確率提升。

論文中還對比了基於搜尋的方法(結果見下表),RAP 相比於

和 Zoom Eye 在吞吐量和準確率上都取得更好的效果。

此外,消融實驗表明 (見下表),如果僅加入 VisRAG 檢索和使用者問題相關的影像塊,僅帶來 6.5% 的提升,透過維持檢索影像塊之間的相對位置關係在 FCP 任務上能夠有所改進。透過引入 RE-Search 自適應選擇合適的K,最終能夠帶來 21.7% 的效能提升。

總結
綜上,該工作提出了 Retrieval-Augmented Perception (RAP),一種無需訓練基於 RAG 技術提高 MLLM 對高解析度影像感知的方法。該方法使用 Spatial-Awareness Layout 演算法維持檢索的影像塊之間的相對位置資訊,透過 RE-Search 自適應選擇合適的K值,在保留關鍵視覺資訊的同時有效降低影像的解析度。實驗結果表明,RAP 在 MLLM 高解析度影像感知的場景中展現出顯著優勢。
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
