ICCV2025|清華&騰訊混元X發現「視覺頭」機制:僅5%注意力頭負責多模態視覺理解

本文的主要作者來自清華大學智慧視覺實驗室(i-Vision Group)、騰訊混元 X 組。本文的共同第一作者為清華大學自動化系本科生王嘉輝和博士生劉祖炎,本文的通訊作者為清華大學自動化系魯繼文教授。
多模態大模型通常是在大型預訓練語言模型(LLM)的基礎上擴充套件而來。儘管原始的 LLM 並不具備視覺理解能力,但經過多模態訓練後,這些模型卻能在各類視覺相關任務中展現出強大的表現。
這引發了我們的思考:在多模態訓練過程中,LLM 基座的哪些內部結構,尤其是哪些多頭注意力單元,真正承擔了對視覺內容的理解?這些注意力頭是否存在可識別、可量化的視覺偏好或專業化功能?如果能夠識別出這些「視覺頭」,不僅有助於揭示多模態大模型內部的「黑箱」機制,也為模型結構最佳化和資源分配提供了理論依據。
在本文中,我們聚焦於注意力頭的視覺偏好,提出了一種基於 OCR 任務、無需額外訓練的方法,系統量化每個注意力頭對視覺內容的關注程度。我們發現,只有不到 5% 的注意力頭(我們稱之為視覺頭,Visual Head)在視覺理解任務中起到主導作用,這些頭能夠有效聚焦並提取圖片中的關鍵資訊,而絕大多數注意力頭則主要關注文字資訊或其他輔助特徵。這一「視覺頭稀疏性」現象表明,模型的視覺理解能力高度依賴於極少數專門化的注意力頭。
  • 論文標題:SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
  • 論文:https://arxiv.org/abs/2506.05344
  • 程式碼:https://github.com/CR400AF-A/SparseMM
  • 專案地址:https://cr400af-a.github.io/SparseMM/
基於這一發現,我們進一步提出了 SparseMM:一種利用視覺頭稀疏性進行 KV-Cache 最佳化的策略。考慮到多模態大模型輸入的視覺 token 遠多於文字 token,帶來了巨大的視訊記憶體壓力,我們對 KV-Cache 資源進行差異化分配。
具體地,SparseMM 將總快取預算劃分為三部分:一部分保障所有頭的基本區域性快取,一部分按固定比例均勻分配,其餘則根據視覺頭得分優先分配給視覺頭,從而在效率與效能之間取得更優平衡。
透過在 DocVQA、OCRBench、TextVQA、ChartQA、MMBench、GQA 等主流多模態基準上的廣泛評測,SparseMM 相較於 SnapKV、AdaKV 等方法取得了更好的效能和效率的平衡。效率評估測試中實現了最高 1.87× 的解碼階段加速並降低了 52% 的峰值記憶體。此外,在極端快取預算下,效能下降幅度更小,充分驗證了基於視覺頭的 KV-Cache 分配策略在效率-效能權衡上的優越性。

介紹

多模態大模型透過引入視覺編碼器模組,使得原本不具備視覺能力的 LLM 能夠在圖文問答、文件理解等多種場景下表現出色。但是模型內部究竟是如何實現這一跨模態遷移的,仍然是一個「黑箱」問題。我們認為,在多模態大模型訓練的過程中,部分注意力頭逐漸特化為了「視覺頭」,專門負責視覺資訊的理解與互動。
在本文中,我們提出了一種基於 OCR 任務量化並識別視覺頭(Visual Head)的方法,並基於此提出了 SparseMM——一種新穎的多模態模型推理加速方法。透過對視覺頭的深入分析,我們發現視覺頭在多模態大模型中佔比很小。
也就是說,只有一小部分注意力頭真正承擔了對視覺內容進行深度理解並將其有效融入語言表徵的核心任務,而大多數注意力頭更多地關注語言資訊,或僅侷限於區域性上下文建模,對影像內容的理解作用有限。
基於此,我們採用了一種注意力頭級別的快取分配機制,對更關注視覺內容的注意力頭分配更多的快取預算,以最大程度的保留視覺資訊;對於不關注視覺內容的注意力頭則分配較少的快取預算,使它們關注最近鄰的資訊即可,從而實現了效能和速度的更優均衡。
圖 1:SparseMM 整體概覽

方法概覽

我們的方法主要分為兩部分:首先透過 OCR 任務定位視覺頭,然後為不同的注意力頭分配不同的快取預算。

基於 OCR 的視覺頭定位方法

圖 2:SparseMM 基於 OCR 任務定位視覺頭的方法示意圖
為了深入探究多模態大模型在處理視覺內容時的注意力機制,我們提出了一種基於 OCR 任務的分析方法,並據此定義了「視覺得分」,用於量化模型在視覺內容上的注意力表現。基於視覺得分,本文能夠有效定位並分析模型內部對視覺內容高度敏感的注意力頭。
具體而言,在給定一個 OCR 任務的圖片輸入時,多模態大模型需要根據圖片內容生成並輸出圖片中的文字資訊。對於每一個由模型輸出的 token

,首先利用 OCR 任務的標註資訊,即「(text, bbox)」對,明確該字元在影像中的空間位置。

透過這一標註,可以將每個字元與其在圖片中的具體區域一一對應。接下來,按照多模態大模型對輸入圖片的分塊或 patch 劃分方式,進一步確定每個字元對應的視覺區域所對映到的視覺 token,並精確定位這些視覺令牌在整個輸入序列中的具體位置。
在此基礎上,我們對多模態大模型內部所有注意力頭進行遍歷。對於任意一個注意力頭,我們分析其注意力得分矩陣。考慮當前字元 token

 對前序所有輸入 token 的注意力得分,若得分最高的 token 恰好屬於該字元在影像中對應區域的視覺 token,則認為該注意力頭在該位置成功「命中」了對應的視覺內容。每當發生一次「命中」,便為該注意力頭累計一次視覺得分。透過統計和歸一化所有字元令牌的命中情況,最終可以量化每個注意力頭對視覺內容的關注程度,從而揭示模型在視覺資訊處理過程中的內部機制。

基於視覺頭的 KV-Cache 壓縮策略

在完成視覺頭的定位之後,我們進一步提出了一種基於視覺頭的 KV-Cache 分配與壓縮策略。傳統的 KV-Cache 機制為所有注意力頭和所有位置的 token 分配等量的快取空間,這種方式雖然簡單,但在處理高解析度影像時顯得極為低效:大量不關注視覺內容的注意力頭被迫快取完整視覺 token,造成了顯著的資源浪費。
為了解決這一問題,SparseMM 根據視覺得分設計了一個三部分的快取分配機制:
  • Local Window Cache: 為所有注意力頭分配固定視窗大小的快取,只保留最近的若干個 token,確保基本的區域性上下文建模能力;
  • Uniform-Based Cache: 在所有注意力頭之間均勻分配一部分快取預算,用於保底防止頭部資訊過度丟失;
  • Score-Preferred Cache: 將剩餘的大部分快取資源按照視覺頭在前一階段中的視覺得分按比例分配,使得關鍵的視覺頭能夠儘可能保留更多的歷史視覺 token,從而提升模型對影像語義的保持能力。
這種差異化的快取壓縮策略在不顯著犧牲模型效能的情況下,顯著減少了整體 KV-Cache 的記憶體使用。尤其在視覺 token 佔比較高的輸入場景中,SparseMM 能夠更合理地分配資源,把計算和儲存集中在真正重要的視覺內容上。
圖 3:SparseMM 基於視覺頭的快取壓縮方法

實驗結果

在 OCR-rich 的多模態資料集上的結果

在 OCR-rich 的資料集上(如 DocVQA、OCRBench 和 TextVQA),SparseMM 展現出顯著的效能優勢,充分驗證了其視覺頭識別策略的有效性。例如在 DocVQA 中,當鍵值快取預算僅為輸入長度的 10% 左右時,LLaVA-NeXT-Vicuna-7B 與 Qwen2-VL-7B-Instruct 等模型仍能保持與全快取配置幾乎一致的效能,而現有方法則普遍出現明顯精度下降,差距在低預算下進一步擴大,突出體現了視覺頭選擇的準確性和關鍵性。TextVQA 中的實驗同樣驗證了 SparseMM 的優勢,多個模型在低至 5% 至 10% 快取預算的條件下依然保持優異效能,顯著優於 AdaKV、SnapKV 等方法。這些結果表明,SparseMM 尤其適用於文字密集、圖文關聯緊密的視覺任務,在處理高解析度輸入與稀疏文字分佈場景中具備顯著的推理效率與效能保持能力。

通用多模態任務上的分析

儘管本文的視覺頭識別方法基於 OCR 任務構建,但是為了進一步驗證其在更廣泛視覺場景中的適用性與泛化能力,我們在多個通用視覺任務基準(如 MMBench、GQA 和 VQAv2)上對該方法進行了系統性評估。
實驗結果顯示,本文方法在通用視覺任務中依然表現出極強的魯棒性與泛化能力。即便在非常受限的快取預算的條件下,Qwen2-VL-7B-Instruct 模型在 MMBench 上仍能維持與全快取模型幾乎一致的效能;在 GQA 和 VQAv2 等具備複雜視覺推理能力要求的任務上,效能下降幅度也始終控制在 1% 以內,顯著優於現有壓縮方法。這些結果表明,儘管視覺頭的識別基於 OCR 場景完成,其關注的視覺區域和注意力機制卻具有高度的通用性,能夠在各類視覺理解任務中穩定發揮作用,為通用多模態模型的推理加速與快取最佳化提供了一種高效、可靠且可推廣的解決方案。

推理速度評估

本文在不同輸入長度(2K 至 32K)場景下評估了 SparseMM 的計算效率,結果顯示該方法在提升推理速度和降低視訊記憶體佔用方面均取得顯著提升。在 32K 輸入下,LLaVA-NeXT-Vicuna-7B 和 Qwen2-VL-7B-Instruct 的推理速度分別提升至 1.87× 和 1.60×,而峰值視訊記憶體佔用分別減少約 15GB 和 2GB,表現出良好的擴充套件性與適應性。這充分說明 SparseMM 在高解析度影像或長上下文任務中,能夠有效降低推理開銷,提升多模態大模型的部署效率與實用性。

視覺化視覺頭

我們可視化了 LLaVA-NeXT-Vicuna-7B 中識別到的一些視覺頭和非視覺頭,可以看出視覺頭能準確的定位到圖中的物體或文字,而非視覺頭往往不關注影像資訊或者關注到錯誤的區域,這直觀地體現了視覺頭和非視覺頭的差異性。

總結

我們提出了 SparseMM,這是一種基於視覺頭的 KV-Cache 快取壓縮方法。我們透過在 OCR 任務中精確識別出對視覺資訊最敏感的注意力頭,並據此設計差異化的快取分配策略,在保證模型效能的同時顯著降低了推理階段的計算和記憶體開銷。
實驗結果表明,SparseMM 在多個視覺語言任務中均展現出卓越的準確性保持能力、優異的計算效率以及強大的泛化性,特別是在高解析度影像和長上下文輸入場景下具有顯著優勢。SparseMM 為多模態大模型的高效推理與實際部署提供了新的解決思路,我們也希望這項工作能啟發未來更多對多模態大模型推理加速的研究。

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章