MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | PaperWeekly

簡介

在本研究中，我們針對多模態大語言模型（MLLM）在辨識微小視覺資訊時的侷限性，提出了一套無需額外訓練的“視覺化干預”方法，巧妙地挖掘並利用模型自身的內部知識（注意力與梯度資訊），從而提升模型對小尺度目標的感知能力。

具體而言，我們設計了三種自動裁剪方案，分別根據模型內在的注意力分佈、梯度對目標位置的敏感性，以及組合利用這兩類內部訊號來確定最具辨識度的區域性區域。在推理過程中，這些方法會圍繞模型潛在的關注焦點動態地產生更“聚焦”的檢視，幫助模型在回答視覺問題時忽略干擾並放大關鍵細節。

有趣的是，這些裁剪策略並不依賴針對性的資料標註或額外訓練：它們僅依據模型原生的注意力機制和梯度反饋，即可更精準地定位微小目標所在。如此一來，我們不僅保留了通用型 MLLM 在海量資料中學習到的知識，還能在關鍵任務（如醫學影像分析、安全監控等）中顯著減少漏檢小目標帶來的風險。

我們在多項視覺問答基準上對該方法進行評估，結果表明，裁剪後的影像能夠讓 MLLM 在區分細微目標時表現更為準確和穩定，且這一增益在對小尺度目標尤其敏感的資料集上最為顯著。

總而言之，這些訓練無關的視覺化干預手段充分利用了 MLLM 內在的多模態表徵能力，為解決視覺細節缺失和小目標識別不佳的問題提供了一條靈活、高效且通用的新思路。

論文連結：

https://arxiv.org/abs/2502.17422

程式碼連結：

https://github.com/saccharomycetes/mllms_know

MLLMs 對大小物體感知的敏感度

在這一部分，我們主要探究多模態大語言模型在面對不同大小的視覺目標時，是否會對小尺度資訊“視而不見”。

我們選取了 TextVQA 資料集作為切入點：該資料集中每個問題都有對應的真實邊界框，標註了提供正確文字答案的具體位置。我們依據邊界框佔整張圖片的相對面積，將驗證集劃分為“小”“中”“大”三類，觀察模型在不同大小視覺概念上的識別準確度。

直覺上，如果模型的感知能力與目標大小無關，它在這三種場景中的表現應該相差無幾。

但實驗結果卻顯示，無論是零樣本推理模型（如 BLIP-2、InstructBLIP）還是經過 TextVQA 訓練的模型（如 LLaVA-1.5、Qwen-VL），它們對小目標的準確率都顯著低於大目標，就連最新商業模型 GPT-4o 也不能倖免，足見其對小尺度視覺細節依舊存在偏差。

為了進一步確認“小尺度”是否真的是模型無法識別小目標的因果原因，我們還進行了額外的“干預實驗”：在輸入原始影像的同時，我們把包含正確答案位置的最小正方形區域截取出來、放大到模型可接受的解析度，再與原始影像共同輸入到模型中。這樣一來，我們就能直接測量“專注裁剪”對識別效果的影響。

結果顯示，特別是在小目標場景下，模型準確率都有了相當明顯的提升；而在大目標場景下，這種改進相對較弱。這不僅印證了小視覺概念的存在確實會“壓制”模型的識別能力，也表明簡單而直接的影像裁剪方法就能在很大程度上緩解這一問題。

透過這些實驗，我們得以更深入地瞭解 MLLM 的視覺感知侷限，為後續改進小目標感知提供了思路。

▲ 表1: 在 TextVQA 任務中，MLLM 的準確率對視覺目標的大小極其敏感：當答案區域在影像中的相對面積逐漸縮小（從右到左），未裁剪的模型表現明顯下降；而採用人工裁剪（human-CROP）後，小目標的識別準確率可顯著提升。

重要發現：即使回答錯誤，多模態大模型的注意力位置仍然精準

在本部分，我們探討多模態大語言模型在視覺問答時，是否能準確找到影像中的關鍵區域。小目標識別不佳通常有兩種可能：要麼模型無法順利定位到小目標，要麼雖然知道位置卻無法精確識別細節。我們觀察到，模型即便回答錯誤，依然常常關注到目標周邊，說明它們確實“知道”該往哪兒看，但缺乏對區域性細節的充分感知能力。

為量化這種情況，我們從 MLLM 的跨注意力機制入手：提取“答案到影像 token” 的注意力，再結合“影像 token 到影像區域”的注意力，生成對各影像區域的綜合關注度。

考慮到模型也會對某些“註冊”或全域性資訊產生注意，我們提出“相對注意力”概念，將回答問題時的注意力值與模型對同張圖片進行“通用描述”時的注意力值進行對比，以突出與答題真正相關的部分。

在 TextVQA 資料集上的實驗證明，無論模型回答是否正確，其對包含答案的邊界框都維持較高注意力比率。這提示 MLLM 定位能力並非主要瓶頸，真正的挑戰在於它們對小尺度特徵的精細識別能力。

▲ 圖1：在本圖中，我們展示了 MLLM 在不同網路層的注意力比率（基於 TextVQA 的平均值，帶 95% 置信區間）。該比率用於衡量模型對真實答案邊界框的關注程度。結果顯示，在多數網路層中，該比率都大於 1，意味著即便模型未能正確回答，也能聚焦到影像中與答案相關的關鍵區域。

VICROP方法

在前面章節的研究中，我們發現 MLLM 對於小尺度目標的“聚焦”能力並不差，真正的問題在於其難以清晰辨別小目標的細節。因此，本節提出一種無需額外訓練的影像裁剪方法（ViCrop），以充分利用模型內部的注意力和梯度線索，實現自動化的“放大鏡”式細節解析。

具體來說，我們先讓模型處理一張影像與問題，提取其關鍵的關注區域。具體來講，Relative Attention ViCrop（rel-att）方法透過獲取模型對“回答問題”與“通用描述”這兩種場景的注意力差異，鎖定與問題語義最相關的影像部位。

Gradient-Weighted Attention ViCrop（grad-att）則藉助模型輸出分佈對注意力進行梯度加權，以篩除無關的注意力熱點；Input Gradient ViCrop（pure-grad）更直接地利用模型對原始影像畫素的梯度，找出視覺中最能影響決策的細節區域。

這些方法均會輸出裁剪後的“放大圖”，並與原圖一同輸入模型，從而讓 MLLM 對關鍵部位做更精細的分析。具體細節請見論文以及程式碼。

為將這些注意力或梯度圖自動轉化為可用裁剪框，我們借鑑目標檢測的思路，透過多種不同大小的滑窗在整幅影像上移動，尋找在“高關注度”區域上得分最高的位置；再結合基於鄰域變化的啟發式策略，選出最能平衡“大而全”和“小而聚焦”的最佳視窗。

針對超高解析度影像（如大於 1K 的場景），我們採用“兩階段”方案：先將大圖分塊計算關注圖，再拼接回原圖後選取裁剪區域。

最後，我們將裁剪後的“區域性放大版”與原圖共同輸入模型。這樣，一方面可充分保留全域性資訊，另一方面也能讓模型更好地“看清”微小細節。