
來源 | PaperWeekly
簡介
在本研究中,我們針對多模態大語言模型(MLLM)在辨識微小視覺資訊時的侷限性,提出了一套無需額外訓練的“視覺化干預”方法,巧妙地挖掘並利用模型自身的內部知識(注意力與梯度資訊),從而提升模型對小尺度目標的感知能力。
具體而言,我們設計了三種自動裁剪方案,分別根據模型內在的注意力分佈、梯度對目標位置的敏感性,以及組合利用這兩類內部訊號來確定最具辨識度的區域性區域。在推理過程中,這些方法會圍繞模型潛在的關注焦點動態地產生更“聚焦”的檢視,幫助模型在回答視覺問題時忽略干擾並放大關鍵細節。
有趣的是,這些裁剪策略並不依賴針對性的資料標註或額外訓練:它們僅依據模型原生的注意力機制和梯度反饋,即可更精準地定位微小目標所在。如此一來,我們不僅保留了通用型 MLLM 在海量資料中學習到的知識,還能在關鍵任務(如醫學影像分析、安全監控等)中顯著減少漏檢小目標帶來的風險。
我們在多項視覺問答基準上對該方法進行評估,結果表明,裁剪後的影像能夠讓 MLLM 在區分細微目標時表現更為準確和穩定,且這一增益在對小尺度目標尤其敏感的資料集上最為顯著。
總而言之,這些訓練無關的視覺化干預手段充分利用了 MLLM 內在的多模態表徵能力,為解決視覺細節缺失和小目標識別不佳的問題提供了一條靈活、高效且通用的新思路。

論文連結:
https://arxiv.org/abs/2502.17422
程式碼連結:
https://github.com/saccharomycetes/mllms_know
MLLMs 對大小物體感知的敏感度
在這一部分,我們主要探究多模態大語言模型在面對不同大小的視覺目標時,是否會對小尺度資訊“視而不見”。
我們選取了 TextVQA 資料集作為切入點:該資料集中每個問題都有對應的真實邊界框,標註了提供正確文字答案的具體位置。我們依據邊界框佔整張圖片的相對面積,將驗證集劃分為“小”“中”“大”三類,觀察模型在不同大小視覺概念上的識別準確度。
直覺上,如果模型的感知能力與目標大小無關,它在這三種場景中的表現應該相差無幾。
但實驗結果卻顯示,無論是零樣本推理模型(如 BLIP-2、InstructBLIP)還是經過 TextVQA 訓練的模型(如 LLaVA-1.5、Qwen-VL),它們對小目標的準確率都顯著低於大目標,就連最新商業模型 GPT-4o 也不能倖免,足見其對小尺度視覺細節依舊存在偏差。
為了進一步確認“小尺度”是否真的是模型無法識別小目標的因果原因,我們還進行了額外的“干預實驗”:在輸入原始影像的同時,我們把包含正確答案位置的最小正方形區域截取出來、放大到模型可接受的解析度,再與原始影像共同輸入到模型中。這樣一來,我們就能直接測量“專注裁剪”對識別效果的影響。
結果顯示,特別是在小目標場景下,模型準確率都有了相當明顯的提升;而在大目標場景下,這種改進相對較弱。這不僅印證了小視覺概念的存在確實會“壓制”模型的識別能力,也表明簡單而直接的影像裁剪方法就能在很大程度上緩解這一問題。
透過這些實驗,我們得以更深入地瞭解 MLLM 的視覺感知侷限,為後續改進小目標感知提供了思路。

▲ 表1: 在 TextVQA 任務中,MLLM 的準確率對視覺目標的大小極其敏感:當答案區域在影像中的相對面積逐漸縮小(從右到左),未裁剪的模型表現明顯下降;而採用人工裁剪(human-CROP)後,小目標的識別準確率可顯著提升。
重要發現:即使回答錯誤,多模態大模型的注意力位置仍然精準
在本部分,我們探討多模態大語言模型在視覺問答時,是否能準確找到影像中的關鍵區域。小目標識別不佳通常有兩種可能:要麼模型無法順利定位到小目標,要麼雖然知道位置卻無法精確識別細節。我們觀察到,模型即便回答錯誤,依然常常關注到目標周邊,說明它們確實“知道”該往哪兒看,但缺乏對區域性細節的充分感知能力。
為量化這種情況,我們從 MLLM 的跨注意力機制入手:提取“答案到影像 token” 的注意力,再結合“影像 token 到影像區域”的注意力,生成對各影像區域的綜合關注度。
考慮到模型也會對某些“註冊”或全域性資訊產生注意,我們提出“相對注意力”概念,將回答問題時的注意力值與模型對同張圖片進行“通用描述”時的注意力值進行對比,以突出與答題真正相關的部分。
在 TextVQA 資料集上的實驗證明,無論模型回答是否正確,其對包含答案的邊界框都維持較高注意力比率。這提示 MLLM 定位能力並非主要瓶頸,真正的挑戰在於它們對小尺度特徵的精細識別能力。

▲ 圖1:在本圖中,我們展示了 MLLM 在不同網路層的注意力比率(基於 TextVQA 的平均值,帶 95% 置信區間)。該比率用於衡量模型對真實答案邊界框的關注程度。結果顯示,在多數網路層中,該比率都大於 1,意味著即便模型未能正確回答,也能聚焦到影像中與答案相關的關鍵區域。
VICROP方法
在前面章節的研究中,我們發現 MLLM 對於小尺度目標的“聚焦”能力並不差,真正的問題在於其難以清晰辨別小目標的細節。因此,本節提出一種無需額外訓練的影像裁剪方法(ViCrop),以充分利用模型內部的注意力和梯度線索,實現自動化的“放大鏡”式細節解析。
具體來說,我們先讓模型處理一張影像與問題,提取其關鍵的關注區域。具體來講,Relative Attention ViCrop(rel-att)方法透過獲取模型對“回答問題”與“通用描述”這兩種場景的注意力差異,鎖定與問題語義最相關的影像部位。
Gradient-Weighted Attention ViCrop(grad-att)則藉助模型輸出分佈對注意力進行梯度加權,以篩除無關的注意力熱點;Input Gradient ViCrop(pure-grad)更直接地利用模型對原始影像畫素的梯度,找出視覺中最能影響決策的細節區域。
這些方法均會輸出裁剪後的“放大圖”,並與原圖一同輸入模型,從而讓 MLLM 對關鍵部位做更精細的分析。具體細節請見論文以及程式碼。
為將這些注意力或梯度圖自動轉化為可用裁剪框,我們借鑑目標檢測的思路,透過多種不同大小的滑窗在整幅影像上移動,尋找在“高關注度”區域上得分最高的位置;再結合基於鄰域變化的啟發式策略,選出最能平衡“大而全”和“小而聚焦”的最佳視窗。
針對超高解析度影像(如大於 1K 的場景),我們採用“兩階段”方案:先將大圖分塊計算關注圖,再拼接回原圖後選取裁剪區域。
最後,我們將裁剪後的“區域性放大版”與原圖共同輸入模型。這樣,一方面可充分保留全域性資訊,另一方面也能讓模型更好地“看清”微小細節。

▲ 圖2: ViCrop 幫助 MLLM 糾正錯誤的示例(青色邊界框顯示 ViCrop 裁剪的區域)
我們將所提出的 ViCrop 方法應用於兩款開源 SOTA 多模態大語言模型(InstructBLIP 和 LLaVA-1.5),並在 7 個數據集上驗證了它們在“看清”小目標時的改進成效。
結果顯示,ViCrop 無需任何額外訓練,就能顯著提高模型在細節敏感型資料集(例如 TextVQA、V*)上的回答準確率;同時,對主要包含大目標的通用資料集(如 GQA、AOKVQA、VQAv2),也幾乎不會造成效能下降。
特別值得關注的是,LLaVA-1.5 在裁剪後收穫的提升幅度更明顯,或與其針對視覺 token 進行更深入的模型調優有關。總體來看,ViCrop 在推理階段提供了一個簡單而高效的“小目標放大鏡”方案,為解決 MLLM 在小尺度識別任務中的侷限帶來了新的思路。

▲ 表2:ViCrop 應用於兩個主流 MLLM,在不同 benchmark 下的表現
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
