

論文標題:
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
論文連結:
https://arxiv.org/abs/2406.08487
程式碼連結:
https://github.com/yfzhang114/SliME
高解析度的視覺輸入近期被證明是大型多模態模型(LMMs)的基礎,這對視覺感知和推理至關重要。現有的研究通常採用一種很直接的解析度提升方法,其中影像由全域性和區域性分支組成,後者是被切片的影像塊,但被調整為與前者相同的解析度。這意味著更高的解析度需要更多的區域性塊,從而導致高昂的計算開銷,同時,區域性影像標記的主導地位可能削弱全域性上下文。
來自中科院,松鼠 Ai,阿里以及 Meta 的研究人員提出了一種新的處理策略 SliME, SliME 的核心在於,對 global 和 local patches 採取不同的處理策略,強調 global 特徵的主導地位並儘可能挖掘全域性上下文,壓縮 local 特徵以保證計算效率。除了方法之外,本文還收集並處理了一個對影像細節有高要求的資料集 SMR,增強了高解析度處理模組的訓練。

現有工作的不足
大型多模態模型(LMMs)在近期蓬勃發展。然而,它們在複雜的視覺感知和推理任務上仍然面臨挑戰。實證研究表明,採用更高解析度是一種良好的解決方案。例如,LLaVA-Next 將高解析度影像劃分為多個塊,獨立編碼每個塊,然後將所有區域性塊標記與原始全域性影像標記拼接在一起,儘管這樣做會導致計算成本的上升。
其他模型如 Monkey 和 LLaVA-UHD 也將影像劃分為塊,但隨後壓縮這些塊以避免冗餘標記。在這些情況下,對於高解析度影像,區域性影像標記主導了特徵空間。例如,在一張 1024×1024 的影像中被分為 9 個塊時,全域性影像標記僅佔 1/10。

SliME

我們的核心思想是全域性資訊應該被優先考慮,因此我們旨在提取和保留儘可能多的全域性上下文,同時用區域性影像細節增強它。在這項研究中,
-
我們首先根據解析度將影像分割成塊。然後將影像標記分為兩組:全域性檢視和區域性塊 (圖1(a))。
-
對於前者,我們保留所有token以維護所有上下文資訊,並利用混合介面卡進一步探索全域性上下文。如圖1(b)所示,我們使用 MLP 將影像特徵投射到 LLM 的特徵空間,並使用一組可學習的查詢(稱為 qformer)來提取關鍵的全域性資訊。透過混合兩個介面卡的輸出,有助於 LLM 更有效地理解全域性上下文。
-
考慮到區域性塊,它們提供了額外的影像細節,我們使用 learnable query 進行壓縮以降低計算成本(圖1(c))。我們進一步提出了一種文字引導的路由器來選擇與輸入指令或問題最相關的區域性影像標記,從而避免過多的影像標記並關注相關的影像資訊(圖1(d))。
-
同時訓練全域性投影和區域性壓縮是具有挑戰性的。投影層的簡單性使其易於訓練,但也導致模型由於過度依賴全域性特徵而忽視區域性特徵,迅速退化。我們將其形式化為 bi-linear problem,並從理論上證明同時更新這兩個模組不會收斂到最佳結果。相反,我們建議交替訓練全域性投影模組和區域性壓縮模組,以確保全域性和區域性特徵都能被有效地學習和利用。
-
本文精心收集和篩選資料集,建立了科學和數學推理資料集(SMR),涵蓋了自然科學、數學問題和科學圖表理解等九項具有挑戰性的任務。其中一些任務提供了完整的推理路徑,迫使模型闡明整個推理過程。重要的是,SMR 資料集中的許多影像包含豐富的註釋。完成這些複雜的推理任務需要對影像細節的透徹理解,這將大大有利於我們框架的訓練。
2.1 Refining Global Context with a Soft Mixture of Experts

▲ 圖2: 交替訓練的重要性
透過自適應切片擴充套件輸入解析度:我們最初探索了用於切片影像的各種網格選項,類似於 LLaVA-Next,但具有更精細的粒度(見圖1(a))。我們研究了從 , 到 的解析度,以確定最有效的選項。
對於形狀為 W 和 H 的影像,我們遍歷所有可用的分割槽策略。例如,當使用策略 時,調整比例可以計算為 。縮放後的解析度將是 ,浪費的解析度將是 。我們透過最大化利用的解析度和最小化浪費的解析度來選擇最佳分割槽。
為什麼不透過壓縮全域性影像標記來提高效率?我們的方法受到經驗觀察的啟發,與之前的發現一致:當使用基於注意力的模型作為介面卡來減少標記或彌合模態差距時,可能需要更復雜的超引數搜尋才能實現與更簡單的 MLP 相當的效能。
如圖 2 所示,用相同數量標記的查詢前置器替換 LLaVA-v1.5 的 MLP 介面卡,在大多數基準測試中表現明顯較差。一個更簡單的投影器迫使 LLM 更好地理解視覺輸入,從而提升泛化能力。因此,我們避免減少全域性影像的標記數量,而是透過簡單的投影保留所有全域性資訊。
透過專家 soft mixture 精煉全域性上下文:儘管 qformer 在大多數基準測試中的表現不如 MLP,但可學習的查詢嵌入和注意力機制允許不同的特徵選擇策略,並且在某些基準測試(如 ScienceQA)中,qformer 表現更好。
基於我們的分析,我們提出了一種新方法,透過利用 MLP 和查詢前置器介面卡的優點來精煉全域性上下文特徵。具體來說,我們採用一個噪聲專家混合(MOE)框架來結合這兩種型別框架的優勢。在此框架中,對於來自視覺編碼器的特徵x,一個學習的門控網路 G 確定兩個介面卡的權重:

門控網路學習根據輸入特徵動態調整每個介面卡的重要性。為了防止門控網路主要啟用同一個介面卡,我們在訓練過程中引入了可學習噪聲。這透過以下公式實現:

2.2 Local Feature Mining with Compression and Selection
Local Feature Compression.我們採用了 qformer,該架構利用了 個查詢嵌入,記作 。其中, 表示從視覺編碼器獲得的影像特徵的維度。我們將 設定得比從視覺編碼器匯出的原始令牌數量少,旨在減輕計算負擔,同時保留重要資訊。透過應用 attention,我們協調這些查詢嵌入與區域性影像特徵之間的互動。
Text-Guided Router.本文認為並非所有區域性特徵都與提出的問題相關。例如,在圖1(d) 中,問題“這是什麼品種的狗?”僅涉及特定的區域性影像區域,丟棄無關的特徵可以顯著減少影像資訊。
在這項工作中,我們探索了一種簡單的基於餘弦相似性路由策略。給定文字嵌入 和投影的區域性影像特徵 ,我們計算分數為 。對文字令牌取平均值並對影像令牌應用 softmax 得到 。一旦為每個區域性特徵獲得了分數或相關性指標,我們就採用自適應選擇策略。具體來說,我們將分數從高到低排序,並選擇特徵直到累積分數超過閾值 。這個超引數平衡了局部特徵的效率和完整性。
我們的實驗表明,選擇特定的區域性特徵不會降低效能。相反,透過忽略無關特徵並使用更少的令牌,我們在大多數基準測試中實現了更好的效能。在訓練期間,選擇分數上加入來自 的高斯噪聲以保持特徵的多樣性。
Alternating Training Scheme.首先,在階段 I(見圖 1(b)),使用全域性影像對介面卡進行訓練。隨後,在階段 II(見圖 1(c)),介面卡保持固定,而僅使用區域性補丁對區域性壓縮層進行訓練。最後,在階段 III(見圖 1(d)),同時訓練全域性和區域性特徵。
我們的實驗表明,在單一階段同時訓練介面卡和區域性壓縮層會導致次優效能。這種差異源於模型過於關注全域性特徵,因為全域性特徵只需要投影且沒有資訊損失,使其更容易學習。因此,我們在階段 II 限制使用區域性補丁進行壓縮層訓練。這種方法確保了順序學習,先投影,然後壓縮區域性特徵(圖 1 中的 Local vs Local w. alt)。
此外,交替訓練可以彌合兩種常見介面卡:MLP 和查詢前置架構之間的效能差距。如前所述,當使用基於注意力的模型作為介面卡時,這些模型提供了更多的靈活性,但其效能可能不如簡單的 MLP 介面卡,我們發現交替訓練顯著提高了效能(圖 1 中的 query former vs query former w. alt3)。這種方案可能會為未來的工作提供啟示,促進更復雜但靈活的介面卡選項的訓練。
2.3 Importance of Alternating Training for Optimizing Bilinear Functions
交替訓練對於 SliME 的成功至關重要。本節還將闡明為什麼在多模態學習中,最初凍結一個模態並最佳化一個模態的介面卡,然後再進行跨多個模態的聯合最佳化,是比較常見的做法。
bi-linear 的形式在深度學習模型中普遍存在,特別是在多模態學習中,不同模態的表示通常透過點積對齊。設目標矩陣 表示為 ,其中 是兩個歸一化向量。我們的目標是找到近似 的秩-1 矩陣,這導致以下最佳化問題:

在 LMMs 中,視覺編碼器和介面卡可以看作是視覺模態,而其他部分分類為文字模態,目標 可以看作是最優的 LMM。在我們的框架中,我們將介面卡和區域性壓縮層視為不同的函式,旨在近似最佳模態適應引數。假設 和 僅僅是向量當然是一種簡化,可能無法完全捕捉整個模型的複雜性。然而,這種簡化允許我們更有效地分析問題。
眾所周知, 的最優解與 的最大特徵向量對齊,即

因此, 的最優解應與矩陣 的最大特徵向量對齊。設 和 為初始解,其形式如下

其中 是兩個標量。這裡,我們利用了 和 必須位於 和 span 的子空間這一事實。然後我們有以下定理:
定理 1
使用梯度下降法,我們更新 和 的解為同時使用上式更新 和 在最佳化雙線性形式的目標函式時不太理想,因為梯度下降更新不一定收斂到最優解。
我們將證明,交替最佳化可以有效地解決梯度下降(或更準確地說,同時更新 和 )的問題。具體而言,我們將固定 最佳化 ,然後固定 最佳化 。我們將證明這種方法透過交替最佳化收斂到最優解。
定理 2
設 。我們將透過交替最佳化獲得的序列解 重寫為 。 在迭代中演變為 即,交替最佳化確保
這意味著 必然收斂到 的最大特徵向量,從而解決了梯度下降的侷限性。
2.4 Expanding Dataset Scope with Challenging Reasoning Tasks

▲ 圖3:SMR 資料集
生成源資料和指令資料。SMR 的建立涉及對公開可用資料集的精細合併,包括 Arxiv-QA, ScienceQA, MATH-Vision, TextBookQA~\citep, GeoQA3, Geometry3K, TabMWP, DVQA, AI2D, 和 ChartVQA。這些資料集中的問題型別和相關影像的多樣性如圖 Fig.~ 所示,給現有的指令資料集帶來了獨特的挑戰,如圖 3 所示。SMR 與傳統指令調優資料集之間的差異體現在兩個關鍵方面:
1. 具有挑戰性的推理任務。許多物理/社會科學和數學任務需要高階推理能力。特別是,諸如 Arxiv-QA, GeoQA3 和 TabMWP 等資料集提供完整的推理路徑,包括得出最終結果的中間步驟。在這種情況下,模型不僅要掌握基礎知識,還要能清晰表達複雜的推理過程,這是一項更為艱鉅的任務。
2. 對影像細節理解的需求。所有任務都需要對視覺細節有深刻的理解,因為許多影像包含豐富的註釋資訊或需要全面視覺分析的問題。這對於訓練我們的高解析度框架特別有益。為了確保資料的準確性,我們在收集後進行了仔細篩選。這涉及識別和修復諸如模糊影像或混亂文字、無關的影像-文字對,以及不能導致正確答案或可能導致錯誤結論的錯誤推理路徑。對於後者,我們使用 GPT-4V 建立新的準確推理路徑。

Experiment
3.1 Numerical Results

▲ 表1:Comparison with SoTA methods
一般問答和開放式生成。我們評估了 SliME 在各種基準上的效能,涵蓋了學術任務導向的評估和最近專為指令遵循的大語言模型(LLMs)量身定製的基準,總計 9 個。
我們的結果表明,SliME 在所有基準上均表現出優異的效能,即使與相似規模的 LLMs 相比,SliME 所使用的預訓練和指令調優資料集明顯更小。值得注意的是,SliME-8B 在某些基準(如 MMB 和 MME)上甚至超越了 Gemini Pro。先前的研究經常指出,LoRA 模型的效能與全面微調相當,這一趨勢在我們的許多基準上也得到了驗證。
然而,我們觀察到使用 LoRA 訓練的模型在指令遵循任務中表現不佳。這一觀察得到了在 LLaVA 基準中 SliME-8B 和 SliME-8B† 之間的效能差距的支援。此外,在對 MathVerse 的評估中,我們發現儘管模型提示明確要求簡潔的答案,SliME-8B† 始終生成包含中間推理的回答,而 SliME-8B 沒有這種行為。我們在附錄中對這些不一致性進行了詳細分析。

▲ 表2:Comparison with SoTA methods on Science and Mathematical Reasoning benchmarks
科學、數學和幻覺。我們進一步評估了 SliME 的幻覺特性和數學能力。如表 2 所示,SliME 在所有三個數學基準上均達到了最先進的效能,與 Gemini Pro 相當。此外,SliME 在 ScienceQA-Img 和幻覺基準上的表現尤為顯著,證明了所提出的 SliME 的有效性。
3.2 Ablation Studies and Analysis

為什麼全域性和區域性處理策略的差異是必要的?LLaVA-HD 不壓縮區域性特徵,相反,所有影像特徵都透過 MLP 直接投影,導致最大上下文大小為 4096。這種方法顯著增加了訓練和推理時間。相反,Monkey 使用 144 個可學習查詢嵌入壓縮所有全域性和區域性影像令牌,類似於 SliME。
由於影像特徵主要由區域性影像細節主導,LLaVA-HD 對 SQA 資料集不利。相反,對於需要更多影像細節的資料集,如 VQAT,LLaVA-HD 始終表現出效能提升。Monkey 的方法,壓縮所有特徵,在 SQA 和 VQAT 上比 LLaVA-HD 高出近 1 分,但在其他基準上表現較差,強調了保持全域性上下文不壓縮的重要性。相比之下,SliME 保持所有全域性上下文並透過壓縮提供額外的影像細節,無論資料集是優先考慮全域性上下文還是區域性細節,均能取得優異的結果。
交替訓練對效能的影響:在本部分中,我們探討了交替訓練對模型效能的影響。為了評估交替訓練的重要性,我們首先直接比較效能(表 3 中的第 4 行和第 7 行),揭示了它們之間顯著的效能差距。為了進一步探索這一現象,我們分別將全域性和區域性特徵作為影像令牌,以評估每種特徵提供的影像資訊量。值得注意的是,對於端到端訓練的模型,僅使用全域性特徵就能取得令人滿意的結果,而區域性特徵訓練不足,導致大多數基準上的效能較差。
相反,當僅使用 SliME 的區域性特徵時,效能顯著提高,這可歸因於模型專注於學習區域性特徵壓縮,導致區域性特徵訓練良好。儘管有此改進,僅使用區域性特徵在基準上仍然不足,突顯了全域性視角的關鍵性。
保留令牌數量的影響:我們驗證了我們的假設,即更多的影像令牌並不總能帶來更好的結果。例如,當 設定為 75% 時,大多數基準上都顯現出一致的效能提升。這表明,透過丟棄無關的影像令牌和填充令牌,模型可以更加關注與所提出問題最相關的部分。

定性結果:展示了 SliME 在高解析度影像感知中的優異表現,這些結果強調了區域性特徵對於 SliME 的重要性,因為它們豐富了影像細節並促進了對視覺資訊的更深入理解。此外,最終的 SliME 展現了強大的開放生成能力,包括從流程圖生成程式碼、基於影像創作故事和提供建議等任務。

Limitation and Future Work
本文一個主要的限制在於三階段訓練方法。儘管交替訓練在理論和實踐上都優於端到端訓練,但不可避免地延長了訓練時間。一個有前途的改進方向是深入研究針對這種雙線性公式的最佳化方法,可能將交替訓練策略轉化為端到端訓練中的 soft constraint。
未來研究的另一個有前途的方向是影像令牌的減少。鑑於現有研究將所有區域性和全域性特徵整合到 LLM 中,處理超高解析度影像的計算成本變得極高。因此,一個未解的問題是:我們是否可以借鑑計算機視覺中的令牌合併技術,進一步減少影像令牌?透過這樣做,我們可以在不增加 LLM 影像令牌的情況下保留足夠的區域性細節。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
