ICLR2025|自動化所、曠視等提出Ross,多模態大模型的MAE時刻來了?

「Vision-Centric Supervision」Matters in Large Multimodal Models!

今天介紹我們在多模態大模型領域的一篇原創工作。目前 Ross 已被 ICLR 2025 接收,相關程式碼已開源,有任何問題歡迎在 GitHub 提出。
論文標題:
Reconstructive Visual Instruction Tuning
論文連結:
https://arxiv.org/pdf/2410.09575
專案主頁:
https://haochen-wang409.github.io/ross/
程式碼連結:
https://github.com/haochen-wang409/ross
Huggingface Checkpoint:
https://huggingface.co/HaochenWang/ross-qwen2-7b
我們針對多模態大模型的視覺部分設計了重建原圖形式的監督訊號,該監督能夠顯著提升模型細粒度理解能力以及減輕幻覺。我們認為這是多模態大模型的 MAE 時刻,如何針對多模態大模型設計更好的 visual pre-text task 是後續研究的重點。
Motivation
在當今的多模態學習領域,多模態大模型儘管希望處理的是視覺資料,但其核心訓練過程卻幾乎完全依賴於文字監督,即 “images –> CLIP –> LLM <== text supervision” 的架構。
這種做法缺乏對原始視覺訊號的充分利用,模型的效能也很大程度上受限於被視覺表徵的好壞。
為了突破這一瓶頸,我們提出了一種全新的方法——Reconstructive Visual Instruction Tuning(Ross)
Ross 引入了視覺監督。它讓大型多模態模型(LMMs)直接從輸入影像中學習,透過重構影像來指導自身的最佳化過程。這種方式不僅充分利用了影像本身的豐富細節,還能夠顯著提升模型對細粒度視覺特徵的理解能力。
Method
既然輸入的影像本身就蘊含著大量的細節資訊,為什麼不直接利用它們來指導模型的學習呢?透過重構輸入影像作為監督訊號,我們鼓勵模型保持對低階細節的關注,從而增強了其細粒度的理解能力,並減少了幻覺現象的發生。
▲ Overview of Ross.
上圖展示了 Ross 的 high-level idea。不同於傳統的多模態大模型只利用了右半部分的 text supervision,Ross 引入了左半部分的 visual supervision。
在這個過程中,自然影像的空間冗餘性,難以為 LLM 直接提供有意義的監督訊號。為此,我們系統性地研究了(1)重建目標(2)重建損失,最終得到了一個巧妙的解決方案:採用去噪目標來重構隱特徵,如下圖所示。
Experiments
▲ Ross 在不同的 visual backbone + LLM 上,在多數情況都能獲得顯著的效能提升,特別是在 MMVP 這類細粒度理解任務上
▲ Ross 與 SOTA 方法的比較,僅僅使用一個 SigLIP,Ross 就能超越 Cambrian-1-8B 這個合併了 CLIP+SigLIP+ConvNeXt+DINOv2 的方法
▲ 引入 anyres 技巧後,Ross 在高解析度 benchmark 上也能取得優越的效能
In-Depth Analysis
絕對的數字並不是最關鍵的,我們更應該關注為什麼 Ross 這類視覺監督能 work。我們得出了以下的結論:
引入視覺監督能帶來更高的 attention values,多模態大模型更加看圖了:
▲ Ross 和 LLaVA 對於視覺 token 的 attention value 對比,Ross 的 attention values 顯著高於 LLaVA 的
引入視覺監督能帶來更合理的 attention map,多模態大模型更能關注到正確的區域:
▲ Ross 對 visual tokens 的 attention map 更合理,更能關注到問題相關的區域
引入視覺監督能讓模型的特徵包含足夠的細粒度資訊,把 frozen Ross-7B 的 feature 作為 condition,僅將 denoiser 在 ImageNet-1K 上 fine-tune 5 個 epoch,就能重建出圖!
▲ 原圖 (左) 和重建結果 (右)。Ross-7B 的特徵可以被完美的映射回 RGB space!
其中,最後一點是我們認為最有趣的發現,該結果表明,image –> SigLIP –> Qwen2 之後得到的特徵,透過 Ross 這樣的訓練後,竟然還能被映射回原始的 RGB pixel space。這說明 Ross 對於影像資訊的壓縮較少,保留了細粒度理解所需要的細節資訊。
Discussion and Future Work
我們認為 Ross 的成功,是多模態大模型的 MAE 時刻,如何針對多模態大模型設計更好的 visual pre-text task 將是後續研究的重點,LMM 的正規化不應該只是 text 端的 next-token-prediction!
當然,Ross 還有很多非常 straightforward 的拓展,例如拓展至生成領域,真正做到生成幫助理解。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章