
來源 |RUC AI Box
作者|顧俞凱@中國人民大學
研究方向|多模態模型
思維鏈 (Chain-of-Thought, CoT) 已被廣泛認為是提升大型語言模型 (LLM) 推理能力的關鍵技術。受 Deepseek R1 等模型成功的啟發,研究者們正積極探索如何將類似的推理強化方法應用於多模態大模型(MLLM)。本文旨在梳理近期多模態模型推理的相關研究進展,以期為未來研究提供參考。
1.Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
https://arxiv.org/pdf/2501.12948
簡介:
DeepSeek-R1-Zero已成功證明了LLM僅透過強化學習(RL)就能湧現推理能力。本篇工作探索了相同思路在視覺大模型(VLM) 上的應用。作者透過現有 MLLM 結合推理LLM 構造高質量多模態CoT 資料集用於冷啟動,在此基礎上應用強化演算法併成功得到多模態推理模型 Vision-R1。實驗表明該模型在先進推理準則上取得較好結果。
2. Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
https://arxiv.org/abs/2501.13926
簡介:作者探索了使用思維鏈技術提升多模態模型影像生成能力的方法,提出用於評估多模態思維鏈影像生成過程的獎勵模型PARM+。透過過程評估和反思糾正,研究在多個多模態影像生成指標中取得顯著改進。
3. Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
https://arxiv.org/abs/2501.07542
簡介:為了解決 MLLM 現有的推理方法在空間推理任務上表現不佳的問題,作者提出生成視覺思考軌跡用於多模態推理的思維鏈正規化 MVoT。工作透過生成推理軌跡的影像視覺化,使 MLLM 能夠進行視覺思考,為視覺思考補充語言推理的複雜推理任務建立了新的可能性。
4. Grounded Chain-of-Thought for Multimodal Large Language Models
https://arxiv.org/abs/2503.12799
簡介:針對MLLM 在視覺-空間推理任務中容易出現幻覺的問題,作者提出新任務 Grounded Chain-of-Thought(GCoT) 並構建資料集 MM-GCoT 與對應評估指標。作者希望資料中包含的連貫定位資訊可以幫助未來的多模態模型培養其空間CoT 能力。
5. video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
https://arxiv.org/abs/2502.11775
簡介:針對現存多模態模型推理侷限於關注數學或視覺圖形的問題,作者嘗試將推理能力拓展到通用影片理解中。為了增強其推理能力,作者開發推理密集資料集與相應影片理解基準 RivaBench,推出推理影片理解模型video-SALMONN-o1。模型在多個不同的影片推理基準中證明其能力的增強。
6. LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
https://arxiv.org/abs/2501.06186
簡介:作者為視覺推理提供了一個綜合框架。包括 1. 用於評估多步驟推理任務的視覺推理鏈基準 2. 用於評估視覺模型單步驟質量的指標 3. 新的多模態視覺推理模型 LamaV-o1。相關模型和程式碼均可公開使用。
7. Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking
https://arxiv.org/abs/2502.02339
簡介:作者提出一種名為AStar的自動化結構化思維正規化,用於通過蒙特卡洛樹搜尋(MCTS)進行多模態推理。工作表明,該框架無縫集成了模型的內部推理能力和外部推理指導,從而能夠以最少的樹迭代次數實現高效推理。模型使用 7B 骨幹在 MathVerse 基準上超越GPT-4o 的同時保持了良好的計算效率。
8. R1-Zero's"Aha Moment"in Visual Reasoning on a 2B Non-SFT Model
http://arxiv.org/abs/2503.05132
簡介:DeepSeek-R1 的一大特徵為模型在訓練過程中表現出自反思和增加響應長度(頓悟時刻)。然而,將這種成功擴充套件到多模態推理的嘗試往往未能重現這些關鍵特徵。該工作中,作者展示了首次在僅使用非 SFT 的 2B 模型上成功複製這些多模態推理的湧現特徵。
9. MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
https://arxiv.org/abs/2503.07365
簡介:作者提出 MM-Eureka,成功地將基於規則的強化學習(RL)擴充套件到多模態推理,工作在多模態空間中重現了類似於DeepSeek-R1 的基於文字的RL系統的關鍵特徵,包括準確率獎勵和響應長度的穩定增長,以及反思行為的出現。作者證明,指令調優和預訓練模型都可以透過基於規則的RL來發展強大的多模態推理能力而無需監督微調。
10. VisRL: Intention-Driven Visual Perception via Reinforced Reasoning
https://arxiv.org/abs/2503.07523
簡介:該工作提出一個將強化學應用到視覺理解任務的框架 VisRL,僅僅使用視覺獎勵訊號來最佳化視覺推理過程讓模型可以在沒有沒有昂貴區域註釋的情況下學習到正確焦點。VisRL 證明了強大的泛化能力,在多個基準的實驗上取得有效結果。
11. Visual-RFT: Visual Reinforcement Fine-Tuning
http://arxiv.org/abs/2503.01785
簡介:強化微調透過對答案的反饋來進行最佳化。本工作引入了視覺強化微調 (Visual-RFT),進一步擴充套件了 RFT 在視覺任務上的應用領域。作者為不同任務提出視覺感知可驗證獎勵函式並透過GRPO 更新引數,透過細粒度影像分類,少樣本目標檢測,grounding,開放詞彙目標檢測等基準上的實驗表明了這種正規化在多模態模型上的有效性。
12. Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning
https://arxiv.org/abs/2503.07065
簡介:儘管最新的視覺大模型在各個方面表現了卓越的能力,但是大規模的模型擴充套件限制了它們的實際部署。本工作聚焦於小規模視覺模型的OOD 泛化能力和推理能力,提出了一種兩階段的課程強化微調(Curr-ReFT),包括了 1. 難度感知的課程強化學習 2. 基於拒絕取樣的自我改進。大量實驗表明 Curr-ReFT 在各種任務中彌合了小模型和大模型間的差距。
13. LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
https://arxiv.org/abs/2503.07536
簡介:雖然基於規則的強化學習(RL)在純文字領域表現出色,但其多模態擴充套件還面臨著障礙。為了應對這些挑戰,作者提出兩階段框架 LMM-R1,包括 1. 基於規則的RL和純文字資料來增強推理能力 2. 將這些推理能力推廣到多模態領域。實驗表明基於文字的推理增強能夠實現有效的多模態泛化,提供了一種資料高效的範例。
14. R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
https://arxiv.org/abs/2503.10615
簡介:現有的視覺-語言模型通常難以有效地分析和推理視覺內容,導致在複雜的推理任務中表現不佳。為此,作者提出R1-Onevision,將影像轉換為正式的文字表示,從而實現精確的基於語言的推理。實驗結果表明,R1-Onevision在多個多模態推理基準測試中優於GPT-4o和Qwen2.5-VL等模型。
15. R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
https://arxiv.org/abs/2503.12937
簡介:現有的思維鏈微調方法往往導致模型僅僅模仿成功的推理路徑,而不理解錯誤的推理路徑是什麼。為此,作者設計了 StepGRPO,透過引入逐步推理準確性獎勵和逐步推理有效性獎勵引導模型進入關鍵推理路徑,並依次推出 R1-VL,並在多個基準測試上的大量實驗證明了有效性。
附:Github相關高星repo
1. VLM-R1: A stable and generalizable R1-style Large Vision-Language Model (4.2k star)
https://github.com/om-ai-lab/VLM-R1 (4.2k star)
簡介:作者提出 VLM-R1 框架,支援在QwenVL, InternVL 等多個指標上覆現類R1 推理方法。實驗表明RL 方法可以有效提升多模態模型的物體檢測效能。
2. Open-R1-Video (280 star)
https://github.com/Wang-Xiaodong1899/Open-R1-Video (280 star)
簡介:作者提出將R1 方法應用到影片理解任務的框架並開源相關程式碼和訓練記錄。
3. EasyR1: An Efficient, Scalable, Multi-Modality RL Training Framework (1.6k star)
https://github.com/hiyouga/EasyR1 (1.6k star)
簡介:作者提出一個支援多模態模型的高效能RL 訓練框架 veRL。
4. R1-V: Reinforcing Super Generalization Ability in Vision Language Models with Less Than $3 (3.3k star)
https://github.com/Deep-Agent/R1-V
簡介:作者提出適用於VLM 的可驗證獎勵強化學習框架R1-V 並驗證了它們的有效性。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
