Rule-based強化學習≠古早邏輯規則！萬字拆解o1多模態推理最新進展

隨著人工智慧領域的不斷發展，深度學習模型在多個任務中展現出強大的能力，尤其是在大規模語言模型（LLMs）和多模態大語言模型（MLLMs）中。

最近，DeepSeek R1 的提出引發了對強化學習（RL）在大模型最佳化中的巨大潛力的廣泛關注。特別是，rule-based 的強化學習透過基於規則的獎勵機制，成功地為模型提供了一種高效且可靠的最佳化途徑。這種方法不僅能夠在資料有限的條件下顯著提升大語言模型的效能，還展現了其在多模態任務中的強大適應能力。

隨著這一技術的逐步發展，已經被擴充套件應用到多模態大語言模型的訓練中，進一步推動了多模態推理能力的提升，展現了其廣泛的應用前景。本篇文章將討論來自 Aligning Multimodal LLM with Human Preference: A Survey（https://arxiv.org/abs/2503.14504）中五篇近期關注多模態 O1-reasoning 相關的文章。

CUHK: LMM-R1

1.1 Motivation 與主要貢獻

本文提出了 LMM-R1 框架，旨在增強大規模多模態模型（LMMs）的推理能力。文章的動機源於 LMMs 在視覺感知與邏輯推理之間複雜的互動作用，尤其是對於 3B 引數架構而言，由於架構約束，其推理能力和模態對齊能力受到限制。

當前，基於規則的強化學習（RL）在文字領域表現良好，但將其擴充套件到多模態領域面臨兩大挑戰：一是資料不足，尤其是在多模態任務中存在答案模糊和複雜推理示例稀缺的問題；二是多模態預訓練導致基礎推理能力下降。

為了應對這些挑戰，本文提出了 LMM-R1 框架，該框架透過基礎推理增強（FRE）和多模態泛化訓練（MGT）兩個階段，利用基於規則的 RL 方法有效提升多模態推理能力。

實驗結果表明，LMM-R1 在多模態和文字基準任務中相較於基線模型有顯著提升，驗證了基於文字的推理增強能夠有效地進行多模態泛化，從而避免了昂貴的高質量多模態訓練資料的需求。

1.2 方法部分

LMM-R1 的訓練流程分為兩個階段：基礎推理增強（FRE）和多模態泛化訓練（MGT）。

強化學習演算法

文章採用了 PPO 演算法訓練 LMMs，目標是最大化以下目標函式：

其中，為生成的答案，為影像輸入，為文字提示，為策略模型，為固定的初始策略，為KL散度的懲罰係數。

獎勵函式設計

文章使用了雙重獎勵機制：

格式獎勵：檢查模型回答是否遵循指定的結構格式，即在 <think></think>標籤內展示推理過程，並將最終答案放在 <answer></answer>標籤內。
準確性獎勵：透過符號驗證方法評估答案的正確性，解析模型的回答和地面真值解決方案，並進行等價性比較。
最終獎勵函式為：，其中，為格式獎勵，為準確性獎勵，控制格式獎勵與準確性獎勵的相對重要性。

LMM-R1 模型的兩階段訓練

第一階段：增強基礎推理能力。首先利用大量高質量的文字資料進行規則強化學習訓練，提升模型的推理能力。
第二階段：在多模態任務中進行推理能力的泛化訓練，針對不同的任務域進行訓練，提升模型的多模態推理能力。

多模態泛化訓練

在兩個不同的任務域中進行訓練：

通用多模態推理域：包括幾何推理領域和感知推理平衡領域，前者關注幾何問題，後者涉及視覺問答、文件理解等任務。
代理相關推理域：透過使用經典的 Sokoban 規劃遊戲和足球比賽任務，測試模型的空間推理、規劃能力以及在複雜視覺環境中的決策能力。

1.3 實驗部分

FRE 階段實驗

在文字推理任務上，FRE-Text 模型相比基線模型有顯著提升，MATH500 和 GPQA 任務上分別提高了 2.0% 和 6.57%。
然而，在多模態任務中，FRE-Text 模型的提升較為溫和，而 FRE-Multi 在視覺推理任務上表現更好，尤其是在 MathVista 和 MM-Star 任務上。

MGT 階段實驗

幾何領域（MGT-Geo）：MGT-Geo 模型在多模態基準任務上超過了基線模型 3.21%，在幾何相關任務上也有顯著提升。與 Direct-RL-Geo 模型相比，MGT-Geo 在 MathVision 和 MathVerse 任務上表現更好，證明了FRE階段對多模態推理的積極影響。
感知-推理平衡領域（MGT-PerceReason）：該模型在視覺任務上表現出顯著提升，尤其在 MathVista 和 MM-Star 任務上，且在推理任務上的表現保持穩定。

代理相關推理實驗

Sokoban 任務：MGT-Sokoban 模型在 Sokoban-Global 環境中相較於基線提高了 5.56%，在 Football-Online 任務中也有顯著提升。相比之下，FRE-Text 和 Direct-RL-Sokoban 模型在這些任務中的表現較弱，驗證了基於規則的強化學習對代理任務的有效性。

SFT 與 RL 的比較

對比 SFT 與 RL 訓練，實驗結果顯示，SFT 方法會導致嚴重的災難性遺忘，而 RL 訓練能夠有效避免這一問題，並在下游任務中取得更好的表現，尤其在幾何任務中的表現更為突出。

1.4 討論與結論

LMM-R1 框架透過兩階段的訓練策略顯著提升了大規模多模態模型的推理能力，尤其是在複雜的推理任務和視覺任務中。實驗結果表明，文字推理增強提供了強大的推理基礎，而多模態資料的加入則增強了視覺推理能力。

與傳統的多模態強化學習方法相比，LMM-R1 框架透過合理選擇訓練資料，在避免災難性遺忘的同時，提升了模型在多模態任務中的表現。未來的工作將進一步擴充套件該框架，探索更多領域的多模態推理應用。

通義實驗室：R1-Omni

儘管 RLVR 在影像-文字多模態任務（如幾何推理和視覺計數）中取得了成功，但目前尚未有研究將其應用於更復雜的多模態任務，例如結合影片、音訊和動態視覺內容的情感識別任務。

情感識別是一項對視覺和音訊資訊高度依賴的任務，具有豐富的跨模態資訊互動需求。本文旨在填補這一空白，將 RLVR 應用於影片 Omni 多模態模型，探索其在情感識別任務中的潛力。

2.1 主要貢獻

1. 首次將 RLVR 應用於影片 Omni 多模態模型：透過整合視覺和音訊資訊，最佳化情感識別任務。

2. 增強推理能力：模型能夠清晰分析視覺和音訊資訊在情感識別中的貢獻，為多模態模型的最佳化提供重要洞察。

3. 提升情感識別準確性：相比監督微調（SFT），RLVR 顯著提高了情感識別任務的效能。

4. 強化泛化能力：RLVR 模型在分佈外（OOD）資料集上的表現遠超 SFT，展現了更強的魯棒性和適應性。

2.2 方法部分

2.2.1 冷啟動階段（EMER資料集）

在冷啟動階段，HumanOmni 模型透過在 EMER 資料集和手動標註的 HumanOmni 資料集上進行微調，利用多模態資料（影片和音訊）來提升初步的情感推理能力。

EMER 資料集包含了詳細的情感推理過程註釋，透過對影片中的人物表情、語音特徵和文字內容的綜合分析，模型能夠學會如何從視覺和音訊線索中推測出情感狀態。

2.2.2 強化學習最佳化（RLVR）

在 RLVR 訓練過程中，HumanOmni-0.5B 模型的訓練透過強化學習框架進一步最佳化。該過程以多模態輸入資料（影片幀和音訊流）為基礎，模型生成候選回應並附帶詳細的推理過程。

推理過程中，模型解釋如何整合視覺和聽覺資訊以得出情感預測。為了最佳化模型的預測準確性，設計了一個包含準確性獎勵（Racc）和格式獎勵（Rformat）的複合獎勵函式。準確性獎勵衡量預測情感是否與真實標籤匹配，而格式獎勵確保模型輸出符合預定的格式要求。

在 RLVR 訓練階段，結合準確性獎勵和格式獎勵的複合獎勵函式能夠有效地引導模型提高情感識別的準確性，並確保輸出格式的規範性。

實驗結果顯示，RLVR 框架下訓練的模型在情感識別任務中取得了顯著的效能提升，特別是在多模態資料融合方面，模型能夠更好地整合視覺與聽覺資訊，做出更精確的情感預測。

Shanghai AI Lab: MM-EUREKA

本文旨在研究大規模 RL 在多模態推理中的有效性，並且開源了完整的訓練流程和模型。研究表明，透過基於規則的 RL，無需監督微調（SFT），指令調優和預訓練模型均能開發出強大的多模態推理能力。此外，與其他後訓練方法相比，MM-Eureka 表現出了卓越的資料效率和競爭力。文章的主要貢獻包括：

提出了基於 Open-RLHF 的多模態大規模強化學習框架，支援多種模型並增強了可擴充套件性，能夠訓練更大的模型；
構建了多模態推理模型 MM-Eureka-8B 和 MM-Eureka-Zero-38B，二者均能表現出“視覺 Aha 時刻”，並在推理過程中實現精度獎勵和響應長度的穩步增長；
透過實驗展示，簡單的基於規則的 RL 相比其他後訓練方法（如 MPO 和 SFT）具有顯著的資料效率優勢，且在多個基準任務上取得了優異的表現。

3.1 方法部分

為了進行實驗，文章選擇了 InternVL2.5 作為基礎模型，因為它提供了多種模型規模，適合用於規模化實驗。透過使用強大的基礎模型，能夠系統性地研究在強化學習（RL）中擴充套件的影響。

RL 演算法與 DeepSeek-R1 類似，使用基於規則的獎勵（如準確性獎勵和格式獎勵）進行訓練。此外，構建了一個基於 OpenRLHF 的多模態輸入 RL 框架，支援不同模型規模的訓練，相容如 InternVL 等常用模型。

3.1.1 資料集

資料集構建過程中，文章主要依賴開源資料，結合人工收集的 K-12 水平數學推理問題，增強資料的推理特性。資料清洗的過程包括：

資料收集：從多個開源資料集（如 GeoQA、ChartQA、MATH 等）收集具有數學推理屬性的資料。同時，人工收集了 K-12 級別的多模態數學推理問題，共收集了 75514 個樣本，涵蓋多個關鍵類別，如圖表理解、科學推理和數學推理等。

資料過濾：採用兩步過濾策略剔除低質量資料。首先，排除沒有明確答案的問題和難以解析的多選題；其次，使用 InternVL2.5-8B-Instruct 模型生成每個問題的 8 個答案，透過準確度評估問題的難度，並去除準確度為 0 或 1 的樣本，確保 RL 訓練過程的穩定性。

3.1.2 獎勵函式

基於 DeepSeek-R1，文章採用了簡單的基於規則的獎勵函式，而非使用結果或過程獎勵模型，從而避免了獎勵欺騙問題。具體而言，使用兩種獎勵：

準確性獎勵：透過 math-verify 庫從模型輸出中提取答案，並與參考答案進行比較，若匹配則返回 1，否則返回 0。

格式獎勵：檢查模型輸出是否符合規定的格式（例如：<think>…</think><answer>…</answer>），符合則返回 1，否則返回 0。

最終獎勵由準確性獎勵和格式獎勵加權求和而得，其中格式獎勵的貢獻透過 λ 進行調整。實驗表明，這種簡單的稀疏獎勵足以顯著提高模型的多模態推理能力。

3.1.3 優勢估計與策略更新

在強化學習訓練階段，文章採用了 REINFORCE Leave-One-Out（RLOO）演算法。與 GRPO 演算法類似，RLOO 演算法無需使用評論家模型，從而有效降低了訓練成本。此外，RLOO 演算法透過留一法基準來減少策略梯度估計中的方差。優勢估計的計算公式為：

對於 actor loss，採用了 PPO-clip 損失（PPO-clip loss），以避免在更新過程中產生過大的偏差，保持訓練的穩定性。

3.1.4 關鍵發現

資料過濾對穩定訓練的重要性：資料過濾對多模態推理中的穩定 RL 訓練至關重要。透過對比有無資料過濾的訓練結果，發現未經過濾的資料訓練非常不穩定，準確性獎勵呈波動趨勢，響應長度呈下降趨勢。

這表明，包含錯誤答案的資料會導致獎勵的不穩定，使學習變得困難。

簡單的 RL 訓練設定足夠有效：實驗發現，最簡單的訓練設定（不使用 KL 散度）同樣能夠有效復現 DeepSeek-R1 在多模態推理中的推理模式。儘管之前的研究表明，保持 KL 散度有助於防止模型在訓練過程中過度最佳化獎勵，導致語言模式的退化。

但本文的結果表明，當從指令調優模型開始微調時，省略KL散度不僅能減少訓練的計算成本，還能保證響應長度的穩定增長。

視覺 Aha 時刻：透過基於規則的 RL 訓練，模型在多模態推理場景中表現出了類似的反思和驗證行為（例如 “Aha 時刻”）。實驗中發現，模型在推理過程中會重新感知影像並檢查中間步驟，透過這種反思行為，模型能夠糾正之前的錯誤，並透過驗證步驟得到正確答案。

這種行為表明，模型不僅在數學問題中能展現出類似的思維模式，對於視覺常識問題和圖表理解任務，模型也表現出了延伸的思維過程，包含了反思和類似的操作。

3.2 實驗部分技術細節

模型訓練設定

對於 instruct 模型和預訓練模型，採用了不同的提示策略。在 instruct 模型中，保留了內建的系統提示，並將格式相關的資訊包含在使用者提示中。相比之下，基於 DeepSeek-R1-Zero 方法的 base 模型，則是在系統提示中直接提供格式資訊。
在強化學習設定中，對於兩種模型，格式獎勵的係數有所不同。由於 instruct 模型具有更強的指令遵循能力，格式獎勵係數設為 0.5；而對於 base 模型，考慮到其較弱的指令遵循能力，格式獎勵係數設為 1.0，以鼓勵其更嚴格地遵循指定的響應結構。

訓練超引數設定

rollout 批次大小設為 128，訓練批次大小設為 64，每個樣本生成 8 個 rollouts。模型生成溫度設為 1，不計算 KL 散度。
對於 8B 模型，學習率設為 3e-7；對於 38B 模型，學習率設為 5e-7。

後訓練策略

SFT：直接使用強化學習資料進行 SFT 訓練，按照 InternVL2.5 的預設設定訓練 1 個 epoch。
COT SFT：由於收集的資料不包含 COT 註釋，作為基線使用 MAmmoTH-VL-8B 模型進行 COT SFT 訓練。
MPO：由於缺乏負例資料，使用 MMPR 進行 MPO 訓練，以作為基線。

資料集和基準評估

文章使用了多個基準資料集進行評估，如 MathVista、MathVerse、MathVision 和 OlympiadBench，這些資料集涉及視覺問答、幾何推理等任務。
還引入了新的 K12 數學資料集，評估模型解決中學到高中級別數學問題的能力。

訓練策略與實驗

RL from Instruct Model：在 InternVL-8B-Instruct 模型上應用基於規則的 RL 訓練，訓練過程中不僅提高了準確性獎勵，還增加了響應長度，從而提升了推理能力和整體表現。
RL from Pretrained Model：在 InternVL-38B-Pretrained 模型上進行 RL 訓練，即使資料量較少（9.3K 資料樣本），也取得了顯著的效能提升，尤其是在 K-12 基準上提高了 8.2% 的準確性。

3.3 實驗部分有趣的實驗發現

不同後訓練策略的比較

SFT：直接用強化學習資料進行訓練，與傳統的 SFT 方法相比，效果較為平穩，但效能提升較慢。
COT SFT：透過使用大量 COT 註釋資料，取得了顯著的效能提升，尤其在多模態數學推理任務上。
MPO：使用 MPO 方法進行訓練時，儘管使用了更多的資料樣本（1M 資料），但效果相對較為遜色。

訓練過程中效能提升

在規則強化學習的訓練過程中，無論是在 instruct 模型還是預訓練模型上，隨著訓練的進行，準確性獎勵和響應長度都呈現出穩定的增長趨勢。
儘管訓練資料量較小，38B 預訓練模型的 RL 訓練仍顯著提高了效能，特別是在 K-12 任務中的表現。

資料過濾策略的實驗

離線資料過濾（Offline Data Filter）：這種方法能夠穩定訓練過程，但在資料利用效率上有所浪費。
線上資料過濾（Online Data Filter）：儘管這種方法增強了訓練穩定性，但未能顯著提高準確性獎勵或響應長度，主要是由於訓練過程中的梯度不穩定。

模型規模的影響

在多模態推理任務中，較小的模型（如 8B）無法保持穩定的規則強化學習訓練，尤其在精確度獎勵和響應長度方面表現波動較大。
相比之下，較大的 38B 模型則能在相同資料條件下保持穩定訓練，且效能提升更加明顯。

小紅書：Vision-R1

本文提出了 Vision-R1，旨在透過結合冷啟動初始化和強化學習（RL）訓練來提高推理能力。

當前，傳統的推理方法通常依賴簡單的直接預測，缺乏明確的推理步驟，因此在複雜推理任務中往往表現不佳。儘管近年來有研究嘗試透過鏈式思維（CoT）提升 LLMs 的推理能力，但在多模態任務中，現有的技術仍然難以產生複雜的推理過程。

為了解決這一問題，文章提出了一種新的方法，透過資料生成和強化學習，使得多模態模型能夠自我發展出複雜的推理能力。

文章的主要貢獻包括：

提出了 Vision-R1，這是一種結合冷啟動初始化和 RL 訓練的多模態推理模型。該模型是首個透過 RL 增強 MLLM 推理能力的探索性工作。
透過模態橋接和資料過濾技術，構建了一個 200K 樣本的高質量多模態 CoT 資料集，作為 Vision-R1 的冷啟動初始化資料。
提出了漸進式思維抑制訓練（PTST）策略，配合 Group Relative Policy Optimization（GRPO）演算法，有效解決了冷啟動初始化後模型的“過度思考”問題，推動了模型推理能力的逐步提升。

4.1 方法部分

4.1.1 直接使用強化學習（RL）是否能激勵MLLMs的推理能力？

文章的初步實驗嘗試了透過直接使用 RL 來激勵多模態大語言模型（MLLMs）發展出複雜的推理能力。

實驗中使用了 10K 個開源數學問題資料集，並採用了 DeepSeek-R1-Zero 的訓練流程，使用 Group Relative Policy Optimization（GRPO）演算法進行訓練。獎勵函式包括格式獎勵和結果獎勵：

格式獎勵：模型輸出必須符合 <think> </think><answer> </answer> 的格式要求。
結果獎勵：模型生成的最終結果必須與地面真值匹配。

經過純 RL 訓練的模型被命名為 Vision-R1-Zero。然而，實驗發現，直接將 RL 應用於訓練 MLLMs 並不能有效激發複雜的 CoT 推理，模型在生成長且複雜的推理鏈時出現了效能下降。

因此，作者提出，直接使用 RL 來激勵 MLLMs 的推理能力仍然面臨很大挑戰，尤其在資料質量、數量和計算資源的限制下。

4.1.2 Vision-R1 的概述

為了解決上述問題，文章提出了 Vision-R1，這是一種結合冷啟動初始化和強化學習（RL）訓練的多模態推理模型。該模型首先透過冷啟動初始化，使用一個多模態 CoT 資料集來訓練基礎模型，使其學習“類人”的推理方式。之後，透過 RL 訓練來引導模型採用正確的推理過程，從而進一步激勵模型的推理能力。

4.1.3 冷啟動初始化

Vision-R1 的訓練首先依賴於冷啟動初始化，這一過程透過構建一個高質量的多模態 CoT 資料集來實現。

在此過程中，使用現有的多模態大語言模型（MLLM）和 DeepSeek-R1，結合模態橋接技術，將多模態資訊轉化為文字資訊，從而生成“偽 CoT” 推理文字。這些文字包含了詳細的視覺描述和推理過程，幫助模型學習更復雜的推理任務。

模態橋接：

利用現有的 MLLM 和 DeepSeek-R1，先透過輸入影像-問題-答案對生成“偽 CoT” 推理文字，接著將這些文字與影像資訊結合，最終生成高質量的推理過程。透過這種方法，將視覺資訊轉換為文字描述，使模型能夠從中提取更豐富的推理資訊。

透過這種方式，最終獲得的 Vision-R1-cold 資料集包含了 200K 個多模態人類級複雜 CoT 推理樣本，作為 Vision-R1 的冷啟動初始化資料。

4.1.4 過度思考最佳化問題

在 Vision-R1 的冷啟動初始化過程中，作者發現模型傾向於在某些問題上進行過長的推理過程，而正確的推理過程通常集中在較短的推理鏈中。這一現象被稱為“過度思考最佳化問題”，即模型在處理複雜問題時，儘管推理鏈的長度增加，但錯誤的推理並沒有帶來效能的提升。

4.1.5 漸進式思維抑制訓練（PTST）

為了解決過度思考問題，文章提出了漸進式思維抑制訓練（PTST）策略。在 RL 訓練的早期階段，透過限制推理長度來引導模型學習正確的推理方法。

隨著訓練的進行，逐步放寬這些限制，讓模型自我學習如何使用更長的 CoT 推理來解決更加複雜的問題。PTST 結合了 GRPO 和硬格式結果獎勵函式，幫助 Vision-R1 逐步提升推理能力。

GRPO 與 PTST 的實施：

在訓練過程中，PTST 透過限制推理的長度，確保模型能在較短的推理鏈上掌握正確的思維方式，而隨著訓練的推進，逐步增加推理鏈的長度，從而幫助模型處理複雜的推理任務。
GRPO 則透過對生成的多個輸出進行比較和最佳化，幫助模型在多個樣本中選擇最優的推理路徑。

4.2 實驗部分

4.2.1 實驗設定

資料集和基準測試：為了獲取冷啟動資料集，文章使用了多模態視覺問答（VQA）資料集、LLaVA-CoT 資料集（100K）和 Mulberry 資料集（260K），並結合這些資料集構建了 Vision-R1-cold 資料集（200K）。

在 GRPO 訓練過程中，使用了多個數學資料集，包括 We-Math、MathVision、Polymath、SceMQA 和 Geometry3K，作為 RL 訓練資料，總資料量約為 10K。

評估基準：為了評估 Vision-R1 的推理能力，選擇了三個廣泛使用的多模態數學基準：MM-Math、MathVista 和 MathVerse，這些基準覆蓋了多種數學領域，有助於全面評估 MLLM 的數學推理能力。

此外，還選取了四個通用的多模態基準（MM-Star、ChartQA、MME 和 HallBench）來展示模型的通用能力。

實現細節：Vision-R1-cold 資料集的準備使用了 128 個 NVIDIA H800 80G GPU，部署了開源 MLLM Qwen-2.5-VL-72B 和推理 LLM DeepSeek-R1，約 2 天內處理了 VQA 資料集。

對於 Vision-R1-7B 的冷啟動初始化，使用 Qwen-2.5-VL-7B-Instruct 作為基礎模型，透過監督微調（SFT）在 32 個 NVIDIA H800 80G GPU 上進行 2 個 epoch 的訓練。冷啟動初始化後，得到了 Vision-R1-CI-7B 模型，隨後透過 GRPO 在 64 個 NVIDIA H800 80G GPU 上進行訓練，約 2 天。

模型概述：

文章中提到的各模型如下：

Vision-R1-Zero：直接將 RL 應用於基礎 MLLM，無冷啟動初始化。
Vision-R1-CI：基礎 MLLM 透過 Vision-R1-cold 資料集進行冷啟動初始化。
Vision-R1-Long：將生成長度最大為 16K tokens 的模型，經過 300 步訓練。
Vision-R1：採用漸進式思維抑制訓練（PTST）策略，應用兩階段 RL 訓練過程。

4.2.2 主要結果

數學推理：在多個數學推理基準上，Vision-R1-7B 表現出色，尤其是在 MathVista 基準測試上，Vision-R1-7B 的得分為 73.5%，僅比領先的推理模型 OpenAI O1 低 0.4%。

在 MathVista 的複雜數學推理子任務（幾何推理、代數推理和幾何問題解決）中，Vision-R1-7B 分別達到了 80.3%、79.0% 和 83.2% 的得分，平均準確率比基礎模型 Qwen-2.5-VL-7B 提高了超過 10%。

在更具挑戰性的 MathVerse 和 MM-Math 基準上，Vision-R1-7B 分別排名第一和第二，證明了其解決複雜數學問題的有效性。

冷啟動資料集質量：透過對 Vision-R1-cold 資料集的質量分析，發現該資料集與現有的多模態 CoT 資料集相比，顯著提高了認知自我反思和檢查的比例。這些複雜的 CoT 結構有助於基礎 MLLM 學習推理機制，從而為後續的 RL 訓練提供了高質量的冷啟動初始化資料。

Vision-R1-LlamaV-CI-11B 模型在 SFT 後的表現超過了 LLaVA-CoT-11B 和 Mulberry-Llama-11B，特別是在 MM-Math 基準上，Vision-R1-LlamaV-CI-11B 比 Mulberry-Llama-11B 提高了 7.4% 的準確率，驗證了 Vision-R1-cold 資料集的優越性。

消融實驗：透過對不同 RL 訓練策略的比較，結果顯示，Vision-R1-Zero（直接使用 RL 訓練而不進行冷啟動初始化）在生成長且複雜的 CoT 推理時表現不佳，限制了其處理複雜推理任務的能力。

而 Vision-R1-CI 則傾向於生成過長的 CoT 推理，儘管推理鏈長度增加，但卻未能提高效能。相比之下，Vision-R1 模型能夠有效平衡 CoT 複雜性和準確性，在推理表現上具有顯著優勢。

視覺化：透過對 Vision-R1-7B 的視覺化分析，發現該模型能夠生成複雜的推理過程，並且展示了類似於人類認知過程中的“頓悟時刻”（Aha moment）現象，即透過反思和檢查，模型能夠逐步改進推理路徑。這種複雜的推理能力顯著提高了模型的推理效能，使其能夠在複雜推理任務中取得優異的成績。

4.3 動機與主要貢獻

現有工作嘗試將這種成功擴充套件到多模態推理時，通常無法複製這些關鍵特性。本文的動機就是在非 SFT 的 2B 模型上，首次成功地復現這些多模態推理任務中的關鍵特性，尤其是“頓悟時刻”和推理長度的增加。

主要貢獻：

首次在非SFT 2B模型上覆現“頓悟時刻”和推理長度增加：透過直接在 Qwen2-VL-2B 模型上應用強化學習，成功復現了多模態推理中的“頓悟時刻”現象，並觀察到推理長度和準確度之間的正相關關係。

多模態推理任務中的推理能力提升：在直接應用強化學習進行多模態推理任務時，模型在 CVBench 上的準確率達到了 59.47%，比基礎模型提高了約 30%，並且比 SFT 模型高出約 2%。

揭示了 SFT 模型的侷限性：透過比較不同模型的實驗，發現直接在 SFT 模型上應用強化學習時，往往產生表面的推理過程，而缺乏真正的複雜問題解決策略。

開放原始碼：為便於社群進行進一步研究，文章還開源了該專案的程式碼，促進多模態推理的研究發展。

VisualThinker-R1-Zero

5.1 方法

基礎模型：該方法以 Qwen-2-VL-2B 為基礎模型，應用 GRPO 演算法和定製的聊天模板與提示策略來增強模型的推理能力。與在指令微調模型上進行訓練的方式不同。與指令微調的 Qwen-2-VL-2B-Instruct 模型相比，該方法消耗的訓練資源明顯較少，同時能夠在推理過程中成功復現 DeepSeek-R1 所觀察到的“頓悟時刻”。

訓練流程：模型直接在 SAT 資料集上進行訓練，讓基礎模型探索每個問題的空間推理。每個問題的聊天模板如下：

A conversation between User and Assistant. The user asks a question about the image, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer.User: {QUESTION}Assistant: Let me solve this step by step.<think>

模型根據這個模板生成響應，並使用 GRPO 進行最佳化。

獎勵建模：與 DeepSeek-R1 類似，採用簡單的基於規則的獎勵函式，避免使用複雜的獎勵模型或蒙特卡羅樹搜尋（MCTS）等技術。具體的獎勵方式如下：

如果響應提供了正確的最終答案，則模型獲得 +1 的準確性獎勵。
如果響應將思考過程包裹在 <think></think> 標籤中，並且最終答案在 <answer></answer> 標籤內，則模型獲得 +1 的格式獎勵。
其他情況下，模型不會獲得獎勵。

實驗表明，這種獎勵函式能夠幫助策略模型快速收斂到生成符合預期格式的響應。

5.2 實驗設定與結果

目標與資料集：該研究旨在展示透過 RL 訓練，小型非 SFT 模型如何解決視覺中心的空間推理任務，這類基準任務通常對更大的模型來說也具有挑戰性。

實驗使用了 SAT 資料集，包含 218k 個問題-答案對，問題透過照片級物理引擎合成，旨在增強空間智慧。訓練主要集中在靜態子集，包括相對空間關係、深度關係和物體計數等問題。

評估方法：為了測試方法的泛化能使用了 CVBench 基準，這是一項包括 2638 個例項的視覺中心基準，旨在評估二維和三維推理任務，涉及空間關係、物體計數、深度排序和相對距離等。該設定能夠系統地檢驗訓練方法在空間推理能力上的提升。

實驗實現細節：所有實驗都使用四塊 NVIDIA H100 GPU（每塊 80GB），每個裝置的批次大小設定為 1。模型訓練 1500 步，學習率為 1 × 10^-6，溫度為 1.0。為了在訓練過程中觀察到響應長度的增加，最大響應長度設定為 700。在 GRPO 最佳化過程中，每步取樣 8 個響應，並使用 KL 係數 0.04。

主要結果

在實驗中，Qwen2-VL-2B 非 SFT 模型經過微調後，我們在 CVBench 上的評估結果顯示，模型自發地展現了增加響應長度的趨勢，同時表現也隨之提高。與 SFT 方法相比，直接在基礎模型上應用RL獲得了更優的效能。

此外，我們還在多個空間推理資料集（如 BLINK 和 VSR）上進行了測試，結果表明，我們的方法在 CVBench 上相較於Qwen2-VL-2B（基礎模型）提高了約 30%，相較於 Qwen2-VL-2B SFT 模型提高了約 2%。在 BLINK 和 VSR 基準上，我們的方法也表現優異，相較於 SFT 訓練的模型，提升了約 27%。

多模態“頓悟時刻”：在訓練過程中，我們觀察到了與 DeepSeek-R1 相似的“頓悟時刻”現象。模型在訓練中會自發地重新審視其先前的判斷並探索其他選擇。這表明，RL 訓練能夠促進模型自發產生推理策略，不僅是簡單的學習答案，而是透過反思和自我糾錯來逐步提升推理能力。

關於 RL 應用於 SFT 模型的挑戰：儘管從零開始使用非 SFT 模型取得了成功，但當我們嘗試將 RL 應用於經過 SFT 的模型時，遇到了一些問題。

尤其是，在 SFT 模型上應用 RL 時，常常導致推理變得膚淺，出現了“平庸推理軌跡”。例如，在回答問題時，模型可能只是簡單地複製標準的回答模式，缺乏深入的推理。

我們發現，雖然 RL 訓練可以改善 SFT 模型的表現，但並未顯著提高推理能力。我們還嘗試凍結視覺編碼器或語言模型來改進訓練結果，雖然效能有所提升，但仍未能解決推理深度的問題。

長度獎勵的嘗試與失敗：我們還嘗試透過引入長度獎勵來鼓勵生成更長的響應，然而，簡單的長度獎勵機制並未帶來推理能力的提高，反而引發了模型生成無意義的長響應的現象，這表明增加響應長度並不能自動提升推理能力。

總結：本研究展示了 VisualThinker-R1-Zero 如何透過 RL 訓練，在非微調的 Qwen2-VL-2B 模型上成功復現了 DeepSeek-R1 的“頓悟時刻”和響應長度增加的現象。透過 RL 訓練，模型在 CVBench 上取得了 59.47% 的準確率，超過了基礎模型和 SFT 模型的表現。

此外，本文還揭示了將 RL 應用於 SFT 模型時的一些問題，包括推理模式的膚淺化以及簡單長度獎勵機制的無效性。這個研究是一個持續更新的工作，未來將進一步探討和最佳化這些方法。