240元打造擅長數學的多模態版R1，基於DeepSeek核心思想，兩階段訓練提升推理能力至工業級應用標準

lmm-r1團隊投稿

量子位 | 公眾號 QbitAI

多模態大模型雖然在視覺理解方面表現出色，但在需要深度數學推理的任務上往往力不從心，尤其是對於引數量較小的模型來說更是如此。

如何讓小型多模態大模型也能擁有強大的數學推理能力呢？

如圖所示，透過LMM-R1框架訓練的模型（下側）能夠正確應用勾股定理計算出圓錐的斜高，而基準模型（上側）錯誤地識別了斜高位置，導致計算錯誤。這種顯著的推理能力提升來自於一個創新的兩階段訓練策略。

這是來自東南大學、香港中文大學、螞蟻集團等研究人員的，兩階段多模態基於規則強化學習的框架LMM-R1，實現多模態大模型的推理效能飛躍。

針對多模態領域長期存在的”高訓練成本、低任務泛化”難題，LMM-R1框架創造性引入規則化獎勵函式機制。

透過深度最佳化DeepSeek-R1核心思想，該框架在無需多模態標註資料的情況下，僅需240元GPU成本即可顯著增強模型效能，成功將多模態模型的推理能力提升至工業級應用標準。

實驗資料顯示，經LMM-R1框架強化的QwenVL-2.5-3B模型，在推箱子等複雜路徑規劃任務中，效能顯著超越GPT-4o、Claude3.5等100B+引數量產品級大模型。

從文字到多模態的推理能力遷移

DeepSeek-R1和OpenAI的o1等模型已經證明了基於規則獎勵的強化學習在純文字大語言模型中的有效性。然而，將這一成功經驗擴充套件到多模態領域面臨兩大關鍵挑戰：

資料限制：多模態領域中高質量的推理資料十分稀缺，且答案常常模糊不清，難以用於規則獎勵
基礎推理能力薄弱：多模態預訓練常常會削弱模型在純文字任務上的能力，特別是對於引數量有限的小模型

針對這些挑戰，研究團隊提出了LMM-R1框架，透過創新的兩階段訓練策略巧妙解決了以上問題。

LMM-R1：兩階段強化學習策略

LMM-R1框架包含兩個精心設計的階段：

第一階段：基礎推理增強（FRE）

FRE階段利用豐富的高質量純文字推理資料（如數學題、科學問題等）透過基於規則的強化學習來增強模型的基礎推理能力。這一階段避開了多模態資料的限制，專注於構建堅實的推理基礎。

在這個階段，模型學習如何進行嚴密的邏輯思考、複雜的數學運算和多步驟推理，為後續的多模態泛化奠定基礎。

第二階段：多模態泛化訓練（MGT）

MGT階段將第一階段培養的推理能力泛化到多模態領域。研究團隊在這一階段探索了幾個關鍵領域：

幾何推理領域：使用GeoDB等資料集，增強模型在幾何圖形推理方面的能力
感知-推理平衡領域：使用VerMulti資料集，提升模型在多種視覺任務中的推理能力
智慧體相關領域：使用推箱子（Sokoban）等需要複雜規劃的任務

值得注意的是，這種兩階段策略避免了對昂貴的高質量多模態訓練資料的依賴，同時有效利用了豐富的文字推理資料資源，為構建高效能多模態模型提供了一種高效路徑。

實驗結果

研究團隊使用Qwen2.5-VL-Instruct-3B作為基準模型進行實驗。經過LMM-R1框架訓練後，模型在各類基準測試上均取得顯著提升：

在純文字和多模態基準測試上平均提升約4.5%~4.8%
在推理密集型任務（如幾何問題）上效果尤為明顯

更重要的是，實驗證明了一個關鍵發現：透過先增強基礎推理能力再進行多模態泛化的策略，可以有效避免直接在多模態資料上訓練時常見的推理能力退化問題。

在典型智慧體應用場景驗證中，研究團隊選取推箱子任務作為評估基準。該任務要求模型同步處理視覺空間解析、目標匹配、動態路徑規劃等多模態推理能力，對智慧體在現實場景中的決策能力具有重要指示意義。經LMM-R1框架強化後的模型，僅透過初始畫面即可完成完整動作序列規劃。

實驗證明哪怕是3B規模的小模型，使用LMM-R1的兩階段RL訓練，也可以極大增強推理能力，暗示了多模態R1的強大應用潛力。

值得關注的是，該框架以上游專案OpenRLHF為基礎，實現了完全自主研發的多模態訓練方案：透過重構資料流實現多模態支援，基於張量並行最佳化和記憶體管理技術創新，構建起高效穩定的訓練體系。其開創性的PackingSample + Ring FlashAttention技術實現了模型最大上下文長度基於GPU數量的線性增長率，配合動態梯度裁剪策略，在保證訓練穩定性的同時大幅降低資源消耗。

專案自2025年2月開源以來迅速獲得學術界關注，相關技術方案已被多個知名開源專案採納為基準架構。目前，LMM-R1框架已在GitHub平臺建立獨立技術生態，累計獲得超過500+星標關注。

團隊表示將持續深耕多模態模型領域，推動多模態強化學習技術在智慧體、視覺問答等場景的落地應用。與開源社群共建多模態強化學習框架。

論文地址：https://arxiv.org/abs/2503.07536
專案主頁：https://forjadeforest.github.io/LMM-R1-ProjectPage/
專案地址：https://github.com/TideDra/lmm-r1

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請於工作日發郵件到：

[email protected]

標題註明【投稿】，告訴我們：

你是誰，從哪來，投稿內容

附上論文/專案主頁連結，以及聯絡方式哦

我們會（儘量）及時回覆你