
儘管 DeepSeek-R1 在單模態推理中取得了顯著成功,但已有的多模態嘗試(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全復現其核心特徵。
例如,R1-V 僅在簡單計數任務上表現出進步,未能實現回答長度的增長和頓悟時刻;R1-Multimodal-Journey 則在訓練過程中回答長度反而降低;LMM-R1 雖然有所進步,但尚未在大規模圖文資料訓練中得到驗證。而 Kimi 1.5 儘管表現突出,但並未開源其模型或資料。

-
論文標題:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING -
程式碼地址:https://github.com/ModalMinds/MM-EUREKA -
技術報告:https://arxiv.org/pdf/2503.07365 -
模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B https://huggingface.co/FanqingM/MM-Eureka-8B -
資料集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset
我們這篇工作聚焦於一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?
為了解答這一問題,來自上海人工智慧實驗室、上海創智學院、上海交通大學和香港大學的研究人員提出了多模態學科推理模型 MM-Eureka。

我們的探索
開源框架:我們基於 OpenRLHF 開發了一個高效可擴充套件的多模態大規模強化學習框架,支援 InternVL 等多種模型和 RL 演算法。相比 R1-V 等已有框架,我們的方案成功訓練了 InternVL 2.5-38B 等大型模型。
穩定訓練:我們開發了兩個模型——MM-Eureka-8B(基於 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基於 InternVL 2.5-Pretrained-38B),均成功復現了穩定的 accuracy reward、response length 增長以及 Visual aha-moment。
極大的資料效率:僅使用 54K 圖文資料進行規則型 RL 訓練,平均效能超過使用 1M 資料的 MPO 模型;整體基準準確率與使用 12M 資料進行 CoT SFT 訓練的模型相當!MM-Eureka-Zero 僅使用 8K 圖文數學推理資料(指令模型的 0.05%),在我們自建的 K12 基準測試上超越指令模型 8.2%,在 MathVerse 上表現相當。
重要發現
-
極簡的 RL 設計足以獲得出色效果。在 instruct 模型上實驗時,新增 KL 散度會限制模型探索,導致無法觀測到 response length 的提高。

-
資料選擇對於穩定 RL 訓練很重要!基於難度的資料過濾策略對 RL 訓練穩定性至關重要。在 8B-instruct 模型上進行 RL 訓練時,若不進行資料過濾,訓練過程極其不穩定。

-
模型在 RL 訓練中展現類似 DeepSeek-R1 的 aha-moment,特別是模型不僅學會反思和回溯,還學會重新審檢視像中的關鍵資訊,我們認為這是 Visual aha-moment 的關鍵特徵。

我們的成果
-
無論在 Instruct 還是 Pretrained Model 上,我們均在極簡 RL 設計以及資料篩選策略下實現了穩定的 Accuracy Reward 提升和 Response Length 提升。

-
在 Instruct 模型上,幾乎全部使用開源資料(50K),便在所有多模態數學推理基準上取得穩定提升。相比其他後訓練策略,比如 MPO(1M 資料)和 CoT SFT(12M 資料),我們發現簡單的 rule-based RL 具備極強的資料高效性,使用幾十分之一的資料,平均效能超過 MPO,與 CoT SFT 相當。

-
在 Pretrained 模型上進一步挖掘 RL 潛力,僅需 8K 多模態數學推理資料,即可在奧林匹克數學測試集(部分)和 K12 數學推理測試集上,超過使用 16.3M 資料進行 SFT 的指令模型。在 MathVerse 上,兩種模型表現也相似。我們僅使用了指令模型資料量的 0.05%,凸顯了強化學習的巨大潛力!

其他嘗試與反思
我們在復現過程中進行了許多其他的嘗試,在此分享一些我們認為有幫助,但並未成功驗證的操作。我們認為這並不代表這些方法有問題,而是需要進一步探索。
Curriculum Learning:儘管我們基於難度劃分資料並嘗試從易到難訓練,但未觀察到明顯效能提升。我們認為簡單問題的學習難以直接泛化到難題,如何更有效地組織課程學習資料仍需探索。

Online Data Filter:我們將預先基於難度的資料篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進行穩定訓練,但其資料利用率降低了,因此我們希望在模型訓練過程中動態進行基於難度的資料篩選(類似 PRIME)。然而,我們發現訓練結果不如 offline data filter 穩定,我們認為這是因為每次更新時的資料量不同,導致梯度不穩定。

Model Size:儘管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也復現了 R1 的表現,但我們在多模態推理場景下,難以透過 8B 的 InternVL Pretrained 進行成功復現。我們認為這受制於多模態推理資料質量以及多模態預訓練資料中很少存在 long CoT 資料。

我們的期望
我們開源了全套資料(包括自助收集的高質量多模態 K12 資料集)、程式碼和模型,併發布了詳細的技術報告,涵蓋所有復現過程及未成功的嘗試。希望我們的工作能幫助社群共同推進多模態推理的發展!我們同樣在持續推進模型訓練,請繼續關注!
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]