
©作者 | 孟繁青
單位 |上海交通大學
研究方向 |多模態大模型

論文標題:
MM-EUREKA: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
程式碼連結:
https://github.com/ModalMinds/MM-EUREKA
模型連結:
https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
https://huggingface.co/FanqingM/MM-Eureka-8B
資料集連結:
https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

Why We DO?
目前的研究大多未能在多模態環境中復現 DeepSeek-R1 的關鍵特性,如回答長度的穩定增長和準確率獎勵。
例如,R1-V 僅在簡單計數任務上有所改進,但未能復現回答長度增長和“頓悟時刻”;R1-Multimodal-Journey 探索了幾何問題,但隨著訓練進行,回答長度反而下降;LMM-R1雖然在準確率獎勵和回答長度方面取得了進步,但這種成功尚未在大規模圖文資料訓練中得到驗證。
雖然 Kimi1.5 在多模態推理中取得了有競爭力的結果,但它並未向社群開源其模型或訓練資料。

What We do?
開源框架:我們基於 OpenRLHF 構建了一個可擴充套件的多模態大規模強化學習框架,支援包括 InternVL 在內的多種模型和多種RL演算法。與 R1-V 等框架相比,我們的框架具有更強的可擴充套件性,成功訓練了 InternVL2.5-38B 等大型模型。
穩定的訓練:MM-Eureka-8B 基於InternVL2.5-Instruct-8B 開發,MM-Eureka-Zero-38B 基於 InternVL2.5-Pretrained-38B 開發。兩者均可以復現出穩定的 accuracy reward 以及 response length 增長,並且具備 visual aha-moment!

驚人的資料效率:僅使用 54K 圖文資料進行規則型 RL 訓練,平均效能超過使用 1M 資料的 MPO 模型;整體基準準確率與使用 12M 資料進行 CoT SFT 訓練的模型相當!
MM-Eureka-Zero 僅使用 8K 圖文數學推理資料(僅為指令模型的 0.05%),在我們自己構建的 K12 基準測試上比指令模型高出 8.2%,在 MathVerse 上表現相當。


What is Important?
極簡的 RL 設計足以獲得很好的效果,如果是在 instruct model 上進行實驗,新增 KL 散度往往會限制模型的探索,導致無法觀測到 response length 的提高。

基於難度的資料過濾策略對於 RL 訓練穩定性及其重要,我們發現在 8B-instruct 模型上訓練,如果不進行資料過濾,RL 的訓練將會非常不穩定。


What We Find?
模型在 RL 訓練的過程中同樣會展示出類似 DeepSeek-R1 的 aha-moment。特別得是:除了展示出反思和回溯操作,模型還學會了重新審檢視像中的關鍵資訊,我們認為這個是 visual aha moment 的關鍵特徵。


What We Get?
在 instructmodel 上,我們幾乎使用全部開源資料(50k),便在所有的多模態數學推理 benchmark' 上相比 instruct model 取得穩定提升,我們對比了使用 MPO,COT SFT 作為後訓練的方法,我們發現簡單的 rule-based RL 具備及其強大的資料高效性。
模型在所有 benchmark 的平均效果可以超過使用 1M 資料 MPO 的模型,與使用 12M COT SFT 的模型效能相似!

在 pretrained model 上,我們進一步挖掘了 RL 的潛力,這個事現在工作均有所缺失的。我們發現在 internvl2.5-38B 的 pretrained model上,僅僅需要 8k 的多模態數學推理資料,變可以在奧林匹克數學測試集(部分)以及 K12 數學推理測試集準上,超過使用 16.3M 資料 SFT 的 instruct model。
在 MathVerse 上,這兩種模型也具有類似的表現!我們使用千分之 0.5 的資料達到了這一效果,凸顯出 rl 強大的潛力!


What We Wanna Do?
我們在復現過程中進行了許多其他的嘗試,再次我們分享一些我們認為有幫助,但是並沒有 work 的操作,我們認為這並不代表這些有問題,而是需要進一步地探索。
Curriculum Learning:
得益於我們基於難度劃分資料,每個資料都有難度標籤,自然的我們把資料按難度從低到高進行 RL 訓練,然而我們發現這並不能使得效能獲得收益。我們認為這是因為模型在簡單題目上的學習難以直接泛化到難題,如何進行 curriculum learning 的資料組織仍然重要。

Online Data Filter:
我們將我們預先基於難度的資料篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進行穩定訓練,但是其資料利用率降低了,所以我們希望在模型訓練的過程中動態進行基於難度的資料篩選(類似 PRIME)。
但是我們發現訓練結果並不如 offline data filter 穩定,我們認為這是因為每次更新時候的資料量不同,導致梯度不穩定。

Model Size:
儘管目前一些工作比如 ORZ,SimpleRL 在 7B level 的 LLM 上也復現了 R1 的表現,但是我們在多模態推理場景下,難以透過 8B 的 internvl pretrained 進行成功復現。我們認為這受制於多模態推理資料質量以及多模態預訓練資料中很少存在 long cot 資料。


What We Hope?
我們開源了全套資料(包括我們自助收集的多模態 K12 資料集),程式碼,以及模型等。除此之外我們推出一個詳細的技術報告(在我們的 repo 中),包括我們所有的復現程式以及一些未成功的嘗試。我們希望這可以幫助社群共同推理多模態推理發展。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
·
