
本文第一作者為鄧慧琳,中國科學技術大學碩博連讀四年級,研究方向為多模態模型視覺理解、推理增強(R1強化學習)、異常檢測。在TAI、TASE、ICCV等期刊和頂會發表論文。
近年來,隨著大型語言模型(LLMs)的快速發展,多模態理解領域取得了前所未有的進步。像 OpenAI、InternVL 和 Qwen-VL 系列這樣的最先進的視覺-語言模型(VLMs),在處理複雜的視覺-文字任務時展現了卓越的能力。
然而,這些成就主要依賴於大規模模型擴充套件(>32B 引數),這在資源受限的環境中造成了顯著的部署障礙。因此,如何透過有效的後訓練(post-training)正規化來縮小小規模多模態模型與大規模模型之間的效能差距,是亟待解決的問題。
目前,VLM 的主流訓練方法是監督微調(SFT),即使用人工標註或 AI 生成的高質量資料對模型進行有監督訓練。但這種方法在小模型上存在兩個關鍵問題:
-
域外泛化能力不足(Out-of-Domain generalization collapse):容易過擬合訓練資料,在未見過的場景時效能顯著下降。
-
推理能力有限(shallow reasoning abilities):傾向於淺層模式匹配,而非真正的理解和推理。這導致模型雖能應對相似問題,但難以處理需要深度思考的複雜問題。

圖 1. 實驗結果分析。 (a) SFT 與 RL 方法效能對比:透過對比域內和域外效能,實驗證實了強化學習方法在各類視覺任務中具有更強的 OOD 泛化能力。 (b) "磚牆"現象分析:在小規模 VLMs 中觀察到:面對複雜樣本時出現訓練不穩定性,模型最終收斂到次優解。我們提出的課程強化學習方法採用難度感知的獎勵設計,確保模型能力從基礎任務到複雜推理任務的穩步提升。
透過系統實驗,我們發現基於強化學習的訓練方法在提升模型域外泛化性方面具有獨特優勢。
然而,在實踐中我們觀察到一個顯著的「磚牆」(Brick Wall)現象:小規模模型在簡單任務上快速進步,但在複雜任務上遇到瓶頸,甚至導致已掌握能力的退化。這種現象表現為訓練過程的劇烈震盪,最終導致模型收斂到次優解。
為突破這一瓶頸,我們從課程學習(Curriculum Learning, CL)中汲取靈感。課程學習是一種將模型逐步暴露於遞增複雜任務的訓練策略。我們提出了課程式強化學習後訓練正規化(Curr-ReFT),確保模型能力從基礎任務到複雜推理任務的穩步提升。
這一創新方法能夠幫助小型 VLMs 突破效能瓶頸,在保持部署友好性的同時,實現與大規模模型相媲美的推理能力。

-
論文標題: Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning
-
論文連結:https://arxiv.org/pdf/2503.07065
-
開源連結:
-
https://github.com/ding523/Curr_REFT(程式碼)https://huggingface.co/datasets/ZTE-AIM/Curr-ReFT-data(資料)https://huggingface.co/ZTE-AIM/3B-Curr-ReFT(模型權重)https://huggingface.co/ZTE-AIM/7B-Curr-ReFT(模型權重)
工作概述
在中小尺寸多模態大模型上,我們成功復現了 R1,並提出了一種創新的後訓練正規化 Curr-ReFT。透過結合課程強化學習和基於拒絕取樣的自我改進方法,我們顯著提升了視覺語言模型(VLM)的推理能力和泛化能力。
理論與實驗分析
-
強化學習的重塑能力:我們證明了基於規則的強化學習能夠有效重塑多模態/CV 任務的訓練方案,從傳統的精調轉向強化精調。
-
提升推理與泛化能力:實驗結果顯示,強化學習方法顯著提升了 VLM 在分佈外資料上的表現。
創新框架
-
Curr-ReFT:我們提出了一種新型後訓練正規化,結合課程強化學習和自我改進策略。在 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型中驗證了其有效性。
全面評估
在多個自建資料集和權威基準測試上進行對比實驗,驗證了模型的通用表現,結果表明 7B 模型甚至超越了最新的 InternVL2.5-26B 和 38B 模型。
具體方法

圖 2. 所提出的 Curr-ReFT 後訓練正規化整體框架。Curr-ReFT 包含兩個連續的訓練階段:1.課程強化學習:透過與任務複雜度匹配的獎勵機制,逐步提升任務難度。2.基於拒絕取樣的自我改進:維持 LLM 模型的基礎能力。
Curr-ReFT 包含兩個連續的訓練階段:
-
課程強化學習:透過難度感知的獎勵設計確保模型能力的穩步提升,從基礎的視覺感知逐步過渡到複雜的推理任務。
-
基於拒絕取樣的自我改進:透過從高質量的多模態和語言樣本中進行選擇性學習,維持 VLMs 的基礎能力。

圖 3. 訓練資料組織架構圖。 (a) 課程強化學習的三階段漸進式響應格式示例。展示了任務從簡單到困難的遞進過程,呈現不同階段的響應格式變化。 (b) 拒絕取樣 SFT 階段使用的資料來源分佈。
Stage1:課程強化學習(Curriculum Reinforcement Learning)
課程學習(Curriculum Learning,CL)作為一種教學式訓練策略,其核心思想是讓模型循序漸進地接觸複雜度遞增的任務。
針對強化學習中普遍存在的訓練不穩定性和收斂性問題,我們創新性地將課程學習與 GRPO 相結合,突破了傳統基於樣本難度評估的侷限,轉而關注任務層面的漸進式學習。
本研究的關鍵創新點在於設計了難度感知的獎勵機制,該機制與任務的自然進階路徑相匹配,具體包括三個遞進階段:
-
二元決策階段(Binary Decision) -
多項選擇階段(Multiple Choice) -
開放式回答階段(Open-ended Response)
這一課程強化學習(Curr-RL)框架透過精確校準任務複雜度對應的獎勵機制,成功實現了視覺感知和數學推理任務的穩定最佳化過程。
Stage2:拒絕取樣自我增強(Rejected Sample based Self-improvement)
資料準備過程涉及對綜合資料集的系統取樣。我們使用 GPT-4-O 作為獎勵模型,從多個維度評估生成的響應,評估標準包括:準確性、邏輯一致性、格式規範性、語言流暢度。
所有響應在 0-100 分範圍內進行量化評估。得分超過 85 分的響應及其對應的問題會被納入增強資料集。最終整理的資料集包含 1,520 個高質量樣本,涵蓋多個領域:數學、科學、通用場景的通用知識。資料分佈如下:
1、數學領域(共 700 條資料):
-
多模態資料(300 條):
-
Geometry3K_MathV360K(100 條) -
Geo170k_qa(100 條) -
Geomverse(100 條)
-
純文字資料:
-
SK1.1 數學題(400 條)
2、科學領域(共 320 條資料):
-
多模態資料(220 條):
-
Scienceqa_cauldron(100 條) -
Scienceqa_nona_context(120 條)
-
純文字資料:
-
SK1.1 科學題(100 條)
3、通識領域(共 500 條多模態資料):
-
Illava_cot_100k(300 條) -
Visual7w(100 條) -
VSR(100 條)
實驗結果
為了驗證我們的模型在多模態數學推理任務中的表現,我們進行了廣泛的實驗,並在多個基準資料集上進行了測試。以下是實驗部分的詳細介紹:
實驗設定
1、 Visual Datasets
我們構建了一個全面的評估框架,涵蓋視覺檢測、視覺分類和多模態數學推理三個主要任務,以評估強化學習對視覺語言模型的有效性和泛化能力。
-
視覺檢測:使用 RefCOCO 和 RefGta 資料集。 -
視覺分類:採用 RefCOCO、RefCOCOg 和 Pascal-VOC 資料集。 -
多模態數學推理:結合 Math360K、Geo170K 和 CLEVER-70k-Counting 資料集。
2、Benchmarks
我們在多個權威基準資料集上評估了模型的表現,包括:
-
MathVisa:綜合數學基準。 -
MATH:高中競賽級別數學問題。 -
AI2D:小學科學圖表及相關問題。 -
MMVet 和 MMBench:複雜推理和多模態能力評估。
實驗結果
我們展示了使用課程強化微調(Curr-ReFT)訓練的模型在多模態任務上的顯著效能提升,特別是在跨領域泛化能力和複雜推理任務方面。
與傳統的監督微調(SFT)方法相比,我們的方法不僅提高了準確率,還增強了模型處理未見過的資料的能力。以下表格展示了不同訓練方法在域內和域外資料集上的效能對比。具體包括傳統監督微調(SFT)和強化學習(RL)兩種方法:

透過這些實驗結果可以看出,強化學習訓練(RL)方法在提高模型的域內和域外表現方面具有顯著優勢,尤其是在處理未見過的資料時,能夠保持較高的準確率。
Visual Datasets 上不同方法模型的測試結果如下:

為了驗證 Curr-ReFT 的泛化性以及使用後不會削弱模型在其他領域的推理能力,我們在多模態領域多個 Benchmark 資料集上進行驗證。Benchmarks 上不同方法模型的測試結果如下(評測集裁判模型使用 GPT-3.5):

總結
本研究聚焦於提升小規模視覺-語言模型(VLMs)在推理能力和域外(OOD)泛化效能兩個關鍵方面的表現。透過實證研究,我們發現強化學習不僅能有效提升模型的推理能力,更在視覺任務中展現出超出預期的泛化效能提升。
基於這一重要發現,我們提出了創新性的課程式強化學習微調(Curr-ReFT)後訓練正規化。該方法巧妙地融合了漸進式課程學習與拒絕取樣策略。Curr-ReFT 透過兩個關鍵機制:
-
任務複雜度的漸進式提升 -
高質量樣本的選擇性學習 成功實現了模型效能的顯著提升。

© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]