DeepSeekR1遷移多模態,已開源!

視覺強化微調(Visual-RFT)正式開源!
DeepSeek-R1 繼文字、數學推理、程式碼等領域大放異彩後,其基於規則獎勵的強化學習方法首次成功遷移到多模態領域,並以 Visual-RFT(Visual Reinforcement Fine-Tuning)的形式全面開源。
其中視覺微調技術首次成功應用到多模態視覺領域。這會不會在多模態視覺領域也開啟新的一輪衝擊呢?
這一突破性技術使得視覺語言大模型具備更強的泛化能力,能以極少的樣本完成高質量微調,在目標檢測、分類、推理定位等任務中取得顯著提升,甚至超越傳統指令微調(SFT)方法。
論文地址:
https://arxiv.org/abs/2503.01785
開原始碼:
https://github.com/Liuziyu77/Visual-RFT
什麼是 Visual-RFT?
Visual-RFT (Visual Reinforcement Fine-Tuning) 是一種在視覺感知任務中採用強化學習方法的模型微調技術,並借鑑 DeepSeek-R1 的強化學習策略(GPRO),為多模態任務引入可驗證獎勵(Verifiable Rewards) 機制,以增強大視覺語言模型(LVLMs, Large Vision-Language Models) 在不同任務上的推理能力。

主要創新點:

  1. 強化學習遷移至視覺領域:突破傳統認知,首次在多模態視覺大模型中驗證基於規則獎勵的有效性。
  2. 極少樣本高效微調:相比傳統 SFT 方法,Visual-RFT 僅需少量資料(10~1000 條樣本)即可實現顯著提升。
  3. 任務廣泛:適用於 目標檢測、開放目標檢測、少樣本分類和推理定位等任務。
  4. 推理能力增強:能夠分析問題,進行 “think” 推理,從而實現更精準的視覺理解。
核心獎勵函式
  • 目標檢測:採用IoU 獎勵(Intersection-over-Union, IoU Reward),透過計算預測邊界框與真實邊界框的重疊程度,確保模型不僅能識別目標,還能精準定位,提高檢測的準確性和穩定性。
  • 影像分類:採用分類準確性獎勵(Classification Accuracy Reward, CLS Reward),透過對比模型預測類別與真實類別是否一致進行獎勵,引導模型在有限資料下仍能精準區分細粒度類別,提升分類泛化能力。
  • 推理定位:採用推理一致性獎勵(Reasoning Consistency Reward),分析模型的推理邏輯是否符合指令,並結合 IoU 計算目標定位的準確性,確保模型不僅能回答問題,還能給出合理的思考過程,提高視覺推理能力。

評測結果:Visual-RFT 遠超 SFT

我們先來看一個例子:
使用者問這是一張關於花的圖片,根據圖片請找出花的品種。
模型先思考:這張圖片顯示了一朵黃色的毛茛花,它有綠色的莖,背景中有綠色的葉子。毛茛花是一種屬於毛茛科的開花植物,以其明亮的黃色花朵聞名,通常生長在草地和牧場中。然後回答:毛茛花
Visual-RFT VS 傳統 SFT:
方法 資料需求 泛化能力 推理能力
SFT(監督微調) 需要大量資料 泛化能力有限 僅依賴已有資料
Visual-RFT 僅需 10~1000 條資料 泛化能力強 能推理 & 解釋
論文的實驗基於Qwen2-VL-2B/7B視覺語言模型,Visual-RFT 在以下任務中均

大幅超越

傳統 SFT 方法:

  • 開放目標檢測:模型僅用 65 類 COCO 資料即可泛化至新類別
  • 少樣本檢測:僅 4 個樣本即可提升檢測精度
  • 推理定位:在複雜語義理解下,推理結果更精準
  • 細粒度分類:能準確區分同類物體的不同細節

Visual-RFT 開啟視覺強化學習新時代

Visual-RFT 是首個基於DeepSeek-R1強化微調方法的多模態遷移,填補了視覺語言大模型強化學習的空白。
它不僅提升了視覺推理能力,還極大降低了視覺任務微調的成本,對於CV & AI 社群都是一個重要突破。
異想天開一下,此方法是否也可以促進機器人的AI大腦的視覺模組的進步?
你認為強化學習是否會成為未來多模態大模型訓練的主流方式?

·················END·················


相關文章