
還記得兩個月前那個引爆 Github 的 VLM-R1 嗎?上線 12 小時狂攬 2000+ Star,48 小時衝上趨勢榜第一,連 AI 大佬們都直呼這框架有點東西!如今,它的官方技術報告終於來了!
這篇被全球開發者催更兩個月的硬核說明書,首次完整揭秘了 VLM-R1 如何用強化學習顛覆視覺語言模型——從 Reward Hacking 的破解妙招,到讓模型突然開竅的 OD Aha Moment,再到 7B→32B 引數下的 Scaling Law 驗證… 每一個細節都堪稱 RL 在視覺任務中的教科書級實踐。
今天,我們就帶大家逐幀拆解這份技術報告,看看 VLM-R1 憑什麼能吊打傳統 SFT,甚至被業界稱為視覺 AGI 的關鍵拼圖。
論文、程式碼和 Demo 體驗地址如下:

論文標題:
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
論文地址:
https://arxiv.org/pdf/2504.07615
程式碼地址:
https://github.com/om-ai-lab/VLM-R1
Demo體驗:
https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression

視覺感知任務引入GRPO
VLM-R1 專注於視覺感知任務,選取了 Referring Expression Compression (REC) 以及 Open-Vocabulary Object Detection (OVD) 兩個任務,設計了規則獎勵系統併成功執行 GRPO 演算法。
整體的框架設計如下:

在獎勵系統的設計上,VLM-R1 引入了兩種獎勵機制:格式獎勵和準確率獎勵 。前者確保模型輸出符合指定格式,後者則衡量模型預測結果與真實標註的一致性。訓練層面,VLM-R1 支援經典的 GRPO 演算法,併兼容多種高效訓練方式,如 LoRA 微調和視覺模組凍結等,滿足不同場景下的需求。
與傳統監督微調(SFT)方法相比,VLM-R1 在多項指標上均表現出顯著優勢:

具體而言,在域內測試資料中,隨著訓練進行,SFT 相較於原始模型的提升始終較為有限,而 RL 則始終保持穩定的效能增長。
此外,在域外測試資料中,SFT 模型的效能會隨著訓練的深入而略有下降,而 RL 模型則有效將其推理能力泛化至新任務。實驗結果充分證明了強化學習在提升 VLM 推理能力和泛化能力方面的巨大潛力。

深入探究視覺任務上的RL特性
與 LLM 上的 RL 一樣,VLM-R1 在視覺任務中也展現出了一致的特性:
Reward Hacking:在 OVD 任務中,使用官方的 AP 值作為獎勵函式時,模型傾向於預測所有可能的類別以追求更高的獎勵分數,導致冗餘輸出的問題。
為了解決這一現象,VLM-R1 設計了 odLength 獎勵機制 ,透過懲罰多餘預測,有效抑制了這種 reward hacking 的行為。

OD Aha Moment:在 odLength 獎勵的引導下,模型逐漸學會了一種兩步推理策略——透過思考判斷目標是否存在,再生成精確的邊界框。這種“OD Aha Moment”的出現,標誌著模型開始具備更深層次的推理能力。

Scaling Law:實驗結果表明,模型規模對 RL 的效果有顯著影響。較大的模型(如 7B 和 32B)在複雜任務上的表現明顯優於較小模型(如 3B)。這進一步驗證了 RL 對於挖掘大規模模型潛在能力的可行性與有效性。

此外,研究還發現,高質量、語義豐富的訓練資料能夠顯著提升模型的推理能力,而低質量或過於簡單的資料則可能限制模型的泛化能力。這些洞見為未來的研究提供了重要參考。

功能豐富,框架開源
整體來看,VLM-R1 提供了一個模組化、靈活且高效的框架,支援多種功能,包括:
-
GRPO 相容性:完全支援原生 GRPO 演算法,並允許使用者對超引數進行細粒度控制。
-
LoRA 微調:透過低秩適應(LoRA)實現引數高效訓練,適合資源有限的場景。
-
多節點分散式訓練:支援跨多個 GPU 或伺服器節點的分散式訓練,提升訓練效率。
-
多模態混合訓練:支援同時訓練影像-文字和純文字資料集,滿足多樣化任務需求。自定義資料集和獎勵函式 :使用者可以輕鬆整合自己的資料集和獎勵設計,適配特定任務或領域。
VLM-R1 提供了統一、模組化且高度可擴充套件的訓練流程,成為視覺語言強化學習研究的強大工具。更重要的是,整體框架完全開源!這將有力推動社群進一步研究 RL 在 VLM 上的潛力!

結語
總的來說,VLM-R1 證明了 R1 類似的思路完全可以成功復現於視覺任務,並且強化學習顯著提升了視覺模型的泛化能力。透過精心設計的獎勵機制和高質量的訓練資料,VLM-R1 在特定任務上實現了突破性表現。
這些成果不僅為視覺語言模型的研究開闢了新方向,也為強化學習在多模態任務中的應用提供了重要參考。
未來,隨著更多工和模型的加入,VLM-R1 有望進一步拓展其應用場景,成為推動視覺 AGI 發展的重要力量。讓我們共同期待 VLM-R1 在視覺語言模型領域的更多精彩表現!
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
·
