MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 機器之心

嘿，各位開發小夥伴，今天要給大家安利一個全新的開源專案 ——VLM-R1！它將 DeepSeek 的 R1 方法從純文字領域成功遷移到了視覺語言領域，這意味著打開了對於多模態領域的想象空間！

這個專案的靈感來自去年 DeepSeek 開源的那個 R1 方法，靠著 GRPO（Group Relative Policy Optimization）強化學習方法，在純文字大模型上取得了驚人的效果。

現在，VLM-R1 團隊直接把它應用到了視覺語言模型上，打開了一扇新的大門！

VLM-R1 驗證結果驚豔

這個專案的團隊在 Qwen2.5-VL 的基礎上，同時對比了 R1 和傳統的 SFT 方法。結果相當驚豔：

1、穩定性拉滿：R1 方法在各種複雜場景下都能保持穩定的高效能，這在實際應用至關重要！

2. 泛化能力卓越：更讓人震驚的是，在領域外的測試資料上，隨著訓練步數增加，傳統 SFT 模型的效能開始下滑，而 R1 模型卻能持續提升！這意味著 R1 方法幫助模型真正 “學會” 了理解視覺內容，而不是簡單地記憶！

（訓練和測試領域的差異對比）

（泛化性對比，綠線是 VLM-R1，在領域外泛化性顯著更優）

3、上手超簡單：VLM-R1 專案團隊還貼心地提供了完整的訓練和評估流程，四步就能開始訓練，對開發者十分友好。

小編親測之後，在此分享一個實際案例，結果讓人意外。

圖片裡展示了一桌子豐盛的美食，包括各種蔬菜、麵餅和點心。針對圖片，我們向模型提出了一個問題：“在圖片中找出蛋白質含量最高的食物”。

模型不僅回答得準確：

“圖片中展示了桌上的各種菜品，包括蔬菜、麵餅和點心。從蛋白質含量來看，麵餅或麵點可能含量最高，因為它們通常由全穀物製成，麵粉中含有蛋白質。雖然蔬菜也含有蛋白質，但比起這些主食來說含量較少。”

更厲害的是，它還精準地在圖片中框選出了那個蛋白質含量最高的雞蛋餅！

這種精確的視覺理解能力和推理能力，讓人印象深刻！

完美展示了 VLM-R1 在實際應用中的優勢：

準確的視覺識別能力
專業的知識推理能力
清晰的文字表達能力

全新思路

作為一個 AI 領域的觀察者，VLM-R1 的出現也為開發者和行業提供了許多新的思路，比如：

1、證明了 R1 方法的通用性，不止文字領域玩得轉；

2、為多模態模型的訓練提供了新思路；

3、或許能夠引領一種全新的視覺語言模型訓練潮流；

完全開源

最棒的是，這個優秀的專案完全開源！

專案地址：[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

對視覺語言模型感興趣的同學，強烈建議去看看這個專案。說不定你的下一個突破性研究就從這裡開始！

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

重磅發現！DeepSeekR1方法成功遷移到視覺領域，多模態AI迎來新突破！

VLM-R1 驗證結果驚豔

全新思路

完全開源

關於我們

相關文章

多模態也做到了強推理！工業界首個開源的R1V，讓視覺思考進入o1時代

驚爆老外的DeepSeek-R1到底多強？實測高考真題，仍存4個短板

三張圖速通DeepSeek-R1論文和技術原理

DeepSeeK為何驚豔全球科學家？

多模態推理相關工作速覽

中國的平價開源AI模型DeepSeek驚豔全球科學家

DeepSeek-R1解讀及技術報告中文版

一文理解推理大模型-UnderstandingReasoningLLMs

DeepSeek使用技巧，收藏這一篇就夠了

DeepSeek縫合Claude，比單用R1/o1效果都好！GitHub攬星3k