點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

嘿,各位開發小夥伴,今天要給大家安利一個全新的開源專案 ——VLM-R1!它將 DeepSeek 的 R1 方法從純文字領域成功遷移到了視覺語言領域,這意味著打開了對於多模態領域的想象空間!
https://github.com/om-ai-lab/VLM-R1
這個專案的靈感來自去年 DeepSeek 開源的那個 R1 方法,靠著 GRPO(Group Relative Policy Optimization)強化學習方法,在純文字大模型上取得了驚人的效果。
現在,VLM-R1 團隊直接把它應用到了視覺語言模型上,打開了一扇新的大門!
VLM-R1 驗證結果驚豔
這個專案的團隊在 Qwen2.5-VL 的基礎上,同時對比了 R1 和傳統的 SFT 方法。結果相當驚豔:
1、穩定性拉滿:R1 方法在各種複雜場景下都能保持穩定的高效能,這在實際應用至關重要!
2. 泛化能力卓越:更讓人震驚的是,在領域外的測試資料上,隨著訓練步數增加,傳統 SFT 模型的效能開始下滑,而 R1 模型卻能持續提升!這意味著 R1 方法幫助模型真正 “學會” 了理解視覺內容,而不是簡單地記憶!

(訓練和測試領域的差異對比)

(泛化性對比,綠線是 VLM-R1,在領域外泛化性顯著更優)
3、上手超簡單:VLM-R1 專案團隊還貼心地提供了完整的訓練和評估流程,四步就能開始訓練,對開發者十分友好。
小編親測之後,在此分享一個實際案例,結果讓人意外。

圖片裡展示了一桌子豐盛的美食,包括各種蔬菜、麵餅和點心。針對圖片,我們向模型提出了一個問題:“在圖片中找出蛋白質含量最高的食物”。
模型不僅回答得準確:
“圖片中展示了桌上的各種菜品,包括蔬菜、麵餅和點心。從蛋白質含量來看,麵餅或麵點可能含量最高,因為它們通常由全穀物製成,麵粉中含有蛋白質。雖然蔬菜也含有蛋白質,但比起這些主食來說含量較少。”
更厲害的是,它還精準地在圖片中框選出了那個蛋白質含量最高的雞蛋餅!
這種精確的視覺理解能力和推理能力,讓人印象深刻!
完美展示了 VLM-R1 在實際應用中的優勢:
-
準確的視覺識別能力
-
專業的知識推理能力
-
清晰的文字表達能力
全新思路
作為一個 AI 領域的觀察者,VLM-R1 的出現也為開發者和行業提供了許多新的思路,比如:
1、證明了 R1 方法的通用性,不止文字領域玩得轉;
2、為多模態模型的訓練提供了新思路;
3、或許能夠引領一種全新的視覺語言模型訓練潮流;
完全開源
最棒的是,這個優秀的專案完全開源!
專案地址:https://github.com/om-ai-lab/VLM-R1
對視覺語言模型感興趣的同學,強烈建議去看看這個專案。說不定你的下一個突破性研究就從這裡開始!
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CVPR 2024 論文和程式碼下載
CVPR 2024 論文和程式碼下載
多模態和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看
