用多模態LLM超越YOLOv3!強化學習突破多模態感知極限|開源

於恩 投稿量子位 | 公眾號 QbitAI
超越YOLOv3、Faster-RCNN,首個在COCO2017 val set上突破30AP的純多模態開源LLM來啦!
華中科技大學、北京郵電大學等多所高校研究團隊共同推出的Perception-R1(PR1),在視覺推理中最基礎的感知層面,探究rule-based RL能給模型感知pattern帶來的增益。
PR1重點關注當下主流的純視覺(計數,通用目標檢測)以及視覺語言(grounding,OCR)任務,實驗結果展現出在模型感知策略上的巨大潛力。
目前論文和程式碼模型均已開源,作者希望其工作能給社群提供一個強大的baseline來支援後續研究。

眼見為實:為何AI視覺感知需要一場革命

隨著OpenAI o3的出現,大模型競賽也正式進入以“視覺推理”為代表的下半場,從GPT-4V到如今的o3,兩年時間,人工智慧正在迅速改變人與世界互動的方式,而這場革命在很大程度上依賴於AI理解視覺資訊的能力。
從自動駕駛汽車在複雜的街道上導航,到醫療AI從掃描影像中診斷疾病,甚至是整理照片庫的應用程式,視覺感知都是基礎。
多模態大語言模型(MLLM),如OpenAI的GPT-4o、Google的Gemini,以及開源的Qwen-VL和LLaVA,代表了巨大的進步。這些模型將語言模型(LLM)的語言理解能力與處理影像的能力相結合,使我們能夠與AI“交談”關於圖片的內容。詢問它們圖片中有什麼,它們通常能告訴你。
然而,在識別物體和真正以細緻入微的理解和邏輯感知視覺世界之間存在微妙的差異。雖然MLLM在一般的視覺問答方面越來越出色,但它們在需要精確物體定位、準確計數多個物體、在複雜佈局中完美閱讀文字或執行復雜視覺推理的任務上常常表現不佳。這就像知道圖片中有一隻貓和能夠精確指出它的耳朵、計算它的鬍鬚或理解它與其他物體的互動之間的區別。

強化學習的崛起與Perception-R1的誕生

強化學習(Reinforcement Learning, RL)引發了語言模型的正規化轉變。像RLHF(來自人類反饋的強化學習)和基於規則的RL等技術,在DeepSeek-R1中被用來解鎖 emergent reasoning 能力,推動LLM向更強的推理能力發展。
這引出了一個問題:強化學習能否為MLLM的視覺感知能力帶來類似的革命?
早期的嘗試顯示出希望,但並非通用的成功。簡單地將語言領域的RL技術應用於視覺任務並不總能產生預期的收益。這暗示視覺感知可能遵循與純語言不同的規則。
Perception-R1 應運而生。由華科,北郵以及JHU等高校的研究人員聯合開發的開創性框架,如論文中所描述的那樣這種方法迴歸到基本原理,探索如何有效地將基於規則的強化學習定製到MLLM視覺感知的獨特挑戰中。這不僅僅是讓MLLM看起來更好,而是透過學習最佳的“感知策略”(Perception Policy)來教導它們更智慧地看。

Perception-R1框架:工作原理

Perception-R1 不是從頭開始構建一個新的MLLM,而是一個後訓練框架,旨在透過基於規則的強化學習顯著增強現有 capable MLLM(如Qwen2-VLInstruct-2B)的視覺感知能力

什麼是“感知策略”?

“感知策略”可以視為MLLM處理視覺任務的內部策略,具體包括以下步驟:
  1. 從影像中提取和理解相關的視覺細節。
  2. 基於這種視覺理解執行邏輯操作(例如,比較位置、識別例項、識別文字)
  3. 以正確的格式生成所需的輸出(例如,邊界框座標、計數、轉錄文字)
Perception-R1 使用一種名為 Group Relative Policy Optimization(GRPO) 的強化學習技術來最佳化這一策略。GRPO 曾在DeepSeek-R1中取得成功,其工作原理如下(簡版)
GRPO原理公式:
  1. Rollout(多次嘗試):要求模型多次生成輸出(例如,8次)。由於生成中的隨機性(由溫度引數控制),每次輸出可能略有不同。
  2. 獎勵建模:根據明確的評分標準(獎勵函式)評估每次嘗試。例如,對於邊界框任務,使用Intersection over Union(IoU)衡量模型輸出與正確答案的重疊程度。
  3. 相對比較:GRPO 透過比較多次嘗試的獎勵分數,計算平均值。優於平均水平的嘗試獲得正“優勢”,低於平均水平的獲得負“優勢”。
  4. 策略更新:利用這些相對優勢更新模型的策略,增加生成高獎勵輸出的機率,減少低獎勵輸出的機率。
  5. 重複最佳化:在大量示例上重複此過程,逐步最佳化感知策略。
具體框架如下:
Perception-R1 架構示意圖

做好視覺任務的關鍵:獎勵工程(Reward Modeling)

在強化學習中,獎勵函式至關重要,它是指導學習過程的核心訊號。視覺感知任務通常具有直接、可量化的 ground truth,Perception-R1 利用這一點設計了基於規則的獎勵函式,總獎勵由兩部分組成:
  1. 格式獎勵:檢查輸出是否符合預期結構。例如,邊界框任務要求輸出

    格式,正確則得+1分,錯誤則扣-1分。

  2. 答案獎勵:衡量感知的正確性,使用任務特定的指標:
  • 視覺定位(RefCOCO):預測邊界框與 ground truth 的 IoU。
  • 視覺計數(PixMo-Count):將任務重新定義為點檢測後計數,獎勵基於預測點與ground truth點的歐幾里得距離。
  • 光學字元識別(OCR – PageOCR):預測文字與 ground truth 的編輯距離(Levenshtein distance)

多主體獎勵匹配的挑戰與解決方案

對於涉及多個例項的任務(如物體檢測和計數),如何匹配預測結果與 ground truth 是一個難題。Perception-R1 採用二分圖匹配解決:
  • 將預測結果和 ground truth 視為兩組點。
  • 計算每對之間的潛在獎勵(例如,IoU)
  • 使用匈牙利演算法找到總獎勵最大的最優匹配。
這確保了獎勵計算基於最佳對應關係,為多物體感知任務提供了更準確的學習訊號。最終總獎勵為:

實驗結果:Perception-R1的突破性表現

Perception-R1 的實際表現如何?研究人員在一套標準視覺感知基準上對其進行了評估,並將其與強大的基準 MLLM(如原始 Qwen2-VL-2B-Instruct)進行了比較,甚至與只為特定任務設計的專門 “專家 “模型進行了比較。

visual grounding任務(RefCOCO/+/g)

visual grounding評測

OCR任務(PageOCR)

PageOCR評測

視覺計數任務(Pixmo-Count)以及目標檢測任務(COCO2017)

視覺計數和目標檢測評測

通用影像理解(general image understanding)

image understanding and reasoning 評測

重要消融實驗

Perception-R1也進行了全面的消融實驗來探究現階段rule-based RL對perception policy learning的有效性會受到哪些方面影響,研究人員詳細評測了reward matching,是否使用顯式的thinking以及SFT與RL優劣的問題都進行了深刻的探討,接著Perception-R1也展示其良好的可擴充套件特性,為後續大規模scale up提供了實驗驗證。
Perception-R1的可擴充套件性實驗

結論:邁向更加智慧的AI視覺感知

Perception-R1 表明,當強化學習被精心適配到視覺任務的獨特特性時,它可以成為教導大模型更準確、更邏輯地“看”的強大工具。透過最佳化感知策略,該框架推動了MLLM在物體檢測、計數和OCR等任務上的能力邊界。
儘管真正的視覺“頓悟”仍需探索,Perception-R1奠定了關鍵基礎。它挑戰了視覺任務必須依賴語言推理的假設,並強調了任務複雜性對RL效果的重要性。
隨著模型規模擴大和更具挑戰性的基準出現,Perception-R1的原則可能在構建下一代智慧感知AI系統中發揮關鍵作用。
論文連結:https://arxiv.org/pdf/2504.07954程式碼連結:https://github.com/linkangheng/PR1部落格連結:https://medium.com/@jenray1986/perception-r1-reinventing-ai-vision-with-reinforcement-learning-253bf3e77657
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章