科學家將DeepSeekR1技術遷移到多模態領域,最低只需10條資料就能提升模型效能

既能將 DeepSeek R1 技術遷移到多模態領域,也能讓 Qwen2 VL 學會批判性思維,最低只需 10 條資料就能提升模型效能,

便是來自上海交通大學、上海人工智慧實驗室和香港中文大學的研究人員打造的名為 Visual-RFT(Visual Reinforcement Fine-Tuning)的視覺強化微調開源專案,它進一步擴充套件了強化微調在視覺任務上的應用領域。

(來源:arXiv

在只有大約 100 個樣本的資料極其有限的取樣條件下,Visual-RFT 的準確率比基線提高 24.3%,而監督微調則下降了 4.3%。

在小樣本實驗中,儘管 Visual-RFT 使用最少的訓練資料,但是與監督微調相比,它展示了更卓越的小樣本學習能力。在推理定位方面,Visual-RFT 在高度依賴推理的 LISA 資料集上表現出色,超過了像 GroundedSAM 這樣的專門模型。
此外,在開放詞彙物件檢測中,Visual-RFT 將識別能力快速轉移到新類別,包括 LVIS(Large Vocabulary Instance Segmentation)中的罕見類別,表現出很強的泛化能力。
具體而言,2B 模型在新類別的 COCO 資料集上實現了從 9.8 到 31.3 的平均精度均值(mAP,mean Average Precision)改進,在特定的罕見類別的 LVIS 上實現了 2.7 到 20.7 的平均精度均值改善。
這些多樣化的視覺感知任務不僅突顯了 Visual-RFT 在視覺識別中的強大泛化能力,還凸顯了強化學習在增強視覺感知和推理方面的關鍵作用。
Visual-RFT:微調大型視覺語言模型的正規化轉變
Visual-RFT,也是第一種採用基於群體相對策略最佳化的強化學習策略來增強大型視覺語言模型的視覺感知能力和定位能力的方法。
Visual-RFT 在後訓練階段使用基於群體相對策略最佳化的強化演算法和可驗證的獎勵,來增強模型的視覺感知能力和推理能力,從而能夠提高大型視覺語言模型在處理各種視覺任務時的效能,特別是在微調資料有限的情況下。
具體來說,Visual-RFT 使用大型視覺語言模型為每個輸入生成包含推理 tokens 和最終答案的多個響應,然後使用視覺感知可驗證獎勵函式,透過群體相對策略最佳化(GRPO,Group Relative Policy Optimization)演算法來更新模型。
研究中,研究人員為不同的感知任務設計了不同的可驗證獎勵函式,例如用於物體檢測的聯合交叉(IoU,Intersection over Union)獎勵。在細粒度影像分類、少量樣本物體檢測、推理基礎以及開放詞彙物件檢測基準上的實驗結果表明,與監督微調(SFT,Supervised Fine-tuning)相比,Visual-RFT 具有更強的效能和泛化能力。
例如,在大約 100 個樣本的一次細粒度影像分類中,Visual-RFT 的準確率比基線提高 24.3%。在少量樣本物體檢測中,Visual-RFT 在 COCO 資料集的 two-shot 設定上也超過了基線 21.9,在 LVIS 上超過了基線 15.4。

概括來說:

首先,Visual-RFT 將具有可驗證獎勵的強化學習擴充套件到視覺感知任務中,而這些任務在微調資料有限的情況下是有效的。
其次,研究人員為不同的視覺任務設計不同的可驗證獎勵,以幾乎可以忽略不計的成本實現了高效、高質量的獎勵計算。
再次,研究人員對各種視覺感知任務進行了廣泛的實驗,包括細粒度影像分類、小樣本物體檢測、推理基礎和開放詞彙表物體檢測。在所有設定中,Visual-RFT 都實現了顯著的效能提升,大大超越了監督微調基線。
透過使用基於規則的可驗證獎勵系統,Visual-RFT 減少了手動標記的需要並簡化了獎勵計算,從而在各種視覺感知任務中取得了顯著的進步。Visual-RFT 在最小資料下優於監督微調,並顯示出很強的泛化能力,藉此展示了強化學習在增強大型視覺語言模型能力方面的潛力,使它們在視覺感知任務中變得更加高效和有效。
Visual-RFT:與依賴於記住正確答案的監督微調形成對比
Visual-RFT 的框架下圖所示,其由來自使用者的多模態輸入資料由影像和問題組成。
(來源:arXiv
策略模型 πθ 輸出推理過程,並根據輸入生成一組響應。每個響應都透過一個可驗證的獎勵函式來計算獎勵。在對每個輸出的獎勵進行分組計算後,評估每個響應的質量並用於更新策略模型。為了確保策略模型訓練的穩定性,Visual-RFT 使用 KL 散度(Kullback-Leibler Divergence)來限制策略模型和參考模型之間的差異。(注:KL 散度,也稱為相對熵,是一種衡量兩個機率分佈之間差異的指標。)
為了在視覺化任務上擴充套件強化微調,研究人員給出了視覺化強化微調的實現細節。對於每個輸入,Visual-RFT 使用大型視覺語言模型生成包含推理 tokens 和最終答案的多個響應。
(來源:arXiv
研究人員表示,Visual-RFT 與依賴於記住正確答案的監督微調形成對比。相反,Visual-RFT 能夠探索不同的潛在解決方案,並學習最佳化由研究人員設計的可驗證獎勵函式所定義的期望結果,而不僅僅是模仿預先定義的答案。
Visual-RFT 能夠將訓練正規化從監督微調中的資料縮放(data scaling),轉變為針對特定多模態任務量身定製的可變獎勵函式的戰略設計。
可驗證獎勵和視覺感知能力(例如檢測、定位、分類)的協同結合,讓研究人員所使用的模型能夠透過詳細的推理過程,快速且高效地掌握新概念。
(來源:arXiv
Visual-RFT:讓 Qwen2 VL 學會批判性思維
據介紹,研究人員採用少樣本學習方法,為模型提供最少數量的樣本進行訓練。對於影像分類和目標檢測任務,採用小樣本設定來評估模型的細粒度判別和識別能力,在有限的資料上應用強化學習。
然後,針對注重推理基礎、需要強大推理能力的 LISA 資料集,使用 Visual-RFT 訓練模型並評估其推理效能和感知效能。
同時,對於開放詞彙表物件檢測,研究人員透過在包含 65 個基類的細分 COCO 資料集上使用 Visual-RFT 訓練 Qwen2-VL-2/7B,來評估模型的泛化能力。
然後,在 COCO 資料集的 15 個新類別和 LVIS 的 13 個罕見類別上進行測試。
需要說明的是,該模型的視覺感知和推理能力是在開放的詞彙檢測環境中進行評估的。
實驗中,研究人員首先提示模型檢查影像中是否存在類別,然後預測影像中存在的類別的邊界框。
首先,研究人員進行了小樣本分類實驗。
為了展示 Visual-RFT 在視覺領域的廣泛泛化能力,研究人員在細粒度影像分類上進行少樣本實驗。
研究人員選擇了四個資料集:Flower102、Pets37、FGVCAircraft 和 Car196,它們包含數十到數百個類似的類別,因此這一分類任務的難度較大。
結果顯示,僅需一次資料,Visual-RFT 就可以顯著提高效能(+24.3%)。
(來源:arXiv
相比之下,在相同的最小資料量下,監督微調顯示出明顯的下降(-4.3%)。在 4-shot 設定下,監督微調的效能仍略低於基線,而使用 Visual-RFT 的強化微調模型的平均效能提高了 25.9。
在 8-shot 和 16-shot 設定下,隨著資料量的增加,監督微調的效能略微超過基線。
然而,監督微調的效能仍然明顯落後於 Visual-RFT。如下圖,研究人員展示了在處理細粒度分類任務時,經過強化微調後模型的一些推理案例。
(來源:arXiv
這些結果不僅證明了 Visual-RFT 的強大泛化能力及其從有限資料中學習的能力,而且證實了與監督微調相比,強化微調可以真正理解任務並從推理中進行更深入的學習。
隨後,研究人員進行了小樣本物體檢測實驗。
小樣本學習一直是傳統視覺模型和大規模視覺語言模型面臨的核心挑戰之一。強化微調為該問題提供了新的解決方案,使模型能夠利用少量資料快速學習和理解。
研究人員從 COCO 資料集中選擇了 8 個類別,每個類別有 1、2、4、8 和 16 幅影像,以構建資料有限的訓練集。
對於 LVIS 資料集,研究人員選擇了 6 個罕見類別。
由於這些罕見類別的訓練影像非常稀疏,每個類別有 1 到 10 張影像,將其近似為 10-shot 設定。
然後,研究人員使用強化微調和監督微調對 Qwen2-VL-2/7B 模型進行 200 步訓練,以評估模型在有限資料下的學習能力。雖然監督微調和強化微調都能提升模型在小樣本設定下的識別準確率,但強化微調後的模型表現始終大幅優於監督微調模型,保持了顯著的領先優勢。
在 COCO 類別中,隨著訓練資料的增加,監督微調模型的平均精度均值約為 31,而強化微調模型接近 47。
在 LVIS 小樣本實驗結果中,對於 LVIS 中六個更具挑戰性的罕見類別,強化微調仍然優於監督微調。
(來源:arXiv
實驗結果清晰地展現了強化微調在少樣本設定下的優異效能,讓模型僅透過少量資料就能透過強化學習實現視覺感知能力的顯著提升。
研究人員進一步測試了一些抽象的域外資料集。具體來說,其選擇了 MG(Monster Girls)資料集,其中包含不同型別的動漫風格怪物女孩。透過使用域外資料,增加了模型識別和推理的難度,並在 4-shot 和 16-shot 設定下進行了實驗。結果表明,強化微調取得了顯著的效能提升,超過了監督微調。
(來源:arXiv
接著,研究人員進行了推理依據實驗。
視覺語言智慧的另一個關鍵方面是根據使用者需求確定精確的物件。
此前的專業檢測系統缺乏推理能力,無法完全理解使用者的意圖。
在 LISA 訓練集的幫助下,人們已經開展了多項工作,使得大型語言模型能夠為其他模型輸出控制 tokens 或透過監督微調直接預測邊界框座標。
在本次研究中,研究人員探索了 Visual-RFT 在這項任務中的能力,藉此發現強化學習比監督微調有著顯著改進。
具體來說,研究人員使用 Visual-RFT 和監督微調針對 LISA 訓練集上的 Qwen2 VL 2B/7B 模型進行微調,該訓練集由 239 幅具有真實推理物件的影像組成。
研究人員遵循與 LISA 相同的測試設定,並比較監督微調和本次的結果,兩者都經過了 500 步微調。
與監督微調相比,Visual-RFT 在邊界框聯合交叉方面顯著提高了最終結果。
(來源:arXiv
此外,研究人員使用 Qwen2 VL 預測邊界框提示 SAM 來生成分割掩碼。
藉此發現,Visual-RFT 能夠顯著增強了定位能力,並且優於之前的專用檢測系統。
其中,模型在思維過程中顯著提高了推理能力和定位準確性。
(來源:arXiv
透過 Visual-RFT,Qwen2 VL 學會了批判性思維,並能夠透過仔細檢查影像來產生準確的結果。
為了進一步證明強化微調的泛化能力,研究人員進行了開放詞彙物件檢測實驗。
Visual-RFT 相對於監督微調的優勢在於,前者對於任務有著真正深入的理解,而不僅僅是記住資料。為此,研究人員首先從 COCO 資料集中隨機抽取了 6K 個註釋,其中包括 65 個基本類別。
研究人員使用這些資料對 Qwen2-VL-2/7B 模型進行了視覺化強化微調和監督微調,並在 15 個以前從未見過的新類別上對模型進行了測試。
為了增加難度,研究人員進一步測試了 LVIS 資料集中的 13 個罕見類別。
經過強化微調後,Qwen2-VL-2/7B 模型在 COCO 資料集中的 15 個新類別上實現了平均精度均值增加 21.5 和 9.5。
在 LVIS 資料集中更具挑戰性的罕見類別中,平均精度均值分別增加了 18.0 和 14.7。
Visual-RFT 不僅將其檢測能力從 COCO 基本類別轉移到新的 COCO 類別,而且在更具挑戰性的罕見 LVIS 類別上也取得了重大改進。
值得注意的是,對於下表中的一些罕見的 LVIS 類別,原始模型或監督微調訓練的模型無法識別這些類別,導致 AP 值為 0。
(來源:arXiv
然而,經過強化微調後,該模型在識別這些以前無法識別的類別(如蛋卷和蒲團)方面顯示出從 0 到 1 的質的飛躍。這表明 Visual-RFT 對於提高大型視覺語言模型視覺識別的效能和泛化能力具有重大影響。
可以說,Visual-RFT 代表了微調大型視覺語言模型的正規化轉變,它提供了一種資料高效、獎勵驅動的方法,增強了特定領域任務的推理和適應性。它成功地擴充套件了強化微調,使大型視覺語言模型能夠在各種多模態任務中使用,例如用於少樣本分類和開放詞彙目標檢測之中。目前,研究人員已經 Github 上完全開源了訓練程式碼、訓練資料和評估指令碼。
參考資料:
https://arxiv.org/pdf/2503.01785
https://github.com/Liuziyu77/Visual-RFT
運營/排版:何晨龍


相關文章