ICLR2025|北大彭宇新團隊開源細粒度多模態大模型Finedefics

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
本文是北京大學彭宇新教授團隊在細粒度多模態大模型領域的最新研究成果,相關論文已被 ICLR 2025 接收,並已開源
儘管多模態大模型在通用視覺理解任務中表現出色,但不具備細粒度視覺識別能力,這極大制約了多模態大模型的應用與發展。
細粒度視覺識別旨在區分同一粗粒度大類下的不同細粒度子類別,如將鳥類(粗粒度大類)影像區分為西美鷗、灰背鷗、銀鷗等(細粒度子類別);將車區分為寶馬、賓士、奧迪等,奧迪區分為 A4、A6、A8 等;將飛機區分為波音 737、波音 747、波音 777、空客 320、空客 380 等。實現對視覺物件的細粒度識別,在現實生產和生活中具有重要的研究和應用價值。
針對這一問題,北京大學彭宇新教授團隊系統地分析了多模態大模型在細粒度視覺識別上所需的 3 項能力:物件資訊提取能力、類別知識儲備能力、物件 – 類別對齊能力,發現了「視覺物件與細粒度子類別未對齊」是限制多模態大模型的細粒度視覺識別能力的關鍵問題,並提出了細粒度多模態大模型 Finedefics。
首先,Finedefics 透過提示大語言模型構建視覺物件的細粒度屬性知識;然後,透過對比學習將細粒度屬性知識分別與視覺物件的影像與文字對齊,實現資料 – 知識協同訓練。
Finedefics 在 6 個權威細粒度影像分類資料集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準確率達到了 76.84%,相比 Hugging Face 2024 年 4 月釋出的 Idefics2 大模型提高了 10.89%。
  • 論文標題:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
  • 論文連結:https://openreview.net/forum?id=p3NKpom1VL
  • 開原始碼:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
  • 模型地址:https://huggingface.co/StevenHH2000/Finedefics
  • 實驗室網址:https://www.wict.pku.edu.cn/mipl
背景與動機
多模態大模型是指提取並融合文字、影像、影片等多模態資料表徵,透過大語言模型進行推理,經過微調後適配到多種下游任務的基礎模型。
儘管現有多模態大模型在視覺問答、推理等多種任務上表現出色,但存在識別粒度粗的侷限性:因為多模態大模型的視覺識別能力依賴大量訓練資料,由於訓練資料的細粒度子類別的標註成本巨大,實際也是無法細粒度標註的,導致現有多模態大模型缺乏細粒度視覺識別能力。
圖 1. 多模態大模型在細粒度視覺識別上所需的 3 項能力
本文系統地分析了多模態大模型在細粒度視覺識別上所需的 3 項能力,如圖 1 所示,包括:
1. 物件資訊提取能力:視覺編碼器能夠從影像中準確並全面地提取區分不同細粒度子類別的辨識性資訊;
2. 類別知識儲備能力:大語言模型能夠儲備充分的細粒度子類別知識;
3. 物件 – 類別對齊能力:基於提取的辨識性視覺資訊與儲備的細粒度子類別知識,在大語言模型的表徵空間中對齊視覺物件與細粒度子類別,以建立輸入影像到子類別名稱的細粒度對映關係。
實驗結果表明,「視覺物件與細粒度子類別未對齊」是限制多模態大模型具備細粒度視覺識別能力的關鍵問題。
技術方案
為解決視覺物件與細粒度子類別未對齊的問題,本文提出了細粒度多模態大模型 Finedefics
如圖 2 所示,Finedefics 構建過程包含 2 個主要步驟:
1. 首先透過屬性描述構建,利用辨識屬性挖掘獲得區分細粒度子類別的關鍵特徵,例如區分貓的品種的辨識性屬性「毛色」、「毛型」、「毛皮質地」等,並利用視覺屬性提取獲得影像物件的辨識性屬性對,例如「毛色:棕褐色」、「毛型:帶有斑紋」、「毛皮質地:質地柔軟」等,再利用屬性描述總結將屬性對轉化為自然語言形式的物件屬性描述,例如「圖中小貓的毛為棕褐色,帶有斑紋,質地柔軟」;
2. 然後透過屬性增強對齊,將構建的物件屬性描述作為視覺物件與細粒度子類別的共同對齊目標,透過物件 – 屬性、屬性 – 類別、類別 – 類別對比學習充分建立視覺物件與細粒度子類別的細粒度對應關係,再利用以識別為中心的指令微調促進模型遵循細粒度視覺識別的任務指令。具體地,包含如下兩個訓練階段:
圖 2. 細粒度多模態大模型(Finedefics)框架圖
階段 I:屬性增強的對比學習
首先,針對每個「物件 – 屬性 – 類別」三元組

,利用視覺編碼器

與可學習的模態連線層 

轉化為物件表徵序列

為更好捕捉全域性表示,將識別符號 [EOS] 輸入大語言模型的嵌入層得到向量表示,並將其與物件特徵序列

拼接,得到新構建的物件表徵序列 

相似地,得到屬性表徵序列 

與類別表徵序列

然後,分別將 

輸入到大語言模型中,將序列末尾的預測標誌(token)

分別作為 

的全域性表示。

為簡化表示,定義

訓練採用的對比學習損失包含以下 3 種:

物件 – 屬性對比:為細粒度視覺識別資料集中的每個視覺物件 

挖掘困難負樣本。具體地,針對每張樣本影像,從三個最相似但錯誤的細粒度子類別資料中選擇負樣本,並將其屬性描述與細粒度子類別名稱作為困難負樣本加入對比學習。

因此,引入困難負樣本後的物件 – 屬性對比(Object-Attribute Contrastive, OAC)損失表示如下:
其中,

表示物件

困難負樣本的屬性表徵集合,Sim (⋅,⋅) 測量特徵空間的餘弦相似度。

屬性 – 類別對比:相似地,引入困難負樣本後的屬性 – 類別對比(Attribute-Category Contrastive, ACC)損失表示如下:
其中,

表示物件

 困難負樣本的細粒度子類別表徵集合。

類別 – 類別對比:由於難以在大語言模型的表徵空間中區分不同細粒度子類別,提出了類別 – 類別對比(Category-Category Contrastive, CCC)損失如下:
此外,為保持模型的生成能力,將屬性描述作為生成目標,採用下一個標記預測(Next Token Prediction)任務進行模型訓練。因此,階段 I 的最佳化目標定義如下:
其中,

表示屬性描述生成損失。

階段 II:以識別為中心的指令微調
將細粒度視覺識別資料集構建為兩種形式的指令微調資料:開集問答資料與閉集多選題資料,利用上述指令微調資料更新模型引數。因此,階段 II 模型的最佳化目標定義如下:
其中,

表示以識別為中心的指令微調損失。

實驗結果

表 1. 細粒度多模態大模型(Finedefics)實驗結果

表 1 的實驗結果表明,Finedefics 在 6 個權威細粒度影像分類資料集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均準確率達到了 76.84%,相比阿里 2024 年 1 月釋出的通義千問大模型(Qwen-VL-Chat)提高了 9.43%,相比 Hugging Face 2024 年 4 月釋出的 Idefics2 大模型提高了 10.89%
圖 3. 視覺物件 – 細粒度子類別對齊效果視覺化
圖 4. 細粒度多模態大模型(Finedefics)案例展示
圖 3 的視覺化結果表明,(a)僅微調大模型,視覺物件與細粒度子類別表徵的分佈差異大;(b)僅引入物件 – 類別對比學習時,上述分佈差異仍然難以降低;(c)同時引入物件 – 屬性、屬性 – 類別、類別 – 類別對比學習時,分佈差異顯著降低,優化了視覺物件與細粒度子類別的對齊效果,提升了多模態大模型的細粒度視覺識別能力。
圖 4 的案例展示表明,相較於 Idefics2,本方法 Finedefics 能成功捕捉視覺物件特徵的細微區別,並將其與相似的細粒度子類別物件顯著區分。
更多詳情,請參見原論文。

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2024,即可下載CVPR 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章