統一細粒度感知!北大&阿里提出UFO:MLLM無縫整合檢測和分割,無需任務特定解碼器

©PaperWeekly 原創·作者 |湯昊
單位 |北京大學博士
研究方向 |多模態大模型

研究動機

長期以來,細粒度感知任務(檢測,分割等)的建模方式都比視覺-語言任務複雜的多,非常依賴於任務特定的結構和設計。
因此為了讓多模態大語言模型(Multimodal Large Language Models,MLLMs)支援檢測,分割等細粒度感知任務,之前的大多數工作都依賴於任務特定的解碼器(比如 Grounding DINO 和SAM),導致模型結構和訓練的複雜度顯著增加。
基於文字的方法雖然可以表示目標框,但在表示掩碼時往往採用多邊形來近似,在表示複雜和精細的 mask 上存在瓶頸,不能支援通用分割。另外,之前基於文字的細粒度 MLLMs 在密集檢測場景也表現不佳(比如 COCO 檢測)。

為了解決以上問題,我們提出了 UFO,一種統一的細粒度感知建模框架,可以不借助任務解碼器支援多種細粒度感知任務,包括目標檢測,例項分割,指代定位,推理分割等任務,且建模方式和視覺-語言任務完全對齊,可以無縫整合到現有的 MLLMs 中。
論文標題:
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
論文地址:
https://arxiv.org/abs/2503.01342
專案地址:
https://github.com/nnnth/UFO
模型地址:
https://huggingface.co/kanashi6/UFO

亮點

  • 我們提出了一種新穎的分割正規化:特徵檢索。我們在 <MASK> 標記特徵和影像特徵之間透過點積計算相似度,檢索出影像特徵中高相似度的位置以生成掩碼。
  • 我們有效利用了 MLLMs 的影像表示能力。之前的工作只使用 MLLMs 的文字輸出,忽略模型輸出的影像特徵。我們認為,既然 MLLMs 有出色的影像理解效能,那麼分割所需的掩碼資訊應當已經編碼在影像特徵中;而我們提出的特徵檢索方案可以顯式地從影像特徵中提取掩碼資訊。
  • 完全對齊開放式語言介面:UFO 透過開放式語言介面統一了檢測和分割,將所有任務輸出轉化為開放式文字序列,無需任何額外的解碼器,和視覺-語言任務完全對齊,實現了與 MLLMs 的無縫整合。
  • 具有競爭力的效能:UFO 在 COCO 例項分割上超過之前 SOTA 的通用多工模型 12.3 mAP,在 ADE20K 上取得 3.3 mIoU 的提升。UFO 還在各種指代定位,推理分割等任務中匹配或超過了基於解碼器的方法,使得準確的細粒度感知不再依賴於複雜的任務特定解碼器。

方法

3.1 導論

我們的目標是將細粒度的感知任務統一到開放式的語言介面中,從而確保與任何支援該介面的多模態架構相容。我們根據處理模態的不同,將現有的多模態架構抽象為三個組成部分:影像分詞器、文字分詞器和多模態 Transformer,如下表所示:
例如,在 LLaVA 中,影像分詞器包括視覺編碼器和 MLP 聯結器,它們負責提取視覺特徵並將其對映到 LLM 的輸入空間,而多模態 Transformer 則對應 LLM 本身。
這種抽象不僅適用於使用各種影像分詞器的 MLLMs,也適用於具有類似架構的視覺通用模型(比如 GiT),從而顯著擴充套件了我們方法的適用範圍。為了避免混淆,在接下來的章節中,我們將預設以 MLLMs 為討論物件。

3.2 文字對齊的目標框表示

為了與開放式語言介面保持一致,同時避免新增大量額外的位置標記,我們將邊界框直接轉換為文字數字。每個邊界框由其左上角(x₁, y₁)和右下角(x₂, y₂)的座標表示。
這些座標的連續值被離散化為 [0, range] 內的整數,並被 <box> 和 </box> 標記包圍。如果需要類別標籤,我們只需在 <box> 標記前新增文字類別。例如,一個人的邊界框可以表示為:person,<box>465,268,589,344</box>

3.3 基於特徵檢索的分割方式

透過語言介面表示掩碼更具挑戰性,因為掩碼比邊界框包含更詳細的資訊。以往的方法要麼使用多邊形格式,犧牲細節,要麼為每個畫素分配文字類別,導致序列過長。
因此,需要一種更高效的方法來表示精細的掩碼。我們發現,在 MLLMs 中,模型的輸出實際上是多模態的,投影的影像特徵和文字特徵被拼接在一起,共同由 LLM 處理。
然而,大多數現有方法忽略了由 LLM 處理的輸出影像特徵。我們認為,既然 MLLMs 能夠以文字形式表達物體的位置和內容,掩碼資訊已經編碼在影像特徵中。我們只需要教會模型解碼這些資訊。
因此,我們設計了一種基於影像特徵和文字特徵的表示方法。我們不是將掩碼資訊儲存在文字特徵中,而是將文字特徵作為查詢特徵,從影像特徵中提取掩碼資訊。具體方法如下:
我們將分割任務重新建模為特徵檢索問題。首先,我們在模型的基本詞彙表中新增一個 <MASK> 標記,作為生成掩碼的指示器。在執行分割時,模型被訓練輸出 <MASK> 標記,如上圖(a)所示。
形式上,給定輸入影像  和分割提示 ,模型  生成文字響應  以及相應的輸出嵌入  和影像特徵 
我們從  中提取與 <MASK> 標記對應的掩碼標記嵌入 。為了生成分割掩碼,我們透過縮放點積計算掩碼標記嵌入  與影像特徵  之間的相似性。檢索正分數以形成二值掩碼 。該過程表示為:
其中  是嵌入維度, 表示相似性分數, 是指示函式,將相似性分數轉換為二值掩碼。
透過計算掩碼標記特徵與影像特徵之間的點積相似性,我們檢索與掩碼標記最相關的影像特徵,從而生成與原始影像對齊的掩碼。我們的方法挖掘了 MLLMs 本身的分割能力,而無需任務解碼器。
我們認為,在良好編碼的影像特徵中,具有相同語義的特徵將聚整合簇。因此,生成掩碼標記特徵等同於識別相關影像特徵簇的中心,而計算特徵之間的相似性則反映了這種關係。

3.3.1 透過多個掩碼標記上取樣

由於視覺資訊中的冗餘,通常會以降低解析度的方式處理視覺特徵。例如,CLIP-L/14 模型將影像特徵的解析度相比原圖下采樣了 14 倍。在我們的分割方法中,相似度是使用下采樣後的影像特徵計算的,導致生成的掩碼解析度較低。然而,直接透過插值進行上取樣會產生粗糙的掩碼,導致效能不佳。
為了應對這一問題,我們提出了一種透過預測多個掩碼令牌進行上取樣的方法。對於一幅影像 ,我們獲得下采樣後的影像特徵 ,下采樣比例由補丁大小  決定,其中  表示特徵維度。
我們的目標是將生成的掩碼上取樣 倍,生成該掩碼來自影像特徵 。這需要為影像特徵的每個位置解碼一個  的掩碼。為此,我們訓練模型自迴歸地預測  個 <MASK>  令牌,其嵌入表示為 。每個令牌對應於  上取樣網格中的一個位置,如上圖(b)所示。
對於每個掩碼令牌嵌入 ,我們計算其與視覺特徵  的相似性:
其中 ,且 
然後,這些相似性分數  被連線並重塑為上取樣後的相似性圖:
最後,我們在  中檢索正分數,以生成上取樣後的二值掩碼 
預設情況下,我們將  設定為 4,預測 16 個<MASK>  令牌,這將輸出掩碼上取樣 4 倍。然後,透過插值將掩碼與原始影像解析度對齊。
我們的方法將掩碼特徵用作上取樣引數,比傳統的雙線性插值和轉置卷積更靈活。雙線性插值引數不可學習,轉置卷積雖然可學習但訓練後對所有影像固定不變。相比之下,我們透過網路生成定製化引數,允許模型動態最佳化上取樣效果,提升了靈活性和效能。
3.4 多工資料模版
基於上述設計,我們構建用於聯合訓練的多工資料模板。我們根據輸出預測數量將任務分為兩類:單一預測任務,如視覺定位,產生一個邊界框或掩碼;多預測任務,如目標檢測,需要多個邊界框預測。
將多個預測合併為一個長序列效率低下,並且多個預測之間的順序難以定義,這使得序列的自迴歸學習變得困難。因此我們採用了一種並行解碼方法,將多預測任務拆分為獨立的子任務,每個子任務處理一個預測,所有子任務並行執行。
這一策略有效加速了推理過程並增強了任務的可擴充套件性。 對於僅需單一預測的任務,我們的任務模板為:<Text Prompt><Image><Text Response> 。如上圖左側所示。 
對於多預測任務,我們將其拆分為多個單一預測的獨立子任務,使得他們能在同一個批處理內並行。實現並行的關鍵是確保所有子任務相互獨立。通常,多個邊界框和掩碼對應於不同的位置。因此,我們在輸入中引入區域性影像特徵以區分這些子任務,作為視覺提示。
模板結構是:<Text Prompt><Image><Local><Text Response> 。其中 <Local>  指透過在影像上取樣網格點進行插值獲得的區域性影像特徵,作為區域性化的視覺提示。
如上圖右側所示,我們在整個影像上均勻取樣 M 個網格點,並在每個網格位置插值區域性影像特徵。然後,我們將這 M 個網格點與 K 個預測匹配,將每個預測分配給最近的網格點。剩餘的 M-K 個網格點預測結束標記。
透過這種方式,M 個網格點對應於 M 個獨立的子任務。它們共享文字提示和影像特徵,但具有不同的區域性特徵和文字響應,形成 M 個可以在批處理內並行預測的獨立子序列。透過將複雜任務拆解為簡單的單一預測子任務,這種方法提高了效率並簡化了學習過程。我們採用這一模板用於目標檢測、例項分割和語義分割。
實驗
4.1 多工訓練
我們首先在 GiT 提出的多工基準上進行驗證,包含 COCO 檢測和分割,ADE20K 語義分割,COCO 標題生成和 RefCOCO 視覺定位(REC)5 個任務。
為了確保公平,我們採用了兩種變體進行多工訓練:UFO-ViT 和 UFO-InternVL2-8B。UFO-ViT 嚴格遵循 GiT 的設定,採用預訓練的 SAM-ViT,提供 ViT-B、-L 和 -H 三種尺寸;而 UFO-InternVL2-8B 則基於 InternVL2-8B 的預訓練權重。
和基於文字表示的通用模型 GiT 相比,UFO 在所有任務上都取得提升。其中 UFO-ViT-H 在 COCO 例項分割上比 GiT-H 高出 12.3 mAP,在 ADE20K 語義分割上高出 3.3 mIoU,展現了我們分割建模的優越性。
我們在多工訓練中也觀察到類似 GiT 的多工協同效應(圖中藍色部分),展示了統一建模的優越性。在擴充套件到大規模多語言模型(MLLMs)後,標題生成和 REC 效能進一步提升,其他任務與 UFO-ViT-L 相當。
我們認為這種差異主要源於預訓練的不同:UFO-ViT 使用 SAM 預訓練,更適合檢測和分割任務;而 InternVL2-8B 主要在影像級視覺語言任務上預訓練,更適合標題生成和 REC。
4.2 細粒度指令微調
為了進一步挖掘我們方法的潛力,我們引入更加豐富的資料對 MLLMs 進行細粒度感知微調。這一階段我們不僅使用 InternVL2-8B,還採用 LLaVA-1.5-7B 的預訓練。訓練資料包含 6 個任務的 24 個數據集,全面覆蓋主要視覺感知任務:
4.2.1 視覺定位
無需任務解碼器,我們的方法在引用表示式理解(REC)和分割(RES)兩種任務展現出優越的效能。其中 UFO-InternVL2-8B 平均領先 VisionLLM v2 2.0%。經過特定微調後,模型的平均效能達到 88.0%。在 RES 任務上,UFO-InternVL2-8B 超過基於 SAM 的 LISA 5.9 cIoU,並與 VisionLLM v2 相當。
4.2.2 推理分割
推理分割是 LISA 引入的具有挑戰性的基準,要求模型利用世界知識進行深層邏輯推理。
按照 LISA 的評估設定,我們報告了零樣本和微調後的結果。結果顯示,在相同預訓練下,UFO-LLaVA-1.5 在零樣本設定中比 LISA 高出 5.1 gIoU,使用更先進的 InternVL2 則超過了 LISA 6.7 gIoU。微調後,InternVL2 變體的效能進一步提升了 5.8 gIoU。
實驗結果表明統一建模能夠更好地融合語言推理和精確分割能力。與 LISA 僅用 LLM 處理語言推理並依賴 SAM 進行分割不同,我們的方法在共享引數空間內同時進行語言推理和分割,增強了任務協同,避免了資訊損失。

4.3 拓展實驗

4.3.1 眼球血管分割

我們的特徵檢索方法在表達複雜細緻的掩碼方面優於多邊形方法,後者需要大量頂點才能表示。為了進一步說明,我們在視網膜血管分割上對 UFO-ViT-H 和 UFO-InternVL2-8B 模型進行了微調。
血管形狀不規則且狹窄,難以用多邊形表示。我們按照 GiT 的少樣本訓練設定,僅在 DRIVE 訓練集上進行了 100 步微調。結果顯示,UFO 精確分割了視網膜血管,UFO-ViT-H 的 Dice 係數達到 77.4,優於 GiT-H 的 57.9,UFO-InternVL2-8B 也達到了 76.3。
此結果驗證了我們分割方法在極細粒度結構上的有效性,支援其更廣泛的應用。

4.3.2 深度估計

得益於我們方法的靈活性,我們可以輕鬆地將其擴充套件到深度估計等任務。具體而言,我們將點積結果透過 sigmoid 函式解釋為相對深度 r,並將其對映為絕對深度。此時,點積相似度反映了影像特徵與“最遠”這一概念的相似度,相似度越大表明距離越遠。
具體來說,對於在 [] 之間的深度 ,我們可以按如下方式進行預測:
 是 <DEPTH>  令牌的嵌入。如上表所示,我們相比其他通用模型,可以達到具有競爭力的效能。

4.4 視覺化效果

UFO-ViT-H 經過多工訓練後在 5 個任務上的視覺化結果:
UFO-InternVL2-8B 經過細粒度感知微調在視覺定位,推理分割上的視覺化結果:
採用 4 個 <MASK> 標記時,每個 <MASK> 標記關注的區域。每個掩碼標記能捕捉不同細節,例如馬的不同腿部或狗的尾巴。因此,將所有掩碼標記融合後可生成更高解析度、更精細的掩碼。

總結

我們提出了一種統一的細粒度感知框架,透過開放式語言介面處理各種細粒度的視覺感知任務。我們將所有感知目標轉換為開放式文字序列,並引入了一種新穎的特徵檢索方法用於分割。
實驗表明,我們的方法無需修改架構即可在 MLLMs 上實現出色的效能。我們的統一方式完全對齊視覺-語言任務,提供了一種靈活、有效且可擴充套件的解決方案,以增強 MLLMs 的細粒度感知能力,為構建更通用的多模態模型鋪平了道路。
更多閱讀

#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章