統一細粒度感知！北大&阿里提出UFO：MLLM無縫整合檢測和分割，無需任務特定解碼器

©PaperWeekly 原創·作者 |湯昊

單位 |北京大學博士

研究方向 |多模態大模型

研究動機

長期以來，細粒度感知任務（檢測，分割等）的建模方式都比視覺-語言任務複雜的多，非常依賴於任務特定的結構和設計。

因此為了讓多模態大語言模型（Multimodal Large Language Models，MLLMs）支援檢測，分割等細粒度感知任務，之前的大多數工作都依賴於任務特定的解碼器（比如 Grounding DINO 和SAM），導致模型結構和訓練的複雜度顯著增加。

基於文字的方法雖然可以表示目標框，但在表示掩碼時往往採用多邊形來近似，在表示複雜和精細的 mask 上存在瓶頸，不能支援通用分割。另外，之前基於文字的細粒度 MLLMs 在密集檢測場景也表現不佳（比如 COCO 檢測）。

為了解決以上問題，我們提出了 UFO，一種統一的細粒度感知建模框架，可以不借助任務解碼器支援多種細粒度感知任務，包括目標檢測，例項分割，指代定位，推理分割等任務，且建模方式和視覺-語言任務完全對齊，可以無縫整合到現有的 MLLMs 中。

論文標題：

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

論文地址：

https://arxiv.org/abs/2503.01342

專案地址：

https://github.com/nnnth/UFO

模型地址：

https://huggingface.co/kanashi6/UFO

亮點

我們提出了一種新穎的分割正規化：特徵檢索。我們在 <MASK> 標記特徵和影像特徵之間透過點積計算相似度，檢索出影像特徵中高相似度的位置以生成掩碼。
我們有效利用了 MLLMs 的影像表示能力。之前的工作只使用 MLLMs 的文字輸出，忽略模型輸出的影像特徵。我們認為，既然 MLLMs 有出色的影像理解效能，那麼分割所需的掩碼資訊應當已經編碼在影像特徵中；而我們提出的特徵檢索方案可以顯式地從影像特徵中提取掩碼資訊。
完全對齊開放式語言介面：UFO 透過開放式語言介面統一了檢測和分割，將所有任務輸出轉化為開放式文字序列，無需任何額外的解碼器，和視覺-語言任務完全對齊，實現了與 MLLMs 的無縫整合。
具有競爭力的效能：UFO 在 COCO 例項分割上超過之前 SOTA 的通用多工模型 12.3 mAP，在 ADE20K 上取得 3.3 mIoU 的提升。UFO 還在各種指代定位，推理分割等任務中匹配或超過了基於解碼器的方法，使得準確的細粒度感知不再依賴於複雜的任務特定解碼器。

方法

3.1 導論

我們的目標是將細粒度的感知任務統一到開放式的語言介面中，從而確保與任何支援該介面的多模態架構相容。我們根據處理模態的不同，將現有的多模態架構抽象為三個組成部分：影像分詞器、文字分詞器和多模態 Transformer，如下表所示：

例如，在 LLaVA 中，影像分詞器包括視覺編碼器和 MLP 聯結器，它們負責提取視覺特徵並將其對映到 LLM 的輸入空間，而多模態 Transformer 則對應 LLM 本身。

這種抽象不僅適用於使用各種影像分詞器的 MLLMs，也適用於具有類似架構的視覺通用模型（比如 GiT），從而顯著擴充套件了我們方法的適用範圍。為了避免混淆，在接下來的章節中，我們將預設以 MLLMs 為討論物件。

3.2 文字對齊的目標框表示

為了與開放式語言介面保持一致，同時避免新增大量額外的位置標記，我們將邊界框直接轉換為文字數字。每個邊界框由其左上角（x₁, y₁）和右下角（x₂, y₂）的座標表示。

這些座標的連續值被離散化為 [0, range] 內的整數，並被 <box> 和 </box> 標記包圍。如果需要類別標籤，我們只需在 <box> 標記前新增文字類別。例如，一個人的邊界框可以表示為：person,<box>465,268,589,344</box>。

3.3 基於特徵檢索的分割方式

透過語言介面表示掩碼更具挑戰性，因為掩碼比邊界框包含更詳細的資訊。以往的方法要麼使用多邊形格式，犧牲細節，要麼為每個畫素分配文字類別，導致序列過長。

因此，需要一種更高效的方法來表示精細的掩碼。我們發現，在 MLLMs 中，模型的輸出實際上是多模態的，投影的影像特徵和文字特徵被拼接在一起，共同由 LLM 處理。

然而，大多數現有方法忽略了由 LLM 處理的輸出影像特徵。我們認為，既然 MLLMs 能夠以文字形式表達物體的位置和內容，掩碼資訊已經編碼在影像特徵中。我們只需要教會模型解碼這些資訊。

因此，我們設計了一種基於影像特徵和文字特徵的表示方法。我們不是將掩碼資訊儲存在文字特徵中，而是將文字特徵作為查詢特徵，從影像特徵中提取掩碼資訊。具體方法如下：

我們將分割任務重新建模為特徵檢索問題。首先，我們在模型的基本詞彙表中新增一個 <MASK> 標記，作為生成掩碼的指示器。在執行分割時，模型被訓練輸出 <MASK> 標記，如上圖（a）所示。

形式上，給定輸入影像和分割提示，模型生成文字響應以及相應的輸出嵌入和影像特徵：

我們從中提取與 <MASK> 標記對應的掩碼標記嵌入。為了生成分割掩碼，我們透過縮放點積計算掩碼標記嵌入與影像特徵之間的相似性。檢索正分數以形成二值掩碼。該過程表示為：

其中是嵌入維度，表示相似性分數，是指示函式，將相似性分數轉換為二值掩碼。

透過計算掩碼標記特徵與影像特徵之間的點積相似性，我們檢索與掩碼標記最相關的影像特徵，從而生成與原始影像對齊的掩碼。我們的方法挖掘了 MLLMs 本身的分割能力，而無需任務解碼器。

我們認為，在良好編碼的影像特徵中，具有相同語義的特徵將聚整合簇。因此，生成掩碼標記特徵等同於識別相關影像特徵簇的中心，而計算特徵之間的相似性則反映了這種關係。

3.3.1 透過多個掩碼標記上取樣

由於視覺資訊中的冗餘，通常會以降低解析度的方式處理視覺特徵。例如，CLIP-L/14 模型將影像特徵的解析度相比原圖下采樣了 14 倍。在我們的分割方法中，相似度是使用下采樣後的影像特徵計算的，導致生成的掩碼解析度較低。然而，直接透過插值進行上取樣會產生粗糙的掩碼，導致效能不佳。

為了應對這一問題，我們提出了一種透過預測多個掩碼令牌進行上取樣的方法。對於一幅影像，我們獲得下采樣後的影像特徵，下采樣比例由補丁大小決定，其中表示特徵維度。

我們的目標是將生成的掩碼上取樣倍，生成，該掩碼來自影像特徵。這需要為影像特徵的每個位置解碼一個的掩碼。為此，我們訓練模型自迴歸地預測個 <MASK> 令牌，其嵌入表示為。每個令牌對應於上取樣網格中的一個位置，如上圖（b）所示。

對於每個掩碼令牌嵌入，我們計算其與視覺特徵的相似性：

其中，，且。

然後，這些相似性分數被連線並重塑為上取樣後的相似性圖：

最後，我們在中檢索正分數，以生成上取樣後的二值掩碼。

預設情況下，我們將設定為 4，預測 16 個<MASK> 令牌，這將輸出掩碼上取樣 4 倍。然後，透過插值將掩碼與原始影像解析度對齊。

我們的方法將掩碼特徵用作上取樣引數，比傳統的雙線性插值和轉置卷積更靈活。雙線性插值引數不可學習，轉置卷積雖然可學習但訓練後對所有影像固定不變。相比之下，我們透過網路生成定製化引數，允許模型動態最佳化上取樣效果，提升了靈活性和效能。

3.4 多工資料模版

基於上述設計，我們構建用於聯合訓練的多工資料模板。我們根據輸出預測數量將任務分為兩類：單一預測任務，如視覺定位，產生一個邊界框或掩碼；多預測任務，如目標檢測，需要多個邊界框預測。

將多個預測合併為一個長序列效率低下，並且多個預測之間的順序難以定義，這使得序列的自迴歸學習變得困難。因此我們採用了一種並行解碼方法，將多預測任務拆分為獨立的子任務，每個子任務處理一個預測，所有子任務並行執行。

這一策略有效加速了推理過程並增強了任務的可擴充套件性。對於僅需單一預測的任務，我們的任務模板為：<Text Prompt><Image><Text Response> 。如上圖左側所示。

對於多預測任務，我們將其拆分為多個單一預測的獨立子任務，使得他們能在同一個批處理內並行。實現並行的關鍵是確保所有子任務相互獨立。通常，多個邊界框和掩碼對應於不同的位置。因此，我們在輸入中引入區域性影像特徵以區分這些子任務，作為視覺提示。

模板結構是：<Text Prompt><Image><Local><Text Response> 。其中 <Local> 指透過在影像上取樣網格點進行插值獲得的區域性影像特徵，作為區域性化的視覺提示。

如上圖右側所示，我們在整個影像上均勻取樣 M 個網格點，並在每個網格位置插值區域性影像特徵。然後，我們將這 M 個網格點與 K 個預測匹配，將每個預測分配給最近的網格點。剩餘的 M-K 個網格點預測結束標記。

透過這種方式，M 個網格點對應於 M 個獨立的子任務。它們共享文字提示和影像特徵，但具有不同的區域性特徵和文字響應，形成 M 個可以在批處理內並行預測的獨立子序列。透過將複雜任務拆解為簡單的單一預測子任務，這種方法提高了效率並簡化了學習過程。我們採用這一模板用於目標檢測、例項分割和語義分割。

實驗

4.1 多工訓練

我們首先在 GiT 提出的多工基準上進行驗證，包含 COCO 檢測和分割，ADE20K 語義分割，COCO 標題生成和 RefCOCO 視覺定位（REC）5 個任務。

為了確保公平，我們採用了兩種變體進行多工訓練：UFO-ViT 和 UFO-InternVL2-8B。UFO-ViT 嚴格遵循 GiT 的設定，採用預訓練的 SAM-ViT，提供 ViT-B、-L 和 -H 三種尺寸；而 UFO-InternVL2-8B 則基於 InternVL2-8B 的預訓練權重。

和基於文字表示的通用模型 GiT 相比，UFO 在所有任務上都取得提升。其中 UFO-ViT-H 在 COCO 例項分割上比 GiT-H 高出 12.3 mAP，在 ADE20K 語義分割上高出 3.3 mIoU，展現了我們分割建模的優越性。

我們在多工訓練中也觀察到類似 GiT 的多工協同效應（圖中藍色部分），展示了統一建模的優越性。在擴充套件到大規模多語言模型（MLLMs）後，標題生成和 REC 效能進一步提升，其他任務與 UFO-ViT-L 相當。

我們認為這種差異主要源於預訓練的不同：UFO-ViT 使用 SAM 預訓練，更適合檢測和分割任務；而 InternVL2-8B 主要在影像級視覺語言任務上預訓練，更適合標題生成和 REC。

4.2 細粒度指令微調

為了進一步挖掘我們方法的潛力，我們引入更加豐富的資料對 MLLMs 進行細粒度感知微調。這一階段我們不僅使用 InternVL2-8B，還採用 LLaVA-1.5-7B 的預訓練。訓練資料包含 6 個任務的 24 個數據集，全面覆蓋主要視覺感知任務：

4.2.1 視覺定位

無需任務解碼器，我們的方法在引用表示式理解（REC）和分割（RES）兩種任務展現出優越的效能。其中 UFO-InternVL2-8B 平均領先 VisionLLM v2 2.0%。經過特定微調後，模型的平均效能達到 88.0%。在 RES 任務上，UFO-InternVL2-8B 超過基於 SAM 的 LISA 5.9 cIoU，並與 VisionLLM v2 相當。

4.2.2 推理分割

推理分割是 LISA 引入的具有挑戰性的基準，要求模型利用世界知識進行深層邏輯推理。

按照 LISA 的評估設定，我們報告了零樣本和微調後的結果。結果顯示，在相同預訓練下，UFO-LLaVA-1.5 在零樣本設定中比 LISA 高出 5.1 gIoU，使用更先進的 InternVL2 則超過了 LISA 6.7 gIoU。微調後，InternVL2 變體的效能進一步提升了 5.8 gIoU。

實驗結果表明統一建模能夠更好地融合語言推理和精確分割能力。與 LISA 僅用 LLM 處理語言推理並依賴 SAM 進行分割不同，我們的方法在共享引數空間內同時進行語言推理和分割，增強了任務協同，避免了資訊損失。

4.3 拓展實驗

4.3.1 眼球血管分割

我們的特徵檢索方法在表達複雜細緻的掩碼方面優於多邊形方法，後者需要大量頂點才能表示。為了進一步說明，我們在視網膜血管分割上對 UFO-ViT-H 和 UFO-InternVL2-8B 模型進行了微調。

血管形狀不規則且狹窄，難以用多邊形表示。我們按照 GiT 的少樣本訓練設定，僅在 DRIVE 訓練集上進行了 100 步微調。結果顯示，UFO 精確分割了視網膜血管，UFO-ViT-H 的 Dice 係數達到 77.4，優於 GiT-H 的 57.9，UFO-InternVL2-8B 也達到了 76.3。

此結果驗證了我們分割方法在極細粒度結構上的有效性，支援其更廣泛的應用。