ICLR2025|從碎片到完整：面向語義完整且等價的多模態視覺分詞新正規化SeTok

當前，多模態大語言模型（MLLMs）在視覺-語言理解任務中取得了令人矚目的進展，其中視覺分詞（vision tokenization）作為視覺與語言語義對齊的關鍵環節，發揮著至關重要的作用。

然而，現有方法往往採用將影像劃分為規則網格（grid patch token）的方式，這種過度碎片化的分詞策略破壞了視覺語義的完整性，導致視覺與語言表徵之間難以實現有效對齊。

為此，本文提出了 Semantic-Equivalent Vision Tokenizer（SeTok），透過動態聚類演算法，將視覺輸入自適應劃分為符合語義單元的 token，同時根據影像複雜度靈活調整 token 數量。SeTok 有效保留了低頻與高頻視覺特徵，顯著提升了視覺語義的完整性與表徵質量。

基於 SeTok 構建的多模態大模型 Setokim，在多項任務上展現出優異效能，驗證了語義等價視覺分詞在多模態推理與生成中的潛力。

論文標題：

Towards Semantic Equivalence of Tokenization in Multimodal LLM

論文地址：

https://arxiv.org/pdf/2406.05127

專案&程式碼地址：

https://sqwu.top/SeTok-web/

現存方法存在的問題與研究動機

儘管現有多模態大語言模型（MLLMs）在各類任務中取得了優異表現，但視覺分詞（visual tokenization）仍然是制約其進一步提升的核心瓶頸。

語言中的 word 天生具備離散型，透過分詞能夠自然劃分出明確且完整的語義單元。相較而言，視覺中的畫素是連續的、沒有天然邊界的連續訊號。因此，理想情況下，語言中的 token 應該對應影像中封裝語義完整的語義單元。

例如，當文字中提到“貓（cat）”，相應的視覺 token 應該是表徵為精準地覆蓋影像中“貓（cat）”的區域，如下圖所示：

▲ 圖1：影像與文字 token 之間的語義對等性

然而，現有主流視覺分詞方法通常將影像均勻劃分為固定大小的網格 patch，這種過度碎片化的處理導致同一物件被割裂在多個 patch 中，破壞了視覺語義單元的完整性，同時導致高頻視覺資訊（如物體的邊緣與輪廓）的大量丟失。

此外，如果採用固定數量查詢 token（query token）的方法，同樣難以準確捕捉影像中的真實語義區域，且缺乏良好的可解釋性。

▲ 圖2：現有的用於 MLLMs 的視覺 tokenizer

▲ 圖3：Patch-level 離散與連續視覺 token 與語言 token 之間的語義對應關係

這種視覺與語言之間的對齊失真，嚴重限制了 MLLMs 對視覺訊號的精確理解，尤其在需要細粒度語義對齊的複雜推理與生成任務中，成為模型效能提升的重要障礙。因此，如何在視覺分詞階段更好地保留視覺語義完整性，並實現更自然、更精準的視覺-語言對齊，成為亟需解決的問題。

方法

為了解決以上的問題，我們提出構建一個 Semantic-Equivalent Tokenizer（SeTok），旨在增強 MLLMs 中視覺與語言 token 的語義一致性。其核心思想是對輸入影像的視覺特徵進行自動聚類分組，使得到的每個聚類單元對應一個完整的視覺語義單元。

如下圖所示，紅色區域表徵為“人（person）”這一概念（concept），而黃色區域表徵為“帆板（surface board）” 這一概念（concept）。

▲ 圖4：本文提出的 Semantic-Equivalent Tokenizer（SeTok）

具體實現上，共包括 3 個步驟：

▲ 圖5：SeTok 的整體結構示意圖

2.1 Token Cluster

首先，給定輸入的圖片，我們首先利用視覺編碼器將影像編碼為視覺 patch embedding。然後，我們計算每個 patch (i,j) 的 density peaks:

透過將區域性密度和最小距離結合起來，得到每個 patch 的 density peaks 分數。根據得分，選擇尚未被分配到聚類中的視覺特徵中得分最高的位置（i,j），並將其迭代地分配到對應的聚類中。該過程重複進行，直到滿足終止條件。

詳細的演算法如下：

最後，透過 token cluster，我們可以得到一個具有可變數量的語義概念掩碼，其中表示等價語義視覺 token 的數量。並且，對於影像中任意座標位置為（i,j）的 patch token，滿足，即每個 patch 被唯一分配到某一個語義概念中。

2.2 Token Merger

在完成聚類後，我們根據注意力掩碼 𝑀 對視覺嵌入進行分組。為了在每個聚類中更充分地保留語義資訊，我們引入了 token 聚合器（token merger），不再簡單地使用聚類中心作為視覺 token 的代表，而是對每個聚類內的所有視覺嵌入進行特徵聚合。

考慮到位置編碼對於影像中語義概念的表示尤為重要，我們在聚合過程中引入了二維位置編碼（2D Position Embedding，PE）。聚合特徵計算方式為：

隨後，我們對每個類內的視覺嵌入應用 Transformer 以建模區域性上下文關係，並透過平均池化獲取最終的 token 特徵：

為了進一步建模不同語義 token 之間的上下文依賴關係，我們引入了跨聚類的 Transformer 層（inter-cluster Transformer），用於捕捉語義 token 間的相互關係。最終獲得語義等價的視覺 token 序列：

2.3 SeTok Training

為了支援 MLLMs 在多樣化的視覺理解與生成任務中的表現，我們認為，高質量的語義等價視覺 token 應同時具備兩個關鍵屬性：完備而豐富的高階語義資訊，以及儘可能無失真的畫素級細節。

為此，本文在訓練階段引入了概念級（concept-level）圖文對比損失與影像重建損失（如上圖 5 所示）。

首先，為了確保每個視覺 token 具備語義獨立性與完整性，我們引入概念級（concept-level）圖文對比損失。該損失在語義層面對齊視覺 token 與對應的文字概念，從而提升其在語言模型中的可整合性。

其次，為了保證生成的 token 能夠保留充分的畫素級影像細節，我們將這些 token 輸入到一個解碼器（Detokenizer），以重建原始影像，並據此計算影像重建損失。

最終，我們將對比損失與重建損失加權求和，從而在訓練過程中同時最佳化語義保真度與視覺細節的保留能力：

2.4 SeTok 與語言模型的整合：SETOKIM 框架

在獲得語義等價視覺分詞器 SeTok 之後，我們進一步將其整合到預訓練大語言模型（LLM）中，構建出多模態大語言模型 SETOKIM。整體框架如圖 6 所示。

具體來說，輸入影像首先透過 SeTok 被分割為一系列語義等價的視覺 token，然後與文字 token 拼接，組成統一的多模態輸入序列。為了區分模態並輔助視覺內容的生成，我們在視覺 token 序列前後分別引入兩個特殊標記：[Img] 和 [/Img]，用於標識視覺序列的起止位置。

接下來，主幹 LLM 對該多模態序列進行處理，實現圖文的聯合理解與生成任務。生成的視覺 token 不僅可用於文字生成，還可進一步輸入至視覺解碼器（detokenizer），用於影像的重建。

此外，我們觀察到，生成的以概念為中心的 token 天然編碼了原圖中每個概念的大致空間位置（如圖 6 所示）。

為充分利用這一語義與空間聯合嵌入的資訊，我們引入了一個輕量級的掩碼解碼器（mask decoder），以生成的視覺 token 作為輸入，預測影像中各語義概念的位置掩碼（referring mask）。

▲ 圖6：透過整合 SeTok 與 LLM 提出的多模態語言模型——SETOKIM 的整體結構示意圖

2.5 SETOKIM 訓練

訓練主要包含兩個階段：

階段 1：多模態對齊預訓練，我們在大量的 text-image pair 資料上進行對齊預訓練。同時，我們也會引入純文字訓練資料保證模型對於文字理解的效能。
階段 2：多模態指令訓練。我們在大量為多模態指令資料集上進一步微調訓練。

實驗結果

3.1 視覺理解實驗結果

我們在多個視覺理解基準任務上系統評估了所提模型與現有 MLLMs 的效能，詳細結果見表 1。

透過引入語義等價視覺 token，我們的模型在各類視覺理解任務中取得了具有競爭力的效能表現。特別地，在 GQA 推理任務上，我們的方法帶來了 3.6% 的準確率提升，進一步驗證了 SeTok 在建模複雜關係推理與物件數量理解方面的顯著優勢。

▲ 表1：現有模型與 SETOKIM 在多個視覺理解資料集上的效能比較

▲ 圖7：視覺理解案例

3.2 視覺生成與編輯實驗結果

進一步，我們比較了現有模型與 SETOKIM 在各個視覺生成與編輯的 benchmark 上的效能，實驗結果如表 2 所示。透過進一步視覺化發現，SETOKIM 在遵循使用者指令和保持影像細節方面表現出更優異的效能。

▲ 表2：現有模型與 SETOKIM 在多個視覺生成與編輯資料集上的效能比較

▲ 圖8：視覺編輯結果案例

3.3 指代表達分割實驗結果

同時，在指代表達分割的資料集上，我們的模型獲得了更優的效能，實驗結果如表 3 所示。透過視覺化分析可以直觀地觀察到，模型生成的注意力掩碼能夠緊密對齊於目標物體的真實分割掩碼，且 SETOKIM 在分割精度與細節完整性方面，相較於其他基於大語言模型（LLM-based）的分割方法表現更為出色。

▲ 表3：現有模型與 SETOKIM 在多個指代表達分割資料集上的效能比較

▲ 圖9：指代分割案例視覺化

3.4 視覺語義token 視覺化分析

最後，我們可視化了輸入視覺特徵在經過分詞（tokenization）後的分配情況，如圖 10 所示。

▲ 圖10：視覺 token 視覺化

總結

本文提出了 SeTok，一種實用的語義等價視覺分詞器，能夠將 patch 級別的視覺特徵自適應劃分為可變數量的語義完整的概念視覺 token。

隨後，我們將 SeTok 整合到預訓練大語言模型（LLM）中，構建了統一的多模態大模型 SETOKIM。

在大量實驗中，SETOKIM 在理解、生成、分割與編輯等多種任務上均取得了優異表現，充分驗證了 SeTok 在提升多模態模型效能方面的重要作用。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

ICLR2025|從碎片到完整：面向語義完整且等價的多模態視覺分詞新正規化SeTok

相關文章

CVPR2025｜MambaOut：在視覺任務中，我們真的需要Mamba嗎？

僅縮小視覺Token位置編碼間隔，輕鬆讓多模態大模型理解百萬Token！清華大學，香港大學，上海AILab新突破

ICLR2025|計算開銷減半！Dynamic-LLaVA重新整理多模態大模型推理加速上限

ICLR2025｜首個動態視覺——文字稀疏化框架來了，計算開銷直降50％-75％

視覺Token無縫對齊LLMs詞表！V²Flow：基於LLMs實現高保真自迴歸影像生成

CVPR2025|MambaOut：視覺任務真的需要Mamba嗎？

CVPR2025|Zero-shot能力拉滿！隨機順序自迴歸解鎖視覺領域的“GPT時刻”

CVPR2025|RandAR：用隨機順序自迴歸探索視覺領域的“GPT時刻”

核心程式碼僅三行！即插即用的視覺語言聯結器，一鍵提升多模態大模型

視覺Token無縫對齊大語言模型詞表！基於LLM實現高保真自迴歸影像生成