ICLR2025|從碎片到完整:面向語義完整且等價的多模態視覺分詞新正規化SeTok

當前,多模態大語言模型(MLLMs)在視覺-語言理解任務中取得了令人矚目的進展,其中視覺分詞(vision tokenization)作為視覺與語言語義對齊的關鍵環節,發揮著至關重要的作用。
然而,現有方法往往採用將影像劃分為規則網格(grid patch token)的方式,這種過度碎片化的分詞策略破壞了視覺語義的完整性,導致視覺與語言表徵之間難以實現有效對齊。
為此,本文提出了 Semantic-Equivalent Vision Tokenizer(SeTok),透過動態聚類演算法,將視覺輸入自適應劃分為符合語義單元的 token,同時根據影像複雜度靈活調整 token 數量。SeTok 有效保留了低頻與高頻視覺特徵,顯著提升了視覺語義的完整性與表徵質量。
基於 SeTok 構建的多模態大模型 Setokim,在多項任務上展現出優異效能,驗證了語義等價視覺分詞在多模態推理與生成中的潛力。
論文標題:
Towards Semantic Equivalence of Tokenization in Multimodal LLM
論文地址:
https://arxiv.org/pdf/2406.05127
專案&程式碼地址:
https://sqwu.top/SeTok-web/
現存方法存在的問題與研究動機
儘管現有多模態大語言模型(MLLMs)在各類任務中取得了優異表現,但視覺分詞(visual tokenization)仍然是制約其進一步提升的核心瓶頸。
語言中的 word 天生具備離散型,透過分詞能夠自然劃分出明確且完整的語義單元。相較而言,視覺中的畫素是連續的、沒有天然邊界的連續訊號。因此,理想情況下,語言中的 token 應該對應影像中封裝語義完整的語義單元。
例如,當文字中提到“貓(cat)”,相應的視覺 token 應該是表徵為精準地覆蓋影像中“貓(cat)”的區域,如下圖所示:
▲ 圖1:影像與文字 token 之間的語義對等性
然而,現有主流視覺分詞方法通常將影像均勻劃分為固定大小的網格 patch,這種過度碎片化的處理導致同一物件被割裂在多個 patch 中,破壞了視覺語義單元的完整性,同時導致高頻視覺資訊(如物體的邊緣與輪廓)的大量丟失。
此外,如果採用固定數量查詢 token(query token)的方法,同樣難以準確捕捉影像中的真實語義區域,且缺乏良好的可解釋性。
▲ 圖2:現有的用於 MLLMs 的視覺 tokenizer
▲ 圖3:Patch-level 離散與連續視覺 token 與語言 token 之間的語義對應關係
這種視覺與語言之間的對齊失真,嚴重限制了 MLLMs 對視覺訊號的精確理解,尤其在需要細粒度語義對齊的複雜推理與生成任務中,成為模型效能提升的重要障礙。因此,如何在視覺分詞階段更好地保留視覺語義完整性,並實現更自然、更精準的視覺-語言對齊,成為亟需解決的問題。
方法
為了解決以上的問題,我們提出構建一個 Semantic-Equivalent Tokenizer(SeTok),旨在增強 MLLMs 中視覺與語言 token 的語義一致性。其核心思想是對輸入影像的視覺特徵進行自動聚類分組,使得到的每個聚類單元對應一個完整的視覺語義單元。
如下圖所示,紅色區域表徵為“人(person)”這一概念(concept),而黃色區域表徵為“帆板(surface board)” 這一概念(concept)。
▲ 圖4:本文提出的 Semantic-Equivalent Tokenizer(SeTok)
具體實現上,共包括 3 個步驟:
▲ 圖5:SeTok 的整體結構示意圖
2.1 Token Cluster
首先,給定輸入的圖片,我們首先利用視覺編碼器將影像編碼為視覺 patch embedding。然後,我們計算每個 patch (i,j) 的 density peaks: 
透過將區域性密度  和最小距離  結合起來,得到每個 patch 的 density peaks 分數 。根據得分 ,選擇尚未被分配到聚類中的視覺特徵中得分最高的位置(i,j),並將其迭代地分配到對應的聚類中。該過程重複進行,直到滿足終止條件。
詳細的演算法如下:
最後,透過 token cluster,我們可以得到一個具有可變數量的語義概念掩其中  表示等價語義視覺 token 的數量。並且,對於影像中任意座標位置為(i,j)的 patch token,滿足即每個 patch 被唯一分配到某一個語義概念中。
2.2 Token Merger
在完成聚類後,我們根據注意力掩碼 𝑀 對視覺嵌入進行分組。為了在每個聚類中更充分地保留語義資訊,我們引入了 token 聚合器(token merger),不再簡單地使用聚類中心作為視覺 token 的代表,而是對每個聚類內的所有視覺嵌入進行特徵聚合。
考慮到位置編碼對於影像中語義概念的表示尤為重要,我們在聚合過程中引入了二維位置編碼(2D Position Embedding,PE)。聚合特徵計算方式為:
隨後,我們對每個類內的視覺嵌入應用 Transformer 以建模區域性上下文關係,並透過平均池化獲取最終的 token 特徵:
為了進一步建模不同語義 token 之間的上下文依賴關係,我們引入了跨聚類的 Transformer 層(inter-cluster Transformer),用於捕捉語義 token 間的相互關係。最終獲得語義等價的視覺 token 序列:
2.3 SeTok Training
為了支援 MLLMs 在多樣化的視覺理解與生成任務中的表現,我們認為,高質量的語義等價視覺 token 應同時具備兩個關鍵屬性:完備而豐富的高階語義資訊,以及儘可能無失真的畫素級細節
為此,本文在訓練階段引入了概念級(concept-level)圖文對比損失與影像重建損失(如上圖 5 所示)。
首先,為了確保每個視覺 token 具備語義獨立性與完整性,我們引入概念級(concept-level)圖文對比損失。該損失在語義層面對齊視覺 token 與對應的文字概念,從而提升其在語言模型中的可整合性。
其次,為了保證生成的 token 能夠保留充分的畫素級影像細節,我們將這些 token 輸入到一個解碼器(Detokenizer),以重建原始影像,並據此計算影像重建損失。
最終,我們將對比損失與重建損失加權求和,從而在訓練過程中同時最佳化語義保真度與視覺細節的保留能力:
2.4 SeTok 與語言模型的整合:SETOKIM 框架
在獲得語義等價視覺分詞器 SeTok 之後,我們進一步將其整合到預訓練大語言模型(LLM)中,構建出多模態大語言模型 SETOKIM。整體框架如圖 6 所示。
具體來說,輸入影像首先透過 SeTok 被分割為一系列語義等價的視覺 token,然後與文字 token 拼接,組成統一的多模態輸入序列。為了區分模態並輔助視覺內容的生成,我們在視覺 token 序列前後分別引入兩個特殊標記:[Img] 和 [/Img],用於標識視覺序列的起止位置。
接下來,主幹 LLM 對該多模態序列進行處理,實現圖文的聯合理解與生成任務。生成的視覺 token 不僅可用於文字生成,還可進一步輸入至視覺解碼器(detokenizer),用於影像的重建。
此外,我們觀察到,生成的以概念為中心的 token 天然編碼了原圖中每個概念的大致空間位置(如圖 6 所示)。
為充分利用這一語義與空間聯合嵌入的資訊,我們引入了一個輕量級的掩碼解碼器(mask decoder),以生成的視覺 token 作為輸入,預測影像中各語義概念的位置掩碼(referring mask)。
▲ 圖6:透過整合 SeTok 與 LLM 提出的多模態語言模型——SETOKIM 的整體結構示意圖
2.5 SETOKIM 訓練
訓練主要包含兩個階段:
  • 階段 1:多模態對齊預訓練,我們在大量的 text-image pair 資料上進行對齊預訓練。同時,我們也會引入純文字訓練資料保證模型對於文字理解的效能。
  • 階段 2:多模態指令訓練。我們在大量為多模態指令資料集上進一步微調訓練。
實驗結果
3.1 視覺理解實驗結果
我們在多個視覺理解基準任務上系統評估了所提模型與現有 MLLMs 的效能,詳細結果見表 1。
透過引入語義等價視覺 token,我們的模型在各類視覺理解任務中取得了具有競爭力的效能表現。特別地,在 GQA 推理任務上,我們的方法帶來了 3.6% 的準確率提升,進一步驗證了 SeTok 在建模複雜關係推理與物件數量理解方面的顯著優勢。
▲ 表1:現有模型與 SETOKIM 在多個視覺理解資料集上的效能比較
▲ 圖7:視覺理解案例
3.2 視覺生成與編輯實驗結果
進一步,我們比較了現有模型與 SETOKIM 在各個視覺生成與編輯的 benchmark 上的效能,實驗結果如表 2 所示。透過進一步視覺化發現,SETOKIM 在遵循使用者指令和保持影像細節方面表現出更優異的效能。
▲ 表2:現有模型與 SETOKIM 在多個視覺生成與編輯資料集上的效能比較
▲ 圖8:視覺編輯結果案例
3.3 指代表達分割實驗結果
同時,在指代表達分割的資料集上,我們的模型獲得了更優的效能,實驗結果如表 3 所示。 透過視覺化分析可以直觀地觀察到,模型生成的注意力掩碼能夠緊密對齊於目標物體的真實分割掩碼,且 SETOKIM 在分割精度與細節完整性方面,相較於其他基於大語言模型(LLM-based)的分割方法表現更為出色。
▲ 表3:現有模型與 SETOKIM 在多個指代表達分割資料集上的效能比較
▲ 圖9:指代分割案例視覺化
3.4 視覺語義token 視覺化分析
最後,我們可視化了輸入視覺特徵在經過分詞(tokenization)後的分配情況,如圖 10 所示。
▲ 圖10:視覺 token 視覺化
總結
本文提出了 SeTok,一種實用的語義等價視覺分詞器,能夠將 patch 級別的視覺特徵自適應劃分為可變數量的語義完整的概念視覺 token。
隨後,我們將 SeTok 整合到預訓練大語言模型(LLM)中,構建了統一的多模態大模型 SETOKIM。
在大量實驗中,SETOKIM 在理解、生成、分割與編輯等多種任務上均取得了優異表現,充分驗證了 SeTok 在提升多模態模型效能方面的重要作用。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章