視覺Token無縫對齊大語言模型詞表!基於LLM實現高保真自迴歸影像生成

背景與挑戰
隨著 ChatGPT 掀起自迴歸建模革命後,近年來研究者們開始探索自迴歸建模在視覺生成任務的應用,將視覺和文字資料統一在 “next-token prediction” 框架下。實現自迴歸影像生成的關鍵是設計向量化(Vector-Quantization)的視覺 Tokenizer,將視覺內容離散化成類似於大語言模型詞表的離散 Token。
現有方法雖取得進展,卻始終面臨兩大桎梏:
1. 傳統視覺 tokenizer 生成的離散表徵與 LLM 詞表存在顯著的分佈偏差
2. 維度詛咒:影像的二維結構迫使大語言模型以逐行方式預測視覺 token,與一維文字的連貫語義預測存在本質衝突。
結構性與特徵分佈性的雙重割裂,暴露了當前自迴歸視覺生成的重大缺陷:缺乏能夠既保證高保真影像重建,又能與預訓練 LLMs 詞彙表在結構上和特徵分佈上統一的視覺 tokenizer。解決這一問題對於實現有效的多模態自迴歸建模和增強的指令遵循能力至關重要。
因此,一個核心問題是:能否設計一種視覺 tokenizer,使生成的離散視覺 token 在保證高質量視覺重建的同時,與預訓練 LLMs 詞彙表實現無縫融合?
論文標題:
V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation
論文連結:
https://arxiv.org/abs/2503.07493
開源專案連結:
https://github.com/Davinci-XLab/V2Flow
V²Flow:統一視覺 Token 與大語言模型詞表
最新開源的 V²Flow tokenizer,首次實現了將視覺內容直接嵌入現有大語言模型的詞彙空間,在保證高質量視覺重建的同時從根本上解決模態對齊問題。總體而言,V²Flow 主要包括三點核心貢獻:
視覺詞彙重取樣器。如圖 1(a) ,將影像壓縮成緊湊的一維離散 token 序列,每個 token 被表示為大語言模型(例如 Qwen [1]、LLaMA [2][3] 系列)詞彙空間上的軟類別分佈。這一設計使得視覺 tokens 可以無縫地嵌入現有 LLM 的詞彙序列中。
換言之,影像資訊被直接翻譯成 LLM “聽得懂”的語言,實現了視覺與語言模態的對齊。在圖 1(b)中,經由重取樣器處理後,視覺 tokens 的潛在分佈與大型語言模型(LLM)的詞彙表高度一致。這種在結構和潛在分佈上的高度相容性,能夠降低視覺 tokens 直接融入已有 LLM 的複雜性。
▲ 圖1 視覺詞彙重取樣器的核心設計
▲ 圖2 掩碼自迴歸流匹配解碼器示意圖以及取樣階段演算法流程
掩碼自迴歸流匹配編碼器。為了實現離散化視覺 token 的高保真視覺重建,V²Flow 提出了掩碼自迴歸流匹配解碼器。該解碼器採用掩碼 Transformer 編碼-解碼結構,為視覺 tokens 補充豐富的上下文資訊。增強後的視覺 tokens 用於條件化一個專門設計的速度場模型,從標準正態先驗分佈中重建出連續的視覺特徵。
在流匹配取樣階段,該解碼器採用類似 MAR [4] 的方式,以 “next-set prediction” 的方式逐步完成視覺重建。相比於近期提出的僅依賴掩碼編碼器-解碼器結構的 TiTok [5],V2Flow 自迴歸取樣的優勢是能夠在更少的視覺 token 數量下實現更高的重建質量,有效提高了壓縮效率。
▲ 圖3 V²Flow 與預訓練 LLMs 融合實現自迴歸視覺生成的整體流程
端到端自迴歸視覺生成。圖 3 展示了 V²Flow 協同 LLMs 實現自迴歸視覺生成的流程。為促進兩者無縫融合,在已有 LLM 詞彙表基礎上擴充套件了一系列特定視覺 tokens,並直接利用 V²Flow 中的碼本進行初始化。
訓練階段構建了包含文字-影像對的單輪對話資料,文字提示作為輸入指令,而離散的視覺 tokens 則作為預測目標響應。在推理階段,經過預訓練的 LLM 根據文字指令預測視覺 tokens,直至預測到 <stop> token 為止。隨後,離散視覺 tokens 被送入 V²Flow 解碼器,透過流匹配取樣重建出高質量影像。
實驗結果
重建質量方面,V²Flow 無論是在 ImageNet-1k 測試資料集的 256 和 512 解析度下均取得了競爭性的重建效能。相比於位元組提出的一維離散化 tokenizer TiTok [5] 相比,V²Flow 利用更少的離散 tokens 實現了更高質量的影像重建,顯著提高了整體壓縮效率。
文字引導影像生成方面,實驗結果表明,相比於當前兩種最先進的自迴歸生成模型 Janus-Pro-7B [6] 和 Lumina-mGPT-7B [7], V²Flow+LLaMA2-7B 能夠更加準確地捕捉文字提示中的語義細節,展示了極具競爭力的生成效能。
開源生態與團隊招募:共建多模態未來
4.1 開源承諾:讓技術普惠每一位探索者
開源是推動 AI 技術進化的核心動力。本次釋出的 V²Flow框架已完整公開訓練與推理程式碼庫,開發者可基於現有程式碼快速復現論文中的核心實驗。更令人期待的是,團隊預告將於近期陸續釋出:
1. 512/1024 解析度預訓練模型支援高畫質影像重建與生成
2. 自迴歸生成模型整合 LLaMA 等主流大語言模型的開箱即用方案
3. 多模態擴充套件工具包未來將支援影片、3D、語音等跨模態生成任務
GitHub 主頁
https://github.com/Davinci-XLab
🌟 Star 收藏,第一時間獲取更新通知
4.2 加入我們:共創下一代多模態智慧
V²Flow作者團隊現招募多模態生成演算法研究型實習生如果你渴望站在 AI 內容生成的最前沿,參與定義自迴歸架構的未來,這裡將是你實現突破的絕佳舞臺。
我們做什麼?
1. 探索文字、影像、影片、語音、音樂的統一自迴歸生成正規化
2. 構建支援高畫質、長序列、強語義關聯的多模態大模型
3. 攻克數字人、3D 生成、即時互動創作等產業級應用難題
我們需要你具備:
✅ 硬核技術力
  • 精通 Python,熟練使用 PyTorch/TensorFlow 等框架
  • 深入理解 Diffusers、DeepSpeed 等 AIGC 工具鏈
  • 在 CV/NLP 領域頂級會議(CVPR、ICML、NeurIPS 等)發表論文者優先
✅ 極致創新欲
  • 對多模態生成、自迴歸架構、擴散模型等技術有濃厚興趣
  • 曾在 Kaggle、ACM 競賽等獲得 Top 名次者優先
  • 有開源專案貢獻或獨立開發經驗者優先
投遞方式:[email protected]
參考文獻
[1] Yang A, Yang B, Zhang B, et al. Qwen2. 5 technical report[J]. arXiv preprint arXiv:2412.15115, 2024.
[2] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.
[3] Grattafiori A, Dubey A, Jauhri A, et al. The llama 3 herd of models[J]. arXiv preprint arXiv:2407.21783, 2024.
[4] Li T, Tian Y, Li H, et al. Autoregressive image generation without vector quantization[J]. Advances in Neural Information Processing Systems, 2024, 37: 56424-56445.
[5] Yu Q, Weber M, Deng X, et al. An image is worth 32 tokens for reconstruction and generation[J]. Advances in Neural Information Processing Systems, 2024, 37: 128940-128966.
[6] Chen X, Wu Z, Liu X, et al. Janus-pro: Unified multimodal understanding and generation with data and model scaling[J]. arXiv preprint arXiv:2501.17811, 2025.
[7] Liu D, Zhao S, Zhuo L, et al. Lumina-mgpt: Illuminate flexible photorealistic text-to-image generation with multimodal generative pretraining[J]. arXiv preprint arXiv:2408.02657, 2024.
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章