點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:全棧帕魯

Highly Compressed Tokenizer Can Generate Without Training
程式碼:https://github.com/lukaslaobeyer/token-opt
論文:https://arxiv.org/abs/2506.08257
目錄
-
引言
-
理解一維分詞器
-
方法論
-
潛在空間分析
-
測試時最佳化
-
主要發現
-
應用
-
侷限性與未來工作
-
重要性
引言

所提出的方法透過基於梯度的測試時最佳化,對32個離散標記進行最佳化,無需訓練獨立的生成模型即可完成各種影像生成任務。
傳統的影像生成流程包含兩個主要組成部分:一個將影像壓縮為潛在表示的標記器(tokenizer),以及一個學習生成新標記序列的生成模型。這篇由麻省理工學院和Meta FAIR的Beyer等人撰寫的論文挑戰了這一正規化,透過證明高度壓縮的一維標記器無需單獨訓練的生成模型即可生成影像。
這項研究基於TiTok(一維標記器)架構,該架構將影像表示為僅32個離散標記的序列——與通常生成數百或數千個以空間網格排列的標記的傳統二維標記器相比,這是一個極高的壓縮比。作者提出,隨著標記器實現更高的壓縮比,其解碼器必須變得越來越複雜,可能發展出固有的生成能力。
理解一維分詞器
一維和二維標記器之間的區別是這項工作的核心。傳統的二維標記器,如VQGAN中使用的,會生成空間排列的標記網格,從而保留區域性影像結構。相比之下,TiTok等一維標記器學習將整個影像表示為沒有固定空間排列的序列,允許每個標記捕獲更多的全域性資訊。
TiTok架構使用Vision Transformer (ViT)編碼器來處理影像塊,並透過向量量化(VQ)步驟生成離散標記。然後解碼器從這32個標記重建完整的影像。這種極致的壓縮迫使解碼器學習豐富的表示,能夠從最少的資訊中重建複雜的視覺內容。
方法論
作者採用系統方法,透過兩種主要策略來研究TiTok標記器的生成能力:直接潛在空間操作和基於梯度的最佳化。
潛在空間分析
研究人員首先透過檢查不同標記位置與高階影像屬性的關係,分析了一維標記空間的語義結構。他們根據語義屬性(例如,“動物 vs. 無生命物體”、“白天 vs. 夜晚場景”)對ImageNet驗證資料集進行劃分,並計算了每個標記位置的重要性指標,以識別哪些標記攜帶有關特定屬性的資訊。

分析表明,特定的標記位置編碼了不同的語義屬性,例如主體型別、植被密度和影像質量。
這項分析揭示了標記位置之間顯著的語義解耦,特定的標記始終編碼著特定的全域性屬性,如場景光照、影像銳度和主體型別。
測試時最佳化
基於這些見解,作者開發了一個基於梯度的最佳化框架,該框架迭代地完善標記表示,以滿足任意目標函式。最佳化在向量量化步驟之前對連續特徵向量進行操作,使用直通估計器(straight-through estimator)將梯度反向傳播透過離散標記。
一般的最佳化過程包括:
-
初始化 token(可以來自種子影像或隨機初始化)
-
計算目標函式相對於 token 特徵的梯度
-
使用 Adam 最佳化器更新 token
-
應用各種正則化技術(注入噪聲、L2 正則化、指數移動平均)
主要發現
壓縮提高生成質量
一個反直覺但至關重要的發現是,增加壓縮顯著提高了生成質量。TiTok-LL-32 模型(32 個 token,4096 個碼本大小)始終優於具有更多 token 或更大碼本的變體。這表明,極致壓縮迫使分詞器學習更強大和更具泛化能力的表示。

效能比較顯示,更高的壓縮(更少的 token,更小的碼本)導致更好的生成質量。
向量量化至關重要
作者發現,向量量化提供的離散潛在空間對於良好的生成效能至關重要。連續 VAE 變體表現明顯更差,這表明離散瓶頸對生成過程起到了關鍵的正則化作用。
1D 與 2D 分詞器
該方法在使用標準 2D 分詞器(如 MaskGIT 的 VQGAN)時未能成功,這突出表明 1D 分詞的獨特特性——特別是高度壓縮的全域性資訊編碼——是該方法成功的根本。
應用
文字引導影像編輯
該框架透過最佳化 token 以最大化 CLIP 與文字提示的相似性,實現了靈活的文字引導影像編輯。從種子影像開始,最佳化可以轉換主體,同時保留姿勢和構圖等結構元素。

文字引導編輯的示例,顯示了藍鴉在不同背景下的轉換,同時保留了姿勢和結構。
複製貼上編輯
語義解耦實現了潛在空間中直觀的“複製貼上”編輯,其中可以將來之參考影像的 token 直接複製到目標影像,以轉移照明或影像質量等特定屬性。

複製貼上編輯的演示,顯示了在語義不同的影像之間轉移照明和質量屬性。
影像修復
該方法透過最佳化 token 以最小化未遮蔽區域的重建損失來處理影像修復,並進行週期性的“token 重置”以保持與已知影像部分的連貫性。

影像修復結果,顯示成功完成了遮蔽區域,同時保持了視覺連貫性。
無條件生成
即使沒有種子影像,該方法也可以透過從隨機初始化的 token 開始並針對文字提示或其他目標進行最佳化,生成多樣化、逼真的影像。
侷限性與未來工作
儘管該方法作為一種無需訓練的方法取得了有競爭力的結果,但它仍有侷限性。極致壓縮可能會限制對細粒度細節的控制,並且該方法需要仔細調整最佳化超引數。作者承認絕對生成質量並未超越最先進的專用生成模型,但強調了在無需訓練的情況下實現生成這一概念的重要性。
未來的工作可以探索擴充套件到更高的壓縮比,研究替代最佳化策略,並將該方法擴充套件到自然影像以外的其他領域。
意義
這項工作代表了影像生成思維的正規化轉變,證明了表示學習和生成之間的傳統分離可能是人為的。透過展示高度壓縮的標記器具有固有的生成能力,該研究為高效、靈活的影像生成系統提出了新的方向。
實際意義包括降低部署的計算要求,透過語義解耦提高可解釋性,以及透過即插即用的目標函式增強靈活性。這項工作為基礎模型開闢了新的研究方向,其中單一的、超壓縮的表示作為理解和生成任務的通用主幹。
極度壓縮不僅沒有阻礙反而提高了生成質量的發現挑戰了傳統觀念,並表明強制模型學習最大程度壓縮的表示可能是開發更強大、更通用的視覺人工智慧系統的關鍵。
ICCV 2025 論文和程式碼下載
在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合
CVPR 2025 論文和程式碼下載
在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
ICCV 2025 論文和程式碼下載
ICCV 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
