Harmon:協調視覺表徵,統一多模態理解和生成(模型已開源)

吳思澤,南洋理工大學MMLab@NTU四年級博士生,導師是Chen Change Loy,研究方向為基於多模態模型的視覺理解和生成、開放世界的檢測分割等,在ICCV/CVPR/ICLR等頂級學術會議上發表過多篇論文。
  • 論文標題:Harmonizing Visual Representations for Unified Multimodal Understanding and Generation
  • 論文連結: https://arxiv.org/abs/2503.21979
  • 程式碼地址: https://github.com/wusize/Harmon
  • 專案主頁:https://wusize.github.io/projects/Harmon
  • 線上 Demo: https://huggingface.co/spaces/wusize/Harmon
1. 背景:統一多模態理解生成
GPT-4o 生圖功能的出現揭示了統一理解與生成模型的巨大潛力,然而如何在同一個框架內協調影像理解與生成這兩種不同粒度的任務,是一個巨大的挑戰。從視覺表徵的維度看,現有的統一模型通常採用如下三種正規化:
(1)理解生成統一使用 CLIP/SigLIP 表徵,並使用 Diffusion Model 將視覺表徵解碼成影像,如 EMU2、ILLUME 等。此類方案的影像生成過程缺少與 LLM 的互動,本質上是將 LLM 輸出的 embeddings 作為生成 condition。
(2)理解生成統一使用 VQGAN/VAE 表徵,如 Transfusion、Show-o、ViLA-u 等,由於 VQGAN/VAE 用於影像壓縮,主要表徵紋理等細節,缺乏視覺語義的建模,此類方法通常理解能力偏弱。
(3)解耦理解生成表徵,理解任務使用編碼高層語義的 CLIP/SigLIP,生成任務使用 VQGAN,如 Janus、UniFluid 等。
2. 協調理解和生成的視覺表徵
不同於 Janus 割裂理解和生成的視覺編碼,Harmon 探索在統一的視覺表徵上協調影像理解和生成。
(1)MAR 的啟發
圖一:Linear Probing 和特徵圖啟用
MAR 作為一種基於影像掩碼建模的生成正規化,沿襲了表徵學習 MAE 的 Encoder-Decoder 框架,Harmon 的作者們發現 MAR Encoder 在影像生成訓練中,同時學會對視覺語義的建模。如圖一所示,MAR 的 Linear Probing 結果遠超 VQGAN、VAE,同時對視覺語義概念有更精確的響應。
(2)Harmon:理解生成共享 MAR Encoder
圖二: Harmon 框架圖
Harmon 框架如圖所示,透過共享 MAR Encoder 同時促進理解和生成:
i)影像理解:MAR Encoder 處理完整影像,LLM 根據影像內容和使用者指令輸出文字
ii) 影像生成:沿用 MAR 的掩碼建模範式,MAR Encoder 處理可見(已經生成)的影像內容,LLM 中實現模態互動,MAR Decoder 預測剩餘的影像內容。
(3)Harmon 的三階段訓練
i)模態對齊:第一階段對齊 MAR 與 LLM,凍結 LLM 引數,僅訓練 MAR Encoder 和 Decoder
ii)聯合訓練:在大規模圖文資料上聯合訓練,並更新所有模型引數
iii)高質量微調:最後一個階段使用高質量資料微調,並將圖片解析度從 256 提升至 512
3. 實驗結果:理解生成兩開花
(1)Harmon 在多模態理解基準上,取得接近 Janus-Pro 的效果
(2)在文生圖基準上,Harmon 優勢顯著
i) 在影像生成美學基準如 MJHQ-30K 上,Harmon 大幅領先同類的統一模型,並接近或超過文生圖專家模型如 SDXL。
ii) 在衡量指令跟隨和一致性的 GenEval 基準上,Harmon 大幅領先所有專家模型和統一模型。
iii) 同時,Harmon 能在文生圖中更好地利用多模態大模型的世界知識,在 WISE benchmark 上遠超 Janus 等統一模型。
(3) 協同生成理解
實驗中,相較於解耦理解生成地視覺編碼器(圖三d),Harmon 的協同視覺表徵表徵使理解 loss 能顯著提升生成指標(圖三b),顯示出統一視覺表徵對於生成理解協同進化的巨大潛力。
圖三:理解生成的相互作用
4.視覺化效果
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章