新突破！Harmon：協調視覺表徵以實現統一多模態理解和生成

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：機器之心

吳思澤，南洋理工大學MMLab@NTU四年級博士生，導師是Chen Change Loy，研究方向為基於多模態模型的視覺理解和生成、開放世界的檢測分割等，在ICCV/CVPR/ICLR等頂級學術會議上發表過多篇論文。

論文標題：Harmonizing Visual Representations for Unified Multimodal Understanding and Generation
論文連結: https://arxiv.org/abs/2503.21979
程式碼地址: https://github.com/wusize/Harmon
專案主頁：https://wusize.github.io/projects/Harmon
線上 Demo: https://huggingface.co/spaces/wusize/Harmon

1. 背景：統一多模態理解生成

GPT-4o 生圖功能的出現揭示了統一理解與生成模型的巨大潛力，然而如何在同一個框架內協調影像理解與生成這兩種不同粒度的任務，是一個巨大的挑戰。從視覺表徵的維度看，現有的統一模型通常採用如下三種正規化：

（1）理解生成統一使用 CLIP/SigLIP 表徵，並使用 Diffusion Model 將視覺表徵解碼成影像，如 EMU2、ILLUME 等。此類方案的影像生成過程缺少與 LLM 的互動，本質上是將 LLM 輸出的 embeddings 作為生成 condition。

（2）理解生成統一使用 VQGAN/VAE 表徵，如 Transfusion、Show-o、ViLA-u 等，由於 VQGAN/VAE 用於影像壓縮，主要表徵紋理等細節，缺乏視覺語義的建模，此類方法通常理解能力偏弱。

（3）解耦理解生成表徵，理解任務使用編碼高層語義的 CLIP/SigLIP，生成任務使用 VQGAN，如 Janus、UniFluid 等。

2. 協調理解和生成的視覺表徵

不同於 Janus 割裂理解和生成的視覺編碼，Harmon 探索在統一的視覺表徵上協調影像理解和生成。

（1）MAR 的啟發

圖一：Linear Probing 和特徵圖啟用

MAR 作為一種基於影像掩碼建模的生成正規化，沿襲了表徵學習 MAE 的 Encoder-Decoder 框架，Harmon 的作者們發現 MAR Encoder 在影像生成訓練中，同時學會對視覺語義的建模。如圖一所示，MAR 的 Linear Probing 結果遠超 VQGAN、VAE，同時對視覺語義概念有更精確的響應。

（2）Harmon：理解生成共享 MAR Encoder

圖二： Harmon 框架圖

Harmon 框架如圖所示，透過共享 MAR Encoder 同時促進理解和生成：

i）影像理解：MAR Encoder 處理完整影像，LLM 根據影像內容和使用者指令輸出文字

ii) 影像生成：沿用 MAR 的掩碼建模範式，MAR Encoder 處理可見（已經生成）的影像內容，LLM 中實現模態互動，MAR Decoder 預測剩餘的影像內容。

（3）Harmon 的三階段訓練

i）模態對齊：第一階段對齊 MAR 與 LLM，凍結 LLM 引數，僅訓練 MAR Encoder 和 Decoder

ii）聯合訓練：在大規模圖文資料上聯合訓練，並更新所有模型引數

iii）高質量微調：最後一個階段使用高質量資料微調，並將圖片解析度從 256 提升至 512

3. 實驗結果：理解生成兩開花

（1）Harmon 在多模態理解基準上，取得接近 Janus-Pro 的效果

（2）在文生圖基準上，Harmon 優勢顯著

i) 在影像生成美學基準如 MJHQ-30K 上，Harmon 大幅領先同類的統一模型，並接近或超過文生圖專家模型如 SDXL。

ii) 在衡量指令跟隨和一致性的 GenEval 基準上，Harmon 大幅領先所有專家模型和統一模型。

iii) 同時，Harmon 能在文生圖中更好地利用多模態大模型的世界知識，在 WISE benchmark 上遠超 Janus 等統一模型。

(3) 協同生成理解

實驗中，相較於解耦理解生成地視覺編碼器（圖三d），Harmon 的協同視覺表徵表徵使理解 loss 能顯著提升生成指標（圖三b），顯示出統一視覺表徵對於生成理解協同進化的巨大潛力。

圖三：理解生成的相互作用

4.視覺化效果

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）人數破萬！如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料，一定要掃描下方二維碼，加入CVer知識星球！最強助力你的科研和工作！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看