
來源 | 機器之心
OpenAI 的 GPT-4o 在影像理解、生成和編輯任務上展現了頂級效能。流行的架構猜想是:
-
Tokens → [Autoregressive 模型] → [Diffusion 模型] → 影像畫素
該混合架構將自迴歸與擴散模型的優勢結合。Salesforce Research、馬里蘭大學、弗吉尼亞理工、紐約大學、華盛頓大學的研究者在最新的研究(統一多模態模型 BLIP3-o)中也採用了自迴歸 + 擴散框架。

-
論文標題:BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Datase
-
論文地址:https://arxiv.org/pdf/2505.09568v1
-
GitHub 程式碼:https://github.com/JiuhaiChen/BLIP3o
-
模型權重:https://huggingface.co/BLIP3o/BLIP3o-Model
-
線上演示:https://huggingface.co/spaces/BLIP3o/blip-3o
-
預訓練:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain-Long-Caption
-
指令微調:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
在這個框架裡,自迴歸模型先生成連續的中間視覺特徵,用以逼近真實影像表示,進而引出兩個關鍵問題:
-
真實特徵來源 (Ground-truth features):用 VAE 還是 CLIP 將影像編碼為連續特徵?
-
特徵對齊方式:使用 MSE 損失,還是藉助擴散模型(Flow Matching)來對齊預測與真實特徵?
統一多模態下的影像生成
研究者考察兩種影像編碼–解碼正規化:
-
VAE:將影像編碼為 low level 畫素特徵,以獲得更好的重建質量。但 VAE 編碼器在處理更高解析度輸入時,會生成更長的向量序列,從而增加訓練過程中的計算負擔。
-
CLIP + Diffusion:先將影像對映到 high level 語義特徵,再透過擴散模型重建真實影像。在實際操作過程中,會先用 CLIP 得到影像特徵,然後基於 CLIP feature 訓練一個擴散模型來重建影像。該方法好處是無論輸入影像解析度如何,每張影像都可編碼為固定長度的連續向量 (比如長度為 64 的向量),這種編碼方式能有較好的影像壓縮率;但需要額外訓練來使擴散模型適配不同的 CLIP 編碼器。
針對自迴歸模型預測的視覺特徵與 VAE/CLIP 提供的真實特徵,有兩類訓練目標:
-
MSE:對預測特徵與真實特徵計算均方誤差
-
Flow Matching:基於自迴歸模型生成的預測特徵,透過流匹配損失訓練一個 Diffusion Transformer,用 Diffusion Transformer 的輸出值來逼近 CLIP 或 VAE 特徵
結合不同的編碼–解碼架構與訓練目標,共有三種設計選擇:
-
CLIP + MSE:最小化預測表徵與 CLIP 真實表徵之間的 MSE, 比如 Emu2、SeedX。在生成圖片的時候,自迴歸模型生成視覺特徵,基於這個視覺特徵,使用一個擴散模型來解碼圖片。
-
CLIP + Flow Matching:以自迴歸模型預測的視覺特徵為條件,使用流匹配損失來訓練 Diffusion Transformer,以預測真實的 CLIP 表徵。在生成圖片的時候,自迴歸模型生成視覺特徵,基於這個視覺特徵,Diffusion Transformer 生成一個 CLIP feature,然後再基於這個 CLIP feature,使用一個輕量的擴散模型來解碼圖片。整個過程涉及兩次擴散過程,第一次生成 CLIP feature,第二次生成真實圖片。
-
VAE + Flow Matching:以自迴歸模型預測的視覺特徵為條件,使用流匹配損失來訓練 Diffusion Transformer,以預測真實的 VAE 表徵。在生成圖片的時候,自迴歸模型生成視覺特徵,基於這個視覺特徵,Diffusion Transformer 生成一個 VAE feature, 由 VAE 解碼器來生成真實圖片。

Caption: 在統一多模態模型中,影像生成有三種設計方案。所有方案均採用自迴歸 + 擴散框架,但在影像生成元件上各有不同。對於流匹配損失,保持自迴歸模型凍結,僅微調影像生成模組 (Diffusion Transformer),以保留模型的語言能力。
下圖對比了這三種方案在相同設定下的表現,證明 CLIP + Flow Matching 能在提示對齊、影像多樣性與視覺質量之間取得最佳平衡。

Caption: 不同方案的對比
研究者發現將影像生成整合到統一模型時,自迴歸模型對語義級特徵(CLIP)的學習比對畫素級特徵(VAE)的學習更為高效。同時,將流匹配 (Flow Matching)作為訓練目標能夠更好地捕捉影像分佈,從而帶來更豐富的樣本多樣性和更出色的視覺質量。同時有兩個階段的擴散過程,相對於傳統的一個階段的擴散模型,將影像生成分解成了兩個階段,第一階段自迴歸模型和 diffusion transformer 只負責生成語義特徵,第二階段再由一個輕量的擴散模型來補全 low-level 特徵,從而大幅減輕訓練壓力。
統一影像理解與生成
透過 CLIP 編碼器,影像理解與影像生成共用同一語義空間,實現了兩者的統一。
研究者採用順序訓練(late fusion)而非聯合訓練(early fusion),原因在於:
-
可以凍結自迴歸模型,保留其影像理解能力;
-
把全部訓練資源集中在影像生成模組,避免多工間的相互干擾。

caption:聯合訓練(early fusion)同時更新理解和生成模組,順序訓練 (late fusion)先獨立調優「理解」,再凍結骨幹只訓練「生成」。
BLIP3-o:統一多模態模型
基於上述對比,研究者選定 CLIP + Flow Matching 與順序訓練 (late fusion),構建了 4B 和 8B 引數的 BLIP3-o:
-
預訓練資料:25M 開源圖文 + 30M 專有影像
-
影像字幕 (caption):均由 Qwen-2.5-VL-7B-Instruct 生成,平均 120 token;為增強對短提示的適應,還額外混入~10%(6M)的短字幕(20 token)
-
4B 引數開源模型:純 25M 開源圖文對,及~10%(3M)短字幕
-
指令微調:GPT-4o 生成 60K 條高質量示例,顯著提升提示對齊和視覺美感
所有程式碼、模型、資料均陸續開源中,歡迎試用!

Caption: BLIP3-o 視覺化示例
研究者發現:
模型能迅速調整至 GPT-4o 風格,提示對齊 (instruction following) 和視覺質量均大幅提升。

caption:影像理解表現

Caption: 影像生成的基準效能與人工評估
結論
本文首次系統地探索了結合自迴歸與擴散架構的統一多模態建模,評估了三個關鍵維度:影像表示(CLIP 特徵 vs. VAE 特徵)、訓練目標(流匹配 vs. MSE)和訓練策略(early fusion vs. 順 late fusion)。實驗結果表明,將 CLIP 嵌入與流匹配損失相結合,不僅加快了訓練速度,也提升了生成質量。
基於這些發現,本文推出了 BLIP3-o, 一系列先進的統一多模態模型,並透過 BLIP3o-60k 6 萬條指令微調資料集,大幅改善了提示對齊效果和視覺美感。研究者還正在積極開展該模型的應用研究,包括迭代影像編輯、視覺對話和逐步視覺推理。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
