謝賽寧等人新作BLIP3-o:統一多模態模型炸場!重磅開源重新整理SOTA!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 |編輯:定慧

【導讀】BLIP3-o是一個全開源統一多模態模型,結合自迴歸與擴散架構,採用「先理解後生成」策略,創新地使用CLIP特徵與Flow Matching訓練,顯著提升生成影像質量與多樣性。BLIP3-o不僅在多個評測中表現領先,也正拓展至影像編輯和視覺對話等多模態任務。
多模態模型捲到頭了?不,真正的革新才剛開始。
就在最近,Salesforce Research攜手UMD、VT、NYU、UW等機構的研究人員,釋出了一組完全開源的統一多模態模型BLIP3-o。
BLIP3-o採用「先理解後生成」訓練策略,實現了影像理解與生成的有效統一,並基於GPT-4o構建了BLIP3o-60k資料集。
論文地址:https://arxiv.org/abs/2505.09568
模型連結:https://huggingface.co/BLIP3o/BLIP3o-Model
最佳化資料:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
BLIP3-o的架構包括兩部分,理解部分使用CLIP對影像進行編碼;生成部分,自迴歸模型生成中間視覺特徵,作為DiT的輸入,採用CLIP+Flow Matching策略生成影像特徵。
結果顯示,BLIP3-o系列在提示對齊和影像美學方面,都有顯著的提升。
BLIP3-o 8B在1024×1024解析度下的結果
同時,BLIP3-o的Demo體驗網站也已上線。
網站地址:https://blip3o.salesforceresearch.ai
具體到這篇論文中,研究團隊圍繞以下三個關鍵維度進行了深入探討:
· 影像表示方式將影像編碼為高層級的語義特徵(例如CLIP影像編碼器),而不是低層級的畫素特徵(例如基於VAE的編碼器)
· 訓練目標函式使用Flow Matching代替MSE,提升影像生成質量。
· 訓練策略採用順序訓練策略效果最佳,先用影像理解任務訓練自迴歸模型,再在影像生成階段保持其引數凍結。
統一多模態下的影像生成與理解
OpenAI的GPT-4o最近展示的高質量影像生成和強大的多模態理解能力,激發了人們對於多模態正規化的興趣。。
關於OpenAI的GPT-4o架構的猜測中,最有可能的一種是採用了一種混合管道結構:
這表明自迴歸和擴散模型可結合起來。受這種混合設計的啟發,研究團隊在研究中採用了自迴歸+擴散框架。
在這種框架下,最優架構方案仍不明確。自迴歸模型負責生成連續的中間視覺特徵,用以逼近真實的影像表示,但這帶來了兩個關鍵問題:
首先,如何定義「真實」的影像嵌入?應該選擇VAE還是CLIP來將影像編碼為連續特徵?
其次,如何建模和對齊這些生成的視覺特徵與真實特徵之間的分佈?是採用簡單的MSE損失,還是使用更復雜的擴散方法?
為了解決這些問題,研究團隊在後續部分中對不同的架構設計、特徵表示方式和建模策略進行了系統性探索。
研究團隊首先探討如何透過編碼器-解碼器架構將影像表示為連續嵌入,這在學習效率和生成質量方面起著基礎性作用。

影像編碼與重建
影像生成通常首先使用編碼器將影像編碼為連續的潛在嵌入,然後使用解碼器從該潛在嵌入中重建影像。這種編碼-解碼流程可以有效地降低影像生成中輸入空間的維度,從而提高訓練效率。研究討論了兩種目前廣泛使用的方式:
分自編碼器(Variational Autoencoders)
變分自編碼器(VAE)是一類生成模型,它們學習將影像編碼到一個結構化的連續潛在空間中。編碼器近似給定輸入影像的潛在變數的後驗分佈,而解碼器從這個潛在分佈中抽取樣本重建影像。
潛在擴散模型透過學習建模壓縮潛在表示的分佈而不是原始影像畫素來構建在這個框架上。透過在VAE潛在空間中操作,這些模型顯著降低了輸出空間的維度,從而降低了計算成本並使訓練更加高效。
CLIP編碼器與擴散解碼器(CLIP Encoder with Diffusion Decoder)
CLIP模型已成為影像理解任務的基礎編碼器,因為它透過大規模影像-文字對的對比訓練能夠從影像中提取豐富、高階的語義特徵。
然而,利用這些特徵進行影像生成仍然是一個不小的挑戰,因為CLIP最初並不是為重建任務設計的。
針對這個問題,團隊透過將基於CLIP的編碼器與基於擴散的解碼器配對,提出使用EVA-CLIP將影像編碼為連續的視覺嵌入,並透過從初始化的擴散模型進行重建。
在訓練過程中,擴散解碼器被微調以使用來自EVA-CLIP的視覺嵌入作為條件,從高斯噪聲中恢復原始影像,而EVA-CLIP保持凍結。
這一過程有效地將CLIP和擴散模型結合成一個影像自編碼器:CLIP編碼器將影像壓縮為語義豐富的潛在嵌入,而基於擴散的解碼器則從這些嵌入中重建影像。

建模潛在影像表示
在獲得連續的影像嵌入後,研究團隊使用自迴歸架構對其進行建模。
給定使用者提示(比如「一個戴著草帽的年輕雀斑女子」),研究團隊首先使用自迴歸模型的輸入嵌入層將提示編碼為嵌入向量序列𝐂 ,並將可學習的查詢向量𝐐附加到𝐂 ,其中𝐐是隨機初始化並在訓練中最佳化的。
當組合序列[𝐂;𝐐]透過自迴歸Transformer處理時, 𝐐學會關注並從提示𝐂中提取相關的語義資訊。
生成的𝐐被解釋為由自迴歸模型生成的中間視覺特徵或潛在表示,並被訓練以逼近真實影像特徵𝐗。
接下來,研究團隊介紹兩個訓練目標並進行了對比:均方誤差和流匹配,使𝐐與真實影像嵌入𝐗對齊。
均方誤差MSE
均方誤差損失是一個簡單且廣泛使用的連續影像嵌入學習目標。
給定由自迴歸模型生成的預測視覺特徵𝐐和真實影像特徵𝐗 ,研究團隊首先應用一個可學習的線性投影來對齊𝐐和𝐗的維度。然後將MSE損失公式化為:
其中𝐖表示可學習的投影矩陣。
流匹配(Flow Matching )
僅使用MSE損失只能使預測的影像特徵𝐐與目標分佈的均值對齊。理想的訓練目標應能建模連續影像表示的機率分佈。
研究團隊建議使用流匹配FlowMatching,這是一種擴散框架,可以透過迭代地從前一個分佈(例如高斯分佈)中傳輸樣本,從目標連續分佈中取樣。
給定一個真實影像特徵𝐗1和由自迴歸模型編碼的條件𝐐 ,在每個訓練步驟中,研究團隊取樣一個時間步 t∼𝒰⁢(0,1) 和噪聲 𝐗0∼𝒩⁢(0,1) 。
DiT學習在𝐐條件下,在𝐗1方向上預測時間步t處的速度

研究團隊透過𝐗0和𝐗1之間的簡單線性插值來計算𝐗t:

 。

而𝐕t的解析解可以表示為:

最後,訓練目標定義為:
其中θ是擴散變換器的引數,而𝐕θ⁢(𝐗t,𝐐,t) 表示基於例項 (𝐗1,𝐐) 、時間步t和噪聲𝐗0預測的速度。
與離散標記不同,離散標記天生支援基於取樣的策略來探索多樣的生成路徑,而連續表示缺乏這一屬性。
具體來說,在基於MSE的訓練目標下,對於給定的提示,預測的視覺特徵𝐐幾乎變得確定性。
因此,無論視覺解碼器是基於VAE還是CLIP+Diffusion架構,輸出影像在多次推理執行中幾乎保持相同。
這種確定性突顯了MSE的一個關鍵限制:它限制了模型為每個提示生成單一、固定的輸出,從而限制了生成多樣性。
相比之下,流匹配框架使模型能夠繼承擴散過程的隨機性。這使得模型能夠在相同的提示條件下生成多樣化的影像樣本,從而有助於更廣泛地探索輸出空間。
然而,這種靈活性是以增加模型複雜性為代價的。與MSE相比,流匹配引入了額外的可學習引數。
在研究團隊的實現過程中,研究團隊使用了擴散Transformer(DiT),透過經驗發現增加其容量可以顯著提高效能。

設計選擇
統一多模態模型中影像生成的三種設計選擇。
所有設計都使用自迴歸+擴散框架,但其影像生成元件各不相同。
對於流匹配損失,研究團隊保持自迴歸模型凍結,僅微調影像生成模組以保留模型的語言能力。
CLIP+MSE
研究團隊使用CLIP將影像編碼為64個固定長度的語義豐富的視覺嵌入。如上圖 (a) 所示。在推理過程中,給定文字提示,自迴歸模型預測潛在的視覺特徵,隨後將其傳遞給基於擴散的視覺解碼器以重建真實影像。
CLIP+流匹配
作為一種替代MSE損失的方法,研究團隊使用流匹配損失來訓練模型以預測真實CLIP嵌入,如上圖 (b)所示。
本質上,推理流程包括兩個擴散階段:第一階段使用條件視覺特徵𝐐逐步去噪為CLIP嵌入。
第二階段透過基於擴散的視覺解碼器將這些CLIP嵌入轉換為真實影像。
這種方法允許在第一階段進行隨機取樣,從而在影像生成中實現更大的多樣性。
VAE+流匹配
研究團隊使用流匹配損失來預測上圖 (c)中看到的真實VAE特徵。
在推理時,給定提示𝐂 ,自迴歸模型生成視覺特徵𝐐。然後,以𝐐為條件並在每一步迭代去除噪聲,真實影像由VAE解碼器生成。
VAE+MSE
因為研究團隊的重點是自迴歸+擴散框架,所以研究團隊排除了VAE+MSE方法,因為它們沒有包含任何擴散模組。
為了比較各種設計選擇,研究團隊使用Llama-3.2-1B-Instruct作為自迴歸模型。研究團隊的訓練資料總計約2500萬個樣本。
下圖顯示,CLIP+流匹配在GenEval和DPG-Bench上都達到了最佳的提示對齊得分,而VAE+流匹配產生了最低(最佳)的FID,表明其具有優越的美學質量。
總體而言,研究團隊的實驗表明CLIP+流匹配是最有效的設計選擇。
統一多模態下的訓練策略
在影像生成研究基礎上,下一步是開發一個統一的模型,該模型可以同時執行影像理解和影像生成。
使用CLIP + Flow Matching進行影像生成模組的開發。由於影像理解也在CLIP的嵌入空間中執行,在相同的語義空間內對齊這兩個任務,從而實現它們的統一。
在此背景下,團隊討論了兩種訓練策略。
聯合訓練
聯合訓練影像理解和影像生成是最為常見做法,這些方法採用了不同的影像生成架構,但都透過混合用於影像生成和理解的資料來進行多工學習。
序列訓練
與其同時訓練影像理解和生成,研究團隊採用兩階段方法。在第一階段,研究團隊僅訓練影像理解模組。在第二階段,研究團隊凍結MLLM主幹,並僅訓練影像生成模組。
在聯合訓練設定中,儘管影像理解和生成任務可能互相受益,但兩個關鍵因素影響它們的協同效應:總資料量和影像理解和生成資料之間的資料比例。
相比之下,順序訓練提供了更大的靈活性:能夠凍結自迴歸主幹並保持影像理解能力。研究團隊可以將所有訓練能力專門用於影像生成,避免聯合訓練中的任何任務間影響。
研究團隊最終選擇順序訓練來構建研究團隊的統一多模態模型。
BLIP3-o:先進的統一多模態模型
基於研究團隊的研究結果,研究團隊採用CLIP+Flow Matching和順序訓練來開發先進的統一多模態模型BLIP3-o。

模型架構
研究團隊開發了兩種不同大小的模型:一個是在專有資料上訓練的8B引數模型,另一個是僅使用開源資料的4B引數模型。
研究團隊跳過了影像理解訓練階段,直接在Qwen 2.5 VL上構建研究團隊的影像生成模組。
在8B模型中,研究團隊凍結了Qwen2.5-VL-7B-Instruct主幹,並訓練DiT,總共 1.4B 可訓練引數。
4B模型採用了相同的影像生成架構,但使用Qwen2.5-VL-3B-Instruct作為主幹。
研究團隊利用Lumina-Next模型的架構來構建研究團隊的DiT。Lumina-Next模型基於改進的Next-DiT架構,這是一種可擴充套件且高效的擴散Transformer,專為文字到影像和一般的多模態生成而設計。
階段1:影像生成的預訓練

對於8B模型,研究團隊將大約2500萬開源資料與額外的3000萬專有影像結合。

所有影像標題由Qwen2.5-VL-7B-Instruct生成,平均長度為120個標記。

為了提高對不同提示長度的泛化能力,研究團隊還包括了大約 10%(600萬)的較短標題,每個標題大約20個標記。
階段2:影像生成的指令調優
在影像生成預訓練階段之後,研究團隊觀察到模型在幾個方面存在幾個弱點:
• 生成複雜的人類手勢,例如一個人正在搭箭。
• 生成常見的物體,如各種水果和蔬菜。
• 生成地標,例如,金門大橋。
• 生成簡單的文字,例如在街道表面上寫著「Salesforce」。
儘管這些類別在預訓練時本應被涵蓋,但由於研究團隊的預訓練語料庫規模有限,它們沒有得到充分處理。
為了解決這個問題,研究團隊專門針對這些領域進行指令調優。
對於每個類別,研究團隊提示GPT-4o生成大約10k個提示-影像對,建立一個有針對性的資料集,以提高模型處理這些情況的能力。
在影像理解任務中,研究團隊在多個數據集上評估基準效能。如表1所示,研究團隊的BLIP3-o 8B在大多數基準測試中達到了最佳效能。
在影像生成基準中,如表2所示,BLIP3-o 8B的GenEval得分為0.84,WISE得分為0.62,但在DPG-Bench上得分較低。
由於基於模型的DPG-Bench評估可能不可靠,研究團隊在下一節透過繼續研究補充這些結果。
研究團隊進行了一項人工評估,比較了BLIP3-o 8B和Janus Pro 7B在大約1,000個從DPG-Bench抽取的提示上的表現。
對於每個提示,標註者根據兩個指標並排比較影像對:
  • 視覺質量:看影像是否更清晰、美觀、佈局好。
  • 提示對齊:看影像內容與文字描述是否更匹配。
每個維度都進行了兩輪評估,共約3,000次判斷。
結果顯示,BLIP3-o在視覺質量和提示對齊上都顯著優於Janus Pro,儘管後者在表2的DPG分數更高。
兩個維度的統計顯著性分別為5.05e-06和1.16e-05,說明BLIP3-o的優勢可信度非常高。
目前作為第一步,研究團隊將專注於影像重建,將影像輸入到影像理解視覺編碼器中,然後透過影像生成模型進行重建,以無縫連線影像理解和生成。
在此能力的基礎上,研究團隊將收集指令調優資料集,以使模型適應各種下游應用。
這篇論文系統性探索了混合自迴歸與擴散架構在統一多模態建模中的應用,重點評估了影像表示、訓練目標和訓練策略三大核心要素。
實驗顯示,CLIP特徵配合Flow Matching損失在訓練效率與生成質量方面表現最佳。
研究團隊推出了統一模型系列BLIP3-o,並構建了包含60k條指令的微調資料集BLIP3o-60k,顯著提升了模型的提示對齊能力和影像美學質量。
該統一模型也正被拓展應用於影像編輯、視覺對話和逐步視覺推理等任務中。
參考資料:
https://arxiv.org/html/2505.09568v1
https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
https://blip3o.salesforceresearch.ai/

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章