多模態生成框架新SOTA:文字+空間+影像隨意組合,20W+資料開源,復旦騰訊優圖出品

UniCombine團隊 投稿量子位 | 公眾號 QbitAI
能處理任意條件組合的新生成框架來了!
復旦大學、騰訊優圖實驗室等機構的研究人員提出UniCombine,一種基於DiT的多條件可控生成框架,能夠處理包括但不限於文字提示、空間對映和主體影像在內的任意控制條件的任意組合,並保持高度的一致性和出色的和諧性。
具體效果be like:
據瞭解,現有的多條件可控生成框架或是隻能處理單一種類的多個條件,或是隻適用於某種特定的多類別組合,從而普遍缺乏通用性的多類別+多條件的組合式生成能力
而在UniCombine這項工作中,團隊引入了一種新的Conditional MMDiT注意力機制,並結合可訓練的LoRA模組,從而同時提供了training-free和training-based兩種版本。
此外,團隊構建並開源了首個針對多條件組合式生成任務設計的資料集SubjectSpatial200K,其中涵蓋了subject-driven和spatially-aligned兩大類控制條件。
UniCombine在4項不同的多條件可控生成任務上均達到SOTA,證明了新方法具有卓越的框架通用性和出色的條件一致性。

UniCombine方法

UniCombine框架圖如下:
(a) 整體框架。團隊將基於MMDiT的擴散模型視為由文字分支和去噪分支組成。在此基礎上,UniCombine引入了多個條件分支來處理輸入條件。
(b) UniCombine的單條件設定。該設定等價於OminiControl,即在單條件設定下,OminiControl是UniCombine框架的特例。
(c) UniCombine的多條件設定。團隊提出的LoRA Switching模組可根據條件型別自適應啟用去噪分支權重上的預訓練Condition-LoRA模組。此外,團隊引入了Conditional MMDiT Attention機制,以替換原始MMDiT Attention 機制,從而處理統一的多條件輸入序列。是否載入可選的Denoising-LoRA模組是無訓練版本和基於訓練版本的區別。

SubjectSpatial200K資料集

團隊的SubjectSpatial200K資料集旨在填補當前多條件生成任務中缺少公開可用資料集的空白。現有資料集未能同時包含主體驅動和空間對齊的標註。
最近,Subjects200K資料集提供了一個面向主體驅動生成的公開資料集。
在此基礎上,團隊構建了SubjectSpatial200K資料集,這是一個高質量的統一資料集,專為訓練和測試多條件可控生成模型設計。該資料集包含全面的標註,包括豐富的Subject Grounding Annotation和Spatial Map Annotation。資料集的構建流程見圖。

實驗結果

(1)對比實驗
(2)消融實驗:CMMDiT與MMDiT
(3)消融實驗:Denoising LoRA與Text-LoRA
(4)消融實驗:DSB+SSB聯合訓練與DSB單獨訓練
(5)算力開銷分析
整體而言,研究人員提出了UniCombine,這是一個基於DiT的多條件可控生成框架,能夠處理任意條件組合,包括但不限於文字提示、空間對映和主體影像。
在主體插入、主體-空間以及多空間等條件生成任務上的大量實驗表明,無論是無訓練還是基於訓練的版本,UniCombine都達到了最先進的效能。
此外,團隊提出了SubjectSpatial200K資料集,以彌補當前缺少用於訓練和測試多條件生成模型的公開資料集的不足。團隊相信,該研究將推動可控生成領域的發展。
論文連結:https://arxiv.org/pdf/2503.09277開原始碼:https://github.com/Xuan-World/UniCombine
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章