開源版MetaQuery來了!OpenUni用1.1B引數媲美BLIP3-o-8B,資料程式碼完全開源

隨著 GPT-4o 展現出令人印象深刻的多模態能力,將視覺理解和影像生成統一到單一模型中已成為 AI 領域的研究趨勢(如MetaQuery 和 BLIP3-o )。
南洋理工大學 S-Lab 和商湯科技的研究團隊推出 OpenUni,一個開源版 MetaQuery,僅用 1.1B 引數達到 8B 模型效能,更將程式碼、權重、資料全部開源!
  • 技術報告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
  • 機構: 南洋理工大學 S-Lab、商湯科技新加坡研究院
  • 作者: Size Wu*,  Zhonghua Wu*, Zerui Gong* (* 同等貢獻), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy
  • 開原始碼: 
    https://github.com/wusize/OpenUni
  • 聯絡方式: [email protected]
架構圖,OpenUni 架構:透過 256 個可學習查詢和 6 層輕量聯結器,橋接凍結的 InternVL(理解)與 SANA(生成)
圖 1:OpenUni 在生成任務上的效能表現,展示了其高效的引數利用
三大核心優勢
1. 🏗️ 架構極簡
僅 6 層聯結器,相比 MetaQuery 的 24 層大幅精簡
2. ⚡ 引數高效
1.1B 引數達到 GenEval 0.84 分,與 BLIP3-o-8B 模型效能相當
3. 📂 完全開源
模型權重 + 訓練程式碼 + 2300 萬資料集全部公開
架構設計與訓練策略
OpenUni 遵循 MetaQuery 的設計理念,包含四個核心元件:
1.256 個可學習查詢 – 從使用者指令中提取條件資訊
2. 凍結的 InternVL – 保持原有理解能力
3.6 層 transformer 聯結器 – 基於 ViT 架構
4.SANA 擴散模型 – 高效影像生成
模型對比
* 對於 BLIP3-o,將預測 CLIP 特徵的 DiT 視為聯結器
關鍵特點: – 聯結器引數大幅減少 – 使用更小的 MLLM 和擴散模型 – 訓練資料完全公開
兩階段訓練策略
第一階段:預訓練(2300 萬圖文對)
  • 目標:訓練可學習查詢和聯結器
  • 策略:凍結 MLLM 和擴散模型
  • 資料:公開資料集,使用 LLM/MLLM 重新標註
第二階段:微調(6 萬圖文對)
  • 目標:提升生成質量
  • 策略:解凍擴散模型,聯合最佳化
  • 資料:BLIP3-o 貢獻的高質量資料集
效能驗證
OpenUni 在引數效率上表現出色:
  • OpenUni-B-512:1.1B 啟用引數,GenEval 達到 0.84 分,與 BLIP3-o-8B 持平
  • OpenUni-L-512:3.1B 啟用引數,GenEval 達到 0.85 分
  • OpenUni-L-1024:3.1B 啟用引數,GenEval 達到 0.86 分,為開源統一模型最佳
其他基準測試
  • DPG-Bench:OpenUni-L-1024 獲得 83.08 分,超越所有 MetaQuery 和 BLIP3-o 變體
  • WISE:OpenUni-L 達到 0.52 分,與 BLIP3-o-8B(公開資料版)持平
生成效果展示
圖 2:OpenUni-L-1024 生成的多樣化高質量影像
多模態理解能力
由於採用凍結 InternVL3 的策略,OpenUni 繼承了其理解能力:
圖 3:OpenUni-L 的多模態理解能力展示
理解基準測試
應用前景與開源貢獻
OpenUni 提供完整的開源資源:
✅ 模型權重 – 所有訓練階段的 checkpoint
✅ 訓練程式碼 – 完整訓練 pipeline
✅ 2300 萬訓練資料 – 包含重新生成的 caption
✅ 詳細文件 – 訓練配置和復現指南
研究團隊指出了當前的侷限:
  • 生成影像中渲染文字的能力有限
  • 最大模型基於 2B MLLM 和 1.6B 擴散模型,有待擴充套件
  • 影像到影像生成任務將在未來版本支援
  • GenEval 的侷限性,由於 prompt 正規化固定,模型經過 GPT4o 蒸餾資料(BLIP4o-60K)微調後在 GenEval 上大幅提升;作為統一模型(Show-o,Janus,Harmon,Bagel)常用的指標,GenEval 難以再真正衡量模型能力
總結
OpenUni 為統一多模態模型提供了一個簡單但強大的基線。透過極簡的架構設計和高效的引數利用,OpenUni 展示了:
  • 更少的引數可以達到有競爭力的效能
  • 簡單的設計往往更有效
  • 完全開源促進社群研究和創新
作為一個持續進行的專案,OpenUni 為研究社群提供了清晰、可復現、易擴充套件的基線實現。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章