金磊 整理自 凹非寺量子位 | 公眾號 QbitAI
生成影像這件事,會推理的AI才是好AI。
舉個例子,以往要是給AI一句這樣的Prompt:
(3+6)條命的動物。
我們人類肯定一眼就知道是貓咪,但AI的思考過程卻是這樣的:

△雖然生成了貓,但思考過程不對
思考的過程還是把“(3+6)”裡的數字分開來處理,並沒有真正get到其背後“九條命的動物=貓”的本意。
以及像ChatGPT,還是執著於在圖片裡面展示數字:

究其原因,是因為當前主流的基於文字進行影像生成的方法往往依賴固定的文字編碼器,僅能處理“純文字”輸入,難以自然接入影像、音訊等模態的資訊。
同時,這類系統在應對“複雜世界知識”和“多步驟邏輯推理”方面表現乏力。
但就在最近,清華大學、騰訊ARC Lab、香港中文大學和香港大學聯手提出了一個新大模型——MindOmni,顯著增強了AI的“推理生成能力”。

它不僅能理解複雜指令,還能基於圖文內容展開連貫而可信的“思維鏈”(Chain-of-Thought, CoT),生成具備邏輯性與語義一致性的影像或文字輸出:

△推理影像生成視覺化結果對比

△對基於多模態使用者輸入的推理感知影像生成視覺化結果對比
那麼MindOmni又是如何做到的呢?
深挖MindOmni模型架構
MindOmni的架構設計的目的比較清晰,就是為了高效融合視覺理解和生成能力。
其大模型部分基於Qwen2.5-VL構建,這是一個先進的視覺語言模型,能夠處理影像和文字輸入。
它透過預訓練的ViT(Vision Transformer)提取影像特徵,並將文字編碼為離散的標記序列。這種設計使得模型能夠理解影像內容並生成與之相關的文字描述。
擴散解碼器是MindOmni生成影像的核心模組。
它基於OmniGen構建,透過去噪過程將潛在的噪聲訊號逐步轉化為真實的影像。與傳統的生成模型相比,OmniGen具有更高的靈活性和生成質量。
在生成過程中,模型會將視覺和文字特徵與噪聲標記在序列維度進行合併,並透過多次去噪迴圈生成最終的影像。
為了將視覺語言模型與生成模組有效連線,MindOmni使用一個包含兩個標準Transformer層的聯結器來連線兩個模組,並用於對齊VLM輸出的特徵與生成模組的輸入維度。

△推理框架概述:MindOmni在統一的大型模型中完成視覺理解、多模態推理生成和視覺編輯任務
三階段訓練流程:從理解到生成的飛躍
MindOmni採用了三階段訓練策略,以逐步提升模型的效能和推理生成能力。
第一階段:基礎預訓練
在預訓練階段,MindOmni主要利用開源影像-文字對和X2I資料對來訓練聯結器。這一階段的目標是讓模型初步具備基本的文字到影像生成能力。
透過擴散損失和基於KL散度的蒸餾損失作為最佳化目標,模型能夠學習到影像和文字之間的語義對齊關係。
具體來說,模型會透過取樣噪聲資料並計算擴散損失來最佳化生成過程,同時利用KL散度來保持與教師模型的一致性。


第二階段:CoT監督微調
在第二階段,研究人員收集了不同粒度的描述性文字,構建了推理生成指令資料。
這些資料包括粗粒度的描述作為答案內容,以及細粒度的描述作為推理內容。
透過監督微調,模型能夠學習到如何根據指令生成具有邏輯推理的文字內容。
這一階段的訓練資料還包括透過高效能文生圖模型生成的高質量影像,以提升模型的生成質量。
第三階段:推理生成策略最佳化(RGPO)
在第三階段,MindOmni引入了推理生成策略最佳化(RGPO)演算法。
這一演算法的核心思想是透過強化學習,讓模型能夠顯式地生成邏輯推理鏈。研究人員構建了一個包含使用者指令、目標提示和對應解釋的純文字訓練資料集,並設計了一個推理生成導向的系統提示,引導模型生成推理內容。
RGPO強化學習演算法
受DeepSeek-R1啟發,研究人員提出了RGPO強化學習演算法,透過明確生成邏輯思路鏈來增強模型的推理生成能力。
在部署過程中,策略模型 πΘ首先為每個請求q取樣G組結果{oi}Gi=1 ,每組結果包含一個推理鏈oiT和一個對應的影像oiI。
為了提高生成推理過程的質量,研究者引入了兩種獎勵函式來引導策略模型生成連貫有效的輸出:
-
格式獎勵評估思路鏈是否符合預期結構,如果內容包含在對應 標籤中,則返回1,否則返回0。 -
一致性獎勵使用來自CLIP影像和文字編碼器的餘弦相似度來衡量生成影像與參考真實提示之間的語義對齊情況。然後,透過所有獎勵值計算第i個輸出的優勢Ai,公式如下:


△訓練流程概述:研究者提出了一個三階段訓練框架,包括預訓練、基於指令的監督微調和基於RGPO的強化學習
在強化學習過程中,研究者引入了兩種基於KL散度的蒸餾策略:DTKL用於文字生成,DIKL用於影像生成,以懲罰參考模型 πref與先前策略之間的較大偏差,從而促進更平滑的策略過渡,並降低遺忘先前學習知識的風險。
研究人員計算了oi的兩個蒸餾函式,如下所示:

最後,透過最小化目標函式 來最佳化策略模型,如下所示:


△RGPO中不同Metric的曲線:“Completion Length”表示策略模型在部署過程中的輸出長度;研究人員發現CoT長度和最終效能並不呈現正相關性
實驗結果: 各大基準測試全面領先
視覺理解和生成任務
透過廣泛的實驗,MindOmni在多個多模態理解和生成基準測試中表現出色。
在影像理解方面,MindOmni在MMMU、MMBench和RealworldQA等基準測試中取得了優異成績。
與之前的統一模型相比,MindOmni在MMMU上比Janus-Pro提升了10.6%,在MMBench上比MetaMorph提升了9.8%。
這些結果表明,MindOmni在理解影像內容方面具有顯著優勢。
在文字到影像生成方面,MindOmni在GenEval基準測試中取得了83%的總體分數,超越了其他統一模型。
此外,在DPG-Bench測試中,MindOmni也表現出色,證明了其在生成任務中的強大能力。

△視覺理解基準測試的效能比較:“Und.”和“Gen.”分別表示“理解”和“生成”

△在 GenEval 和 DPG-Bench 上的效能比較
推理生成能力
MindOmni在推理生成任務中的表現尤為突出。
在WISE基準測試中,MindOmni在文化知識、時空推理和自然科學等多個子類別中均超越了現有方法,取得了0.71的總體分數。
與生成型模型(如FLUX和PixArt)以及統一模型(如MetaQuery-XL)相比,MindOmni在推理生成任務中展現了顯著的優勢。這主要得益於其聯合理解-生成訓練和基於CoT引導的強化學習。

△與WISE基準上的最新模型進行比較
定性結果
研究人員透過視覺化不同模型的結果來展現MindOmni在推理生成方面的效能。
例如,在生成“具有(3 + 6)條命的動物”影像時,MindOmni能夠正確理解數學表示式,並生成與之相關的貓的影像,體現了其推理生成能力。
此外,在生成“悉尼歌劇院在紐約中午時的場景”影像時,MindOmni能夠考慮到悉尼和紐約的時差,並生成符合場景描述的影像。
同時MindOmni在圖文多模態輸入場景下也表現出色。更多視覺化結果請參考論文及附錄。
消融研究
為了驗證訓練策略的有效性,研究人員進行了廣泛的消融實驗。
實驗結果表明,每個訓練階段對模型的效能有重要貢獻。
例如,第一階段的預訓練為模型提供了基本的生成能力;第二階段的監督微調顯著提升了模型在WISE基準測試中的表現;而第三階段的RGPO演算法則進一步優化了模型的推理生成能力。
此外,消融實驗還驗證了不同聯結器、KL係數、組數和獎勵策略對模型效能的影響。詳細結果請參考研究論文。
論文連結:https://arxiv.org/pdf/2505.13031
程式碼連結:https://github.com/TencentARC/MindOmni
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —

🌟 點亮星標 🌟