生圖加入CoT,效能提升80%!微軟港中文打造天才畫手


新智元報道  

編輯:英智
【新智元導讀】AI繪畫總「翻車」,不是抓不住重點,就是細節崩壞?別愁!微軟和港中文學者帶來ImageGen-CoT技術,讓AI像人一樣思考推理,生成超驚豔畫作,效能提升高達80%。
AI繪畫火爆的當下,大家都有過這樣的體驗:滿心歡喜地輸入一段描述,滿心期待著生成超酷炫的影像,結果AI給出的作品卻差強人意,不是沒get到重點,就是細節各種「翻車」
今天要介紹的ImageGen-CoT技術,就像是給AI繪畫開了「外掛」,讓它變得超智慧,創作更輕鬆!
來自微軟和港中文的華人研究者提出了ImageGen-CoT,用思維鏈(CoT)推理提升文字到影像上下文學習能力。
論文連結:https://arxiv.org/abs/2503.19312
它在AI繪畫生成影像之前,先進行一番思考,梳理出推理步驟,再去創作影像,就像寫作文前先列提綱一樣。
人類在面對多模態資訊時,比如看到「皮革裝訂的書」「皮革蘋果」,再被要求畫「皮革盒子」,能輕鬆推斷出 「皮革」這個關鍵特徵,並應用到新的創作中。
但現有的多模態大語言模型(MLLM)在處理這類文字到影像上下文學習(T2I-ICL)任務時,卻表現得差強人意,經常抓不住重點,生成的影像和預期相差甚遠。
ImageGen-CoT的核心就是在影像生成之前引入思維鏈(CoT)推理。
想象一下,AI就像一個小畫家,以前畫畫的時候,拿到描述就直接動手,毫無規劃,所以畫得亂七八糟。
現在有了ImageGen-CoT,小畫家會先思考:「這個描述裡有什麼關鍵資訊?之前有沒有類似的描述,它們有什麼共同點?」
想清楚這些之後,再開始畫畫,這樣畫出來的作品自然更符合期待。
大量的實驗表明,該方法顯著提高了模型效能,SEED-X微調後在T2I-ICL任務上的效能提升高達80%。
使用ImageGen-CoT進行微調的SEED-X在CoBSAT和DreamBench++上分別提高了89%和114%。

ImageGen-CoT如何構建
接下來,詳細介紹ImageGen-CoT框架,首先,介紹ImageGen-CoT的公式化表述。
其次,描述用於收集高質量ImageGen-CoT資料集的自動流程。詳細闡述資料集的公式化表述以及用於使用收集到的資料集對模型進行微調的損失函式。
最後,探索在推理過程中提高模型效能的各種策略,提出一種新穎的混合擴充套件方法,應對上下文理解和生成方面的挑戰。

兩階段推理:穩紮穩打生成影像
ImageGen-CoT 採用了兩階段推理的方式。
第一階段,模型會根據輸入的文字和指令,生成ImageGen-CoT推理鏈R。
這個推理鏈就像是畫家畫畫前打的草稿,把影像的關鍵資訊、創作思路都梳理清楚。
第二階段,模型把原始輸入X、生成的推理鏈R,還有強制影像生成標記<image>結合起來,生成最終的目標影像I。
用公式表示就是:
這裡,M代表統一的MLLM,⊕表示連線操作。
這種兩階段的設計,能確保影像生成更穩定、更準確。

資料集構建
為了能更好地學習,ImageGen-CoT構建了高質量的資料集。
首先,研究人員從現有的T2I-ICL任務訓練資料集中收集各種指令,建立一個指令池。
然後,開啟自動資料集構建流程。在這個流程裡,MLLM身兼數職。它先是作為生成器,生成N個包含ImageGen-CoT和下一幅影像提示的輸出。
然後,MLLM充當選擇器,從N個候選影像中選擇最佳影像。
如果影像達到了質量標準,或者達到了最大迭代次數,流程終止並輸出相應的ImageGen-CoT和影像對。
要是沒達標,MLLM就會化身為評論者,給這幅影像挑挑刺,指出哪裡畫得不好。
最後,MLLM再作為最佳化器,根據評論修改提示,然後重新生成影像,這個過程不斷迴圈,直到選出最完美的影像和對應的ImageGen-CoT。

透過這樣嚴格的篩選,構建出的ImageGen-CoT資料集質量超高,每一個樣本都是精心挑選出來的。

訓練與最佳化

資料集構建好之後,就要用它來訓練MLLM啦。

訓練時,研究人員把ImageGen-CoT資料集分成了兩個部分。
第一部分用來訓練模型生成ImageGen-CoT文字,第二部分訓練模型根據生成的ImageGen-CoT文字生成影像。
如果模型使用的是離散視覺標記,就用和語言建模類似的損失函式:
其中,y_i是ImageGen-CoT文字中的第i個標記,

表示前面的標記,X是輸入,N是ImageGen-CoT序列中的標記總數。

要是用的是連續視覺嵌入,就採用均方誤差損失函式:
其中,

是生成的視覺嵌入,z是相應的目標視覺嵌入。

透過訓練,模型生成準確ImageGen-CoT的能力越來越強,影像生成的質量也大幅提升。
研究人員在測試階段也進行了最佳化,探索了三種測試時擴充套件策略:單CoT擴充套件、多CoT擴充套件和混合擴充套件。
單CoT擴充套件就是從一個ImageGen-CoT生成多個影像變體;多CoT擴充套件則是生成多個不同的ImageGen-CoT思維鏈,每個思維鏈生成一幅影像。
混合擴充套件更厲害,首先生成多個ImageGen-CoT思維鏈,然後為每個思維鏈建立多個影像變體。
實驗證明,混合擴充套件策略效果最好。在理解和生成影像兩方面都能快速提升,為複雜多模態任務的效能最佳化開闢了新道路。

ImageGen-CoT效果有多驚豔?
為了驗證ImageGen-CoT,研究人員在CoBSAT和DreamBench++這兩個權威的T2I-ICL基準測試中進行了實驗。

測試成績亮眼
在CoBSAT測試中,使用ImageGen-CoT後,SEED-LLaMA的平均分數從0.254提高到0.283,相對提升了11.4%。
SEED-X的提升更明顯,從0.349提高到0.439,相對提升25.8%。
經過ImageGen-CoT資料集微調後,SEED-LLaMA的平均分數達到0.291,比基線提升了14.6%。
SEED-X更是飆升到0.658,相對提升高達88.5%。
在DreamBench++測試中,同樣成績斐然。
SEED-X使用ImageGen-CoT後,CP・PF分數從0.188提升到0.347,相對提升84.6%。
微調後,SEED-X的CP・PF分數達到0.403,相對提升114.4%;SEED-LLaMA微調後的CP・PF分數也從0.078提升到0.101,相對提升29.5%。
這充分證明了ImageGen-CoT在提升模型效能方面的強大實力。

測試時擴充套件
為了進一步提升模型效能,研究人員探索了各種測試時擴充套件策略。
採用「N選優」方法,讓模型生成多個影像變體,並透過真實指標評估(pass@N)。
作為基線方法,首先對普通的SEED-X模型進行實驗,透過改變種子值生成多個影像。
然後,使用ImageGen-CoT 資料集微調後的SEED-X的三種高階擴充套件策略:
  • 多CoT擴充套件,生成多個不同的ImageGen-CoT思維鏈,每個思維鏈生成一幅影像。
  • 單CoT擴充套件,從單個ImageGen-CoT思維鏈生成多個影像變體。
  • 混合擴充套件,這是一種新穎的方法,結合了兩種策略的優勢,即首先生成多個ImageGen-CoT思維鏈,然後為每個思維鏈生成多個影像變體。
實驗揭示了三個關鍵發現。
第一,普通的SEED-X@16基線(在CoBSAT上得分為 0.67,在Dreambench++上得分為0.312 )甚至不如最簡單的擴充套件策略(例如,在CoBSAT@2上得分為0.747 ),這凸顯了整合ImageGen-CoT的必要性。
第二,多CoT擴充套件在效能上與單CoT擴充套件相當,證明了生成多樣化的推理路徑與從單個CoT生成不同輸出的效果相同。
最後,混合擴充套件在各個基準測試中始終獲得最高分數。在N=16時,混合擴充套件將CoBSAT的效能提高到0.909(比單CoT擴充套件高1.9% ),將Dreambench++的效能提高到0.543(比單CoT擴充套件高0.8% )。
ImageGen-CoT的整合實現了在理解和生成維度上的有效雙向擴充套件。這種雙軸可擴充套件性為最佳化複雜多模態任務中的 MLLM效能開闢了新途徑。

定性結果展示
ImageGen-CoT的效果在實際生成的影像中也體現得淋漓盡致。
比如在生成「帶蕾絲圖案的書」的影像時,基線SEED-X只能畫出一個基本的書的形狀,完全沒注意到「蕾絲」這個關鍵屬性。
使用ImageGen-CoT提示後,由於模型理解能力有限,生成的影像質量反而更差了。
但經過ImageGen-CoT資料集微調後,模型成功捕捉到了「蕾絲」屬性,生成了一本精美的蕾絲書,細節滿滿。
生成「在石頭上、在花園裡、表情悲傷的雞蛋」的影像時,基線SEED-X生成的雞蛋只是簡單張嘴,完全忽略了「在石頭上」「在花園裡」這些要求和特徵。
使用ImageGen-CoT提示後,雖然雞蛋放在了石頭上,但還是缺少面部表情和花園環境。
而微調後的模型則完美理解了所有任務要求,生成的影像中,雞蛋穩穩地放在石頭上,周圍是美麗的花園,雞蛋還帶著悲傷的表情,和輸入的描述一模一樣。
這些對比,讓我們清晰地看到了ImageGen-CoT如何讓AI繪畫從「青銅」變成「王者」。

背後的秘密:提升理解能力
為什麼ImageGen-CoT能夠提升模型效能呢?關鍵在於它增強了模型的理解能力。
研究人員讓模型為下一幅影像生成文字描述,以此來評估模型的理解能力。
以SEED-X為例,透過提示應用ImageGen-CoT時,其文字生成模式的平均分數從0.174提高到0.457,用ImageGen-CoT資料集微調後,更是提升到0.760。
同時,增強的理解能力也改善了影像生成,SEED-X的影像生成平均分數從0.349提升到0.439,微調後進一步提升到0.658。
理解能力的提升也直接帶動了影像生成效能的提高,這說明ImageGen-CoT讓模型更好地理解了輸入內容,生成更符合要求的影像。
參考資料:
https://arxiv.org/abs/2503.19312
https://www.alphaxiv.org/overview/2503.19312

相關文章