然而,在影像生成(Image Generation)領域,例如文生圖(Text-to-Image)與文生影片(Text-to-Video),我們是否也可以借鑑 CoT 相關的策略,來提升圖片或影片的質量和文字一致性呢?
來自香港中文大學、北京大學、和上海 AI Lab 的研究者們透過 Verify 和 Reinforce 的方案,系統地探索了“CoT 推理+文生圖”的結合與潛力。研究結果表明,這些方法能夠有效提升自迴歸(Autoregressive)影像生成的質量。
作者也提出了兩種專門針對該任務的新型獎勵模型——潛力評估獎勵模型(Potential Assessment Reward Model, PARM) 及其增強版本 PARM++,後者引入了反思機制(Reflection Mechanism),進一步優化了影像生成質量。
論文標題:
Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step
論文連結:
https://arxiv.org/pdf/2501.13926

程式碼連結:
https://github.com/ZiyuGuo99/Image-Generation-CoT

研究背景與挑戰

CoT如何應用於影像生成?

考慮到 Autoregressive 影像生成和 LLM 在資料表徵和推理架構的相似性,論文調研了包括使用 ORM 和 PRM 的 Test-time Verification、構造 Preference Ranking Data、和透過 DPO 進行偏好對齊等方案,首次證明了“CoT+文生圖”的可行性!

具體方案

3.1 測試時驗證(Test-time Verification)
首先,論文探索如何使用獎勵模型(Reward Model, RM) 來進行 Test-time Verification,實現了 Outcome Reward Model(ORM,下圖左邊部分)和 Process Reward Model(PRM,下圖中間部分)方案,並在兩者的基礎上提出了一種全新的針對於影像生成任務的 Potential Assessment Reward Model(PARM,下圖右邊部分)。

3.1.1 結果獎勵模型(Outcome Reward Model, ORM)
論文提出了 2 種方案,均使用 Best-of-N 的方式進行驗證,即進行多次完整路徑的生成,並從中選擇出質量最高的最終圖片。


3.1.2 過程獎勵模型(Process Reward Model, PRM)

3.1.3 潛力評估獎勵模型(Potential Assessment Reward Model, PARM)
3. 最佳選擇(Best-of-N' Selection):在高潛力路徑中選擇最佳的最終影像。


3.1.4 潛力評估獎勵模型++(Potential Assessment Reward Model++,PARM++)

3.2 直接偏好最佳化(Direct Preference Optimization, DPO)Alignment
3.3 Test-time Verification + DPO Alignment
實驗結果表明,結合 DPO 和 Test-time Verification 後,模型在 GenEval 指標上的整體提升達 +27%,超越單獨使用 DPO 或 Test-time Verification 的方案。


總體效果對比
4.1 推理準確性表現
下表展示了模型在 GenEval 基準上的總體效能比較,相比於現有的擴散模型和自迴歸模型,結果證明了在文字生成影像任務中使用 CoT 推理策略的潛力。


結論
本研究首次系統性探索了 CoT 推理策略在自迴歸影像生成中的適應性及潛力。透過全面的實驗分析證明了不同的推理策略(如測試時驗證、偏好對齊及其結合)能夠有效提升影像生成質量。
更多閱讀



#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
