


專案網站:
https://krennic999.github.io/STAR/
論文連結:
https://arxiv.org/pdf/2406.10797

背景介紹
通用文字引導影像生成領域近年受到廣泛關注,在二次創作, 虛擬試穿和原型設計領域得到廣泛應用。藝術家和設計師利用它重新構思和創新現有作品。消費者透過生成影像預覽服裝和配飾,提升購物體驗。設計師能快速生成產品概念圖,節省時間和資源。尤其擴散模型(Diffusion)由於其高質量和多元的生成,在文生圖領域佔有主導地位。透過逐步的去噪過程,為影像生成提供了更強的穩定性和可控性,然而也導致生成過程及其耗時。
自迴歸(Auto-regressive,AR)模型透過離散視覺編碼器(VQ-VAE,d-VAE 等)將影像轉化為離散 token,訓練模型按順序逐個預測新的 token,預測的整個 token map 解碼即可得到生成的影像。
受大語言模型的啟發,自迴歸模型在這一領域的應用也逐漸被探索,然而效能仍落後於擴散模型。VAR 指出是因為自迴歸模型逐個預測 token 的行為不符合影像模態的特點,提出 “next-scale prediction” 正規化,將視覺自迴歸建模為逐個預測更大尺度 scale 的 token map,具體來說,next-scale prediction 基於一系列不同尺度的二維離散 token maps(),在較低解析度 token map 的基礎上逐步生成更高解析度的 token map:

這一方式避免了原始基於 next-token 的自迴歸方案難以建模影像模態的問題,重新為視覺生成定義了新的自迴歸正規化,從而使得生成的影像具有更高的真實度。
這一方法有效地建模了離散影像 token 的二維相關性,然而其僅侷限於有限類別引導的生成,無法泛化到未知的實體和概念,除此之外採用的絕對可學習位置編碼,導致額外的學習引數,限制了高分辨影像生成的潛力。
為了探索這種新的生成正規化在文字控制生成這一開放集任務的表現,作者提出基於尺度的文生圖自迴歸模型 STAR,重新思考 VAR 中的 “next-scale prediction” 正規化,以獲得性能更好、效率更高的通用文生圖模型,為目前擴散模型支配的文生圖領域帶來新的看法。

方法核心
具體來說,所提出的 STAR 包括兩部分:增強的文字引導和改進的位置編碼,以高效地實現高質量影像生成:

增強的文字引導
為了更好地處理各種複雜的文字描述並生成相應的影像,研究者提出幾項關鍵解決方案:
1)文字特徵作為起始 token map,根據起始 token map 生成更高解析度的 token map 這不僅增強了模型對新文字場景的適應性,確保模型可以泛化到新的文字提示,從整體上保證了文字描述與生成影像之間的一致性
2)在每個 transformer 層引入交叉注意力機制,從更精細的粒度控制影像生成,使得生成的影像更加精確地貼合文字。
具體網路結構如下:


歸一化旋轉位置編碼(Normalized RoPE)
對於 next-scale prediction 正規化,如何利用同一個 transformer 生成不同尺度的 token map 是一個重要的問題,隨之而來的是如何編碼這些 token map 中的 tokens 的位置。
傳統的正餘弦編碼難以處理不同尺度的 token map,同時編碼多個尺度容易導致尺度之間的混淆。可學習的絕對位置編碼需要為每個尺度的 token map 學習對應的位置編碼,導致額外的學習引數,提升了訓練難度,尤其是大尺度情況下的訓練變得更加困難;除此之外固定個數的位置編碼限制了更大解析度影像生成的可能。

任意 token 間的相對位置被歸一化到統一的尺度 ,從而確保了對不同尺度的 token map 中的相對位置有統一的理解,避免對不同尺度位置同時編碼的混淆,更好地適配 scale-prediction 任務。除此之外,這一新的位置編碼不需要額外的引數,更易於訓練,為更高解析度影像生成提供了潛在的可能。

訓練策略
研究者選擇先在 256*256 影像上以較大的 batch size 訓練生成,隨後在 512*512 影像上微調,以獲得 512 的生成結果。由於歸一化位置編碼,模型很快收斂,僅需少量微調即可生成高質量 512 解析度影像。

實驗結果
相比目前的方法,所提出的 STAR 在 FID,CLIP score 和 ImageReward 上表現優異,體現了 STAR 良好的生成真實度,圖文一致性和人類偏好。除此之外,STAR 生成一張 512 解析度的高質量影像僅需約 2.9 秒,相比現有的擴散文生圖模型具有顯著優勢。
具體地,在 MJHQ-30k 上的 FID 達到 4.73,超越了 PixArt- 等模型;CLIP score 達到 0.291,與 SDXL 相當:

在 ImageReward benchmark 上,STAR 達到了 0.87 的 image reward,與領先的 PixArt- 相當:

相比現有的方法,STAR 可以生成多元的影像型別,在人物攝影、藝術繪畫、靜物、風景等場景下均能獲得很好的效果,生成的人臉、毛髮、材質達到了令人驚歎的細節:


結論
STAR 基於 scale-wise 自迴歸的方式,解決了 VAR 中存在的引導條件有限、位置編碼不合理的問題,實現了更高效、效能更好的文字引導影像生成。
廣泛的實驗證明,所提出的方法在生成影像真實度、圖文一致性和人類偏好上均表現優秀。僅需約 2.9 秒的時間內,在 512 解析度影像生成上,實現超越先進的文生圖擴散模型(PixArt-、Playground、SDXL 等)的效能。
總的來說,基於自迴歸的 STAR 為目前 diffusion 支配的文字控制影像生成領域提供了新的可能,具有里程碑意義。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
