自迴歸的捍衛者來了!復旦聯手位元組Seed開源SimpleAR:純AR影像生成模型

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

論文https://arxiv.org/abs/2504.11455
程式碼https://github.com/wdrink/SimpleAR
序言
基於Transformer的自迴歸架構在語言建模上取得了顯著成功,但在影像生成領域,擴散模型憑藉強大的生成質量和可控性佔據了主導地位。雖然也有一些早期工作如Parti[1]、LlamaGen[2],嘗試用更強的視覺tokenizer和Transformer架構來提升自迴歸生成的效果,但他們論文中的結果表明,只有更多的引數量才能讓自迴歸模型勉強和擴散模型“掰掰手腕”。
這也讓越來越多的研究者質疑自迴歸視覺生成是否是一條可行、值得探索的路徑。通常來說,大家的擔憂集中在三個方面:
1)離散的token必然帶來更多的資訊損失:當下改進視覺tokenizer也是一個備受關注的方向,最新的方法無論是離散或連續都可以取得非常好的重建效果(至少不會制約生成模型),因此相信這一點不會是制約兩條路線的核心原因;
2)視覺token序列往往較長、因此很難建模token間的關係:對於一個512解析度的影像來說,16倍壓縮比的tokenizer意味著視覺token序列的長度是1024。對於採用因果掩碼(causal mask)的自迴歸模型來說,建模這麼長的序列無疑是很有挑戰性的;
3)下一個token預測的效率太低:相比於擴散模型或MaskGIT[3]那樣一步出整圖或多個token,自迴歸模型序列預測token的方式在生成速度方面存在明顯劣勢。
近些時間,也有一些工作如VAR[4]和MAR[5]嘗試重新定義視覺裡自迴歸的形式,比如下一個尺度預測、或用連續token做自迴歸。這些方法在ImageNet這樣的學術資料集上取得了不錯的效果,但是也潛在地破壞了視覺模態和語言模型的對齊性。
帶著好奇的心態,來自復旦視覺與學習實驗室和位元組Seed的研究者們希望“驗一驗”自迴歸視覺生成模型的能力,他們保持“Next-token prediction”這樣簡潔優美的形式,而透過最佳化訓練和推理過程來探究自迴歸視覺生成是否可以像擴散模型一樣取得不錯的文生圖效果。
方法
先說結論!這篇工作有三點驚豔的發現:
1)在0.5B的引數規模下,純自迴歸模型可以生成1024解析度的高質量影像,且在常用文生圖基準上取得了非常有競爭力的結果,例如在GenEval上取得了0.59, 是1B以內模型的SOTA;
2)透過“預訓練-有監督微調-強化學習”這樣的三階段訓練,模型可以生成出具有很高美學性的影像,且有監督微調(SFT)和基於GRPO[6]的強化學習可以持續提升模型的指令跟隨能力以及生成效果;
3)當用vLLM[7]進行部署時,0.5B的模型可以在14秒以內生成1024解析度的影像。
效能比較
本文提出的SimpleAR在GenEval和DPG上都取得了不錯的結果,其中0.5B模型顯著超越了SDv2.1和LlamaGen。值得一提的是,擴散模型和Infinity這類方法都依賴於外掛的文字編碼器,如Infinity [7]使用了3B的FlanT5-XL[8],而本文提出的自迴歸模型則將文字(prompt)編碼和視覺生成整合在了一個decoder-only的Transformer裡,不僅可以更好地學習跨模態對齊,也能更加高效地利用引數。

1.5B模型的效能距離Infinity[7]還有差距,但本文相信這主要是由資料規模導致的,當用更多的高質量資料訓練時,模型的效能還可以被進一步提升。此外,本文選擇了Cosmos[9]作為視覺tokenizer,其在重建低解析度影像和人臉等細節上十分有限,因此生成能力還有充分被改進的空間。
本文還首次在文生圖上成功應用了GRPO進行後訓練,結果表明:利用CLIP這樣非常簡單的reward函式,也依然可以觀察到非常有潛力的reward曲線、並在GenEval上了取得了顯著的效能提升:

最後是關於效率問題。本文首先嚐試了用vLLM[10]將模型部署到A100上,結果表明其可以顯著地提升模型的推理速度:僅需13.55秒就能生成1024解析度的高質量影像,這顯著縮小了和擴散模型的差距,並由於可以使用KV Cache技術而相比於MaskGIT更有優勢。本文也實現了推斷取樣,其可以有效降低2倍的自迴歸推理步數。

視覺化結果

總結和幾點思考
顧名思義,SimpleAR只是團隊關於自迴歸視覺生成的一次簡單嘗試,但從中可以看到自迴歸模型相較於擴散模型的幾點優勢:
1)將文字和視覺token擺上平等的地位,更好地支援不同模態之間的建模學習,從而有利於構建原生的多模態理解和生成模型;
2)與現有支援語言模型後訓練和推理加速的技術相容性高:透過強化學習可以顯著提升模型的文字跟隨能力和生成效果、透過vLLM可以有效降低模型的推理時間;
本文訓練及測試程式碼以及模型權重均已開源,希望鼓勵更多的人參與到自迴歸視覺生成的探索中。          
引用
[1] Scaling Autoregressive Models for Content-Rich Text-to-Image Generation.
[2] Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation.
[3] MaskGIT: Masked Generative Image Transformer.
[4] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction.
[5] Autoregressive Image Generation without Vector Quantization.
[6] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
[7] Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis.
[8] Scaling Instruction-Finetuned Language Models.
[9] https://github.com/NVIDIA/Cosmos-Tokenizer
[10]https://github.com/vllm-project/vllm

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章