CVPR2025|RandAR：用隨機順序自迴歸探索視覺領域的“GPT時刻”

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

作者：龐子奇

https://zhuanlan.zhihu.com/p/31163075390

語言領域的自迴歸(AR)模型看似一統江湖，但是視覺領域還沒有正規化讓大家的“Scaling Law”可以跨越更多工、更多應用。前幾天Gemini和GPT釋出的影像編輯功能驗證了視覺自迴歸的潛力，但是它距離語言領域的“GPT時刻”到底還有多遠？

我相信，我們CVPR 2025剛剛中稿的文章RandAR展示了視覺“GPT時刻”的一個新探索——自迴歸AR模型需要能“看”、“理解”、“生成”任意位置和順序的影像Token才可以實現GPT在語言領域一樣的泛化性，而這也是創造更強的視覺模型的基礎。在此也特別感謝這篇論文的合作者張天遠和滿運澤。

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

主頁：https://rand-ar.github.io/

程式碼：github.com/ziqipang/RandAR

論文：https://arxiv.org/abs/2412.01827

1. 引子

1.1 什麼是GPT成功的本質？

從去年開始，我和合作者一直在思考：如何在計算機視覺領域復刻GPT在語言模型中的成功？我相信，這也是現在幾乎每一位研究計算機視覺、研究多模態的研究者都在思考的問題。

所以在開始討論視覺領域的“GPT時刻”之前，我們不妨分析一下語言模型領域的“GPT時刻“本質是什麼？

Next-token Prediction，即Auto-Regressive (AR) 正規化，提供了把所有文字任務、文字應用統一在一起的Formulation。
結合Decoder-only結構，Next-token Prediction使得大規模訓練對Infra友好、可以非常高效。
正因為第一點”統一的Formulation"，我們可以收集海量資料，最終得到一個能夠Zero-shot泛化的大模型。

所以說，GPT在語言領域的成功 —— 不只是 next-token prediction。

1.2 為什麼現在的Vision模型距離“GPT時刻”差在哪裡？

在視覺模型中模仿GPT的配方，即 "Decoder-only" + "Next-token Prediction"，從去年年中的時候就開始了一些探索，代表作有：LLaMAGen，Chamelon，Transfusion，Show-O，Emu3，當然也有DeepSeek的Janus，他們集中在讓Image Tokens (也包括文字Token) 也按照Next-token Prediction的正規化進行學習。好的，那它們距離GPT時刻的距離還在哪裡？只是單純的資料、模型還沒有增加到足夠的Scale，還是他們仍然有本質的缺陷？

我們回顧之前提到的三個GPT時刻的本質：

"Next-token Prediction提供了統一的Formulation": 這些模型沒有做到這一點，我們下面會分析為什麼。
"Decoder-only + Next-token Prediction對Scaling Up非常友好": 對Scaling Up的支援，這些模型因為遵循了Next-token Prediction + Decode-only，所以都可以做到。
"透過海量資料，zero-shot泛化到多種場景": 從個人的觀察來看，這些模型大部分能力還是專注於處理一些in-domain的場景，所以暫時還沒完全體現出zero-shot泛化。

那麼是什麼限制了這些模型復刻GPT正規化的成功呢？當我們按照一維的順序做Next-token Prediction，勢必要把二維的Image Tokens轉化成一維的序列，而之前的方法在這裡採用了一個提前規定好的順序——Raster-Order，也就是從圖片的左上角開始一行一行地生成Image Tokens。

這種做法最大的限制是這樣訓練出來的模型：

無法按照任意順序處理Image Tokens，所以很顯然，他們面對editing任務或者針對圖片特定區域Perception的任務會很掙扎。因此，這樣的Next-token Prediction很難成為"把所有任務統一在一起的Formulation"——也就是違背了上面GPT成功的第一個條件。
無法Zero-shot泛化，也正是因為生成順序的限制，這樣的模型很難未經訓練直接泛化到新的場景上，比如說新的圖片解析度(resolution)、提取圖片的Representation。也就違背了上面的第三個條件。

所以說，如果按照固定順序去做next-token prediction的模型，某種程度上得了GPT的“形”，但是距離實現GPT在語言領域的成功還有很長的路要走。

1.3 我們的Insight：任意順序是關鍵

上述的模型，它們最主要的限制就是“只用一種方式做二維影像到一維序列的對映”——所以解決這些問題的關鍵在於——如何讓GPT模型可以處理任意的二維影像順序。這也是我們的RandAR的起點：

讓一個和GPT相同的Decoder-only Transformer可以按照Random-order生成影像
RandAR可以Zero-shot泛化到新的場景上，包括但不限於一些全新的角度——Parallel Decoding (next set-of-token)、生成更高解析度圖片，而且它還可以直接做Generative Model的另一面——Representation Learning。

RandAR: 任意順序影像生成解鎖Zero-shot Capabilities

所以，我們希望RandAR可以指向一個全新的"視覺領域GPT"的路徑。

2. RandAR：如何用任意順序生成圖片

RandAR的方法非常簡單：既然我們想要讓模型可以生成任意順序的影像Token，那麼我們需要把順序用某種方式“告訴”模型。我們用一種特殊的Token，叫做"Position Instruction Tokens"，代表下一個需要生成的Image Token在哪個位置，來指導模型生成Image Tokens。

Method部分到此結束，其實非常簡單。

(如果你不需要演算法細節，可以節省時間，透過目錄直接跳過這部分去結尾—我們對視覺AR模型終局的想象)

3. 重頭戲：RandAR和它的Zero-shot能力們

說了這麼久“GPT時刻”，我們在這個Paper裡面把刷點放在非常次要的位置，而是花了大量的時間在——任意順序(Random-Order)真的可以帶來大量的Zero-shot新能力嗎？

(如果你日不需要演算法細節，可以節省時間，透過左側目錄直接跳過這部分直接去結尾我們對視覺AR模型終局的想象)

3.1 Parallel Decoding —— Next Set-of Tokens Prediction

Autoregressive模型的一個缺陷(相比於Diffusion Models)在於它的速度——對於影像生成，它的延遲(Latency)主要取決於取樣的步數。所以我們做的第一件事情就是——我們的模型是否可以Zero-shot泛化做到Parallel Decoding？我們非常看重"zero-shot"，因為在LLM裡面Parallel Decoding一般都是需要做一些Fine-tuning實現的。我們的實現非常簡單——每一步同時生成多個來自隨機位置的Token即可。這樣的方式可以直接提速2.5倍，而不會帶來任何的FID降低。

3.2 影像編輯、Inpainting、Outpainting

這兩種能力是老生常談了。因為可以處理任意順序，我們的RandAR可以解決這兩種應用。方法很簡單：把所有已知的上下文(Context Tokens)放在一開始，然後讓模型去生成新的Tokens。

Random Order實現影像編輯、Inpainting、Outpainting

3.3 Zero-shot放大解析度

我們花了大力氣做了這樣一件事情——如果模型是在256×256的圖片上訓練的，那麼它的引數是否可以直接生成更大解析度，例如512×512的圖片？在這裡，我們特殊強調要求圖片必須展示一個unified object，而不是透過Outpainting可以實現。我們因為可以控制生成順序，所以提出了兩步走的方法：

第一步先找對應低解析度的Token生成，得到全域性結構
第二步再去填充高解析度的Token，得到高頻細節

Resolution Extrapolation。可以看到下面的圖片包含了比256×256圖片更多的細節，比如說毛髮的紋理。

3.4 統一Encoding (Representation Learning)

最後一個問題，也是個人以為的視覺領域"Autoregressive Generation"的Open Problem：在視覺領域，Representation是泛化到下游任務的基礎(比如說CLIP和DINO)，那麼如何統一理解(Encoding)與生成(Decoding)？這個問題對於語言處理領域可能重要性稍微低一些，但是對於視覺領域根本關係到"GPT"時刻。

這個問題對於Decoder-only的GPT結構模型會更難一些——因為Decoder-only模型採用的是Causal Attention，也就意味著在序列中靠前的Token沒有辦法”看見“在後面的Token，那它的Representation就只能代表很少的一部分資訊。最極端的例子就是——第一個圖片Token只有它自己Patch的資訊，根本無法知道圖片的其它位置。

一個直接的解決辦法就是——把影像Token序列再輸入一遍，然後我們只取第二輪序列的Representation (如下圖)，這樣每個圖片Token都可以得到完整的圖片資訊了。從對比中可以看到，

使用了Random-order的模型可以直接泛化到這種提取Representation的方式(柱狀圖左側)，
但是按照Raster-order訓練的模型卻會直接崩掉(柱狀圖右側)。

看到這個結果的時候我們其實很開心——因為這是第一次我們看到一個Decoder-only的模型用單向(Uni-directional) Attention可以實現Encoder模型用雙向(Bi-directional) Attention做到的功能。

泛化到Bi-directional Representation Encoding

3.5 總結

回到文章的最開始——我們希望這裡的多種Zero-shot能力證明——處理隨機順序的能力是讓自迴歸模型能夠解鎖視覺"GPT時刻"的重要部分。

4. 一些分析和反思

(如果你不需要演算法細節，可以節省時間，直接跳過這部分去結尾—我們對視覺AR模型終局的想象)

4.1 模型是怎麼記住N!個順序的

4.2 生成時候的順序

RandAR可以按照任意的順序生成圖片，但是會不會有哪種順序更好呢？我們試驗了一些人類直觀上比較合理的順序，可以看到還是隨機的順序生成圖片的FID是最好的。這裡我們的猜測是：(1) 隨機的順序可以更好地結合來自圖片不同位置的上下文，比如說從下表中我們可以發現，那些讓影像在生成早起Token更分散的順序可以得到更好的效果；(2) 隨機的順序增強了影像生成的多樣性。

4.3 遺憾

在研究RandAR的過程中，我們一直嘗試找到一個最優的順序，或者像Mask AR一樣，透過一些資訊熵之類的指標找到最優的取樣順序，可惜一直沒有成功。

另外受制於計算資源，我們沒有辦法把RandAR推廣到Text-to-image或者影片生成領域。我們希望這種讓模型更好理解時空位置的訓練方式可以在更大的資料上爆發Scaling Law。

最後，我們還有諸多Zero-shot能力沒有精力完全嘗試或者實驗成功，也許因為RandAR模型主要是在ImageNet上訓練的，例如RandAR是否可以直接生成可控位置的多物體圖片。

期待會有朋友繼續探索，實現這些遺憾！

5. 廣結善緣：社群裡的其他相關研究

(如果你不需要演算法細節，可以節省時間，直接跳過這部分到結尾—我們對視覺AR模型終局的想象)

5.1 基於Encoder-Decoder的Mask AR

對我們的RandAR啟發最大的工作是去年年中Kaiming He和Tianhong Li實現的MAR，最主要的區別是MAR研究的是Encoder-Decoder結構，而我們主要關心Decoder-only，也就是和GPT相同結構的模型。另外一個核心的Insight，即為什麼我們會對Decoder-only的方式有信心，在於Encoder-Decoder的Masked AR在訓練的過程中需要手工規定一些Masking Ratio，這些”Human Priors“某種程度上也許會讓模型的Scalability被限制。

5.2 其它方式的AR生成

另外一些相關的AR為了解決從2D影像序列到1D Token序列都需要一些額外的設計——例如VAR設計的按照從低到高的解析度去生成影像Token。但是這些設計從某種程度上也都需要人類的先驗知識，而我們則希望RandAR可以嘗試一種完全不需要人工先驗的結構。

5.3 隨機順序的視覺AR生成

和我們同期的工作是來自字節跳動的RAR，他們證明了透過Random Order的訓練模型可以得到更好的生成質量——這其實和我們一樣，驗證了"任意順序"對於視覺模型的重要性。RAR在生成質量上達到了SOTA，我們和它的不同在於：RAR在做生成的時候仍然要回到單一的Raster-Order，而我們更注重在生成的時候可以按照任意順序並支援大量的Zero-shot Capability。

5.3 視覺AR中的Parallel Decoding

關於生成順序對於Parallel Decoding的重要性，和我們非常相關的是兩個同期工作：(1) PAR研究瞭如何指定生成的順序可以支援Parallel Decoding；(2) SAR 研究瞭如何小幅度修改Decoder-only結構可以讓自迴歸模型能夠實現Parallel Decoding。

5.4 RandAR的後續工作

最後，我們也很高興看到我們的文章已經啟發了一些後續工作。ARPG很好地解決了RandAR裡面需要額外Position Instruction Token帶來的問題並且拓展了更多的應用，例如ControlNet。

6. 對Gemini和GPT4o圖片編輯的一些猜測 & AR的未來

6.1 Gemini和GPT4o圖片編輯

最近Gemini和GPT4o都公開了自己的in-context影像編輯的功能 (比如下面的例子)。它們的設計大機率沿用了多模態AR的思想，就是讓語言模型可以合成一些影像Token、或者Diffusion模型的一些Conditional Input。

事實上，實現這樣的影像編輯，也許並不一定需要直接應用上面講述的"隨機順序"能力，我們可以想象一種最"浪費"的實現方式：哪怕我們只需要修改圖片的一個小部分，我們還是讓模型去訓練按照Raster-Order或者Multi-resolution的方式重新生成每一個Patch。

這種“浪費Token”的方式除了對效率的不友好，另外一個限制其實在於Token學習效率的降低——如果絕大多數Token都在學習如何重複之前圖片的內容，模型在真正需要Reasoning的Token上獲得的訊號實際上就被降低了。

那麼這就引向了我們對於視覺AR終局的想象：

6.2 視覺自迴歸模型(AR)的終局

視覺AR的終局，必然要讓模型可以

統一"生成"

(影像編輯、影像生成…)與"判別"(多模態QA、影像分割、深度估計…)
處理“任意”位置、“任意”順序、“任意”指令

而我個人認為，視覺AR的最終正規化，在於它要有"Action" (動作) 的能力，因為視覺最終服務的是和物理世界進行互動。我希望可以藉助一句"百年孤獨"裡的話說明"Action"的意義：

世界新生伊始，許多事物還沒有名字，提到的時候尚需用手指指點點。

因此，一個真正全能的視覺AR模型，需要設計一套通用的Action，讓生成 (Generation)、理解 (Perception)、推理 (Reasoning)可以在同一個Token序列中被取樣。事實上，當我今天看到很多Vision-Language Model的論文增加了一些Special Token，例如影像分割的<SEG>，我都會把它看成是邁向"通用Action"的中間一步。而我們研究的隨機順序，特別是Position Instruction Tokens，實際上就給予了模型“指指點點”的能力。對於一些其它的模型，比如說推理模型中的<think>、感知細節模型的Visual Chain-of-thought，本質上都是為AR模型加上了一些“動作”(Action) Token。

我自己的願景是未來會有一個統一的Transformer，它的引數可以直接應用到多種模態、多種任務，也就是實現一個終極的自迴歸AR模型。我之前的探索也驗證了這條路線的潛力(ICLR 2024，用LLM的引數處理視覺任務)。

我期待著下一代的視覺模型不再是用眼睛"看書"，而是也可以用手"揉麵"——它有一雙"手"，可以隨心所欲地把面壓縮、放大、改變形狀，變成我們真正想要的麵包和點心。

最後期待在今年的CVPR見到各位朋友！歡迎郵件、微信、私信交流！

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群