CVPR2025|Zero-shot能力拉滿！隨機順序自迴歸解鎖視覺領域的“GPT時刻”

©作者 | 龐子奇

單位 | UIUC

研究方向 | 計算機視覺

語言領域的自迴歸（AR）模型看似一統江湖，但是視覺領域還沒有正規化讓大家的 “Scaling Law” 可以跨越更多工、更多應用。前幾天 Gemini 和 GPT 釋出的影像編輯功能驗證了視覺自迴歸的潛力，但是它距離語言領域的 “GPT 時刻” 到底還有多遠？

我相信，我們 CVPR 2025 剛剛中稿的文章 RandAR 展示了視覺 “GPT 時刻”的一個新探索——自迴歸 AR 模型需要能“看”、“理解”、“生成”任意位置和順序的影像 Token 才可以實現 GPT 在語言領域一樣的泛化性，而這也是創造更強的視覺模型的基礎。在此也特別感謝這篇論文的合作者張天遠 @Alcho 和滿運澤 @Yunze MAN。

論文標題：

RandAR: Decoder-only Autoregressive Visual Generation in Random Order

論文地址：

https://arxiv.org/abs/2412.01827

▲ 任意順序生成——讓模型“指哪打哪”

引子

1.1 什麼是 GPT 成功的本質？

從去年開始，我和合作者一直在思考：如何在計算機視覺領域復刻 GPT 在語言模型中的成功？我相信，這也是現在幾乎每一位研究計算機視覺、研究多模態的研究者都在思考的問題。

所以在開始討論視覺領域的 “GPT 時刻” 之前，我們不妨分析一下語言模型領域的 “GPT 時刻” 本質是什麼？

1. Next-token Prediction，即 Auto-Regressive（AR）正規化，提供了把所有文字任務、文字應用統一在一起的 Formulation。

2. 結合 Decoder-only 結構，Next-token Prediction 使得大規模訓練對 Infra 友好、可以非常高效。

3. 正因為第一點“統一的 Formulation”，我們可以收集海量資料，最終得到一個能夠 Zero-shot 泛化的大模型。

所以說，GPT 在語言領域的成功 —— 不只是 next-token prediction。

1.2 為什麼現在的 Vision 模型距離 “GPT 時刻” 差在哪裡？

在視覺模型中模仿 GPT 的配方，即 “Decoder-only”+“Next-token Prediction”，從去年年中的時候就開始了一些探索，代表作有：LLaMAGen，Chamelon，Transfusion，Show-O，Emu3，當然也有 DeepSeek 的 Janus，他們集中在讓 Image Tokens（也包括文字 Token）也按照 Next-token Prediction 的正規化進行學習。

好的，那它們距離 GPT 時刻的距離還在哪裡？只是單純的資料、模型還沒有增加到足夠的 Scale，還是他們仍然有本質的缺陷？

我們回顧之前提到的三個 GPT 時刻的本質：

1. “Next-token Prediction 提供了統一的 Formulation”：這些模型沒有做到這一點，我們下面會分析為什麼。

2. “Decoder-only + Next-token Prediction對Scaling Up非常友好”：對 Scaling Up 的支援，這些模型因為遵循了 Next-token Prediction + Decode-only，所以都可以做到。

3. “透過海量資料，zero-shot 泛化到多種場景”：從個人的觀察來看，這些模型大部分能力還是專注於處理一些 in-domain 的場景，所以暫時還沒完全體現出 zero-shot 泛化。

那麼是什麼限制了這些模型復刻 GPT 正規化的成功呢？當我們按照一維的順序做 Next-token Prediction，勢必要把二維的 Image Tokens 轉化成一維的序列，而之前的方法在這裡採用了一個提前規定好的順序——Raster-Order，也就是從圖片的左上角開始一行一行地生成 Image Tokens，像下面的動圖一樣。

▲ Raster-order 影像生成

這種做法最大的限制是這樣訓練出來的模型：

1. 無法按照任意順序處理 Image Tokens，所以很顯然，他們面對 editing 任務或者針對圖片特定區域 Perception 的任務會很掙扎。因此，這樣的 Next-token Prediction 很難成為“把所有任務統一在一起的 Formulation”——也就是違背了上面 GPT 成功的第一個條件。

2. 無法 Zero-shot 泛化，也正是因為生成順序的限制，這樣的模型很難未經訓練直接泛化到新的場景上，比如說新的圖片解析度（resolution）、提取圖片的 Representation。也就違背了上面的第三個條件。

所以說，如果按照固定順序去做 next-token prediction 的模型，某種程度上得了 GPT 的“形”，但是距離實現 GPT 在語言領域的成功還有很長的路要走。

1.3 我們的 Insight：任意順序是關鍵

上述的模型，它們最主要的限制就是“只用一種方式做二維影像到一維序列的對映”——所以解決這些問題的關鍵在於——如何讓 GPT 模型可以處理任意的二維影像順序。這也是我們的 RandAR 的起點：

1. 讓一個和 GPT 相同的 Decoder-only Transformer 可以按照 Random-order 生成影像

2. RandAR 可以 Zero-shot 泛化到新的場景上，包括但不限於一些全新的角度——Parallel Decoding（next set-of-token）、生成更高解析度圖片，而且它還可以直接做 Generative Model 的另一面——Representation Learning。

▲ RandAR：任意順序影像生成解鎖 Zero-shot Capabilities

所以，我們希望 RandAR 可以指向一個全新的“視覺領域 GPT” 的路徑。

RandAR：如何用任意順序生成圖片

RandAR 的方法非常簡單：既然我們想要讓模型可以生成任意順序的影像 Token，那麼我們需要把順序用某種方式“告訴”模型。我們用一種特殊的 Token，叫做“Position Instruction Tokens”，代表下一個需要生成的 Image Token 在哪個位置，來指導模型生成 Image Tokens。

Method 部分到此結束，其實非常簡單。

▲ RandAR：按照任意順序生成圖片

（如果你不需要演算法細節，可以節省時間，透過目錄直接跳過這部分去結尾—我們對視覺 AR 模型終局的想象）

重頭戲：RandAR 和它的 Zero-shot 能力們

說了這麼久 “GPT 時刻”，我們在這個 Paper 裡面把刷點放在非常次要的位置，而是花了大量的時間在——任意順序（Random-Order）真的可以帶來大量的 Zero-shot 新能力嗎？

（如果你日不需要演算法細節，可以節省時間，透過左側目錄直接跳過這部分直接去結尾我們對視覺 AR 模型終局的想象）

3.1 Parallel Decoding —— Next Set-of Tokens Prediction

Autoregressive 模型的一個缺陷（相比於 Diffusion Models）在於它的速度——對於影像生成，它的延遲（Latency）主要取決於取樣的步數。所以我們做的第一件事情就是——我們的模型是否可以 Zero-shot 泛化做到 Parallel Decoding？

我們非常看重 “zero-shot”，因為在 LLM 裡面 Parallel Decoding 一般都是需要做一些 Fine-tuning 實現的。我們的實現非常簡單——每一步同時生成多個來自隨機位置的 Token 即可。這樣的方式可以直接提速 2.5 倍，而不會帶來任何的 FID 降低。

▲ Zero-shot Parallel Decoding

3.2 影像編輯、Inpainting、Outpainting

這兩種能力是老生常談了。因為可以處理任意順序，我們的 RandAR 可以解決這兩種應用。方法很簡單：把所有已知的上下文（Context Tokens）放在一開始，然後讓模型去生成新的 Tokens。

▲ Random Order 實現影像編輯、Inpainting、Outpainting

3.3 Zero-shot 放大解析度

我們花了大力氣做了這樣一件事情——如果模型是在 256×256 的圖片上訓練的，那麼它的引數是否可以直接生成更大解析度，例如 512×512 的圖片？

在這裡，我們特殊強調要求圖片必須展示一個 unified object，而不是透過 Outpainting 可以實現。我們因為可以控制生成順序，所以提出了兩步走的方法：

1. 第一步先找對應低解析度的 Token 生成，得到全域性結構

2. 第二步再去填充高解析度的 Token，得到高頻細節

▲ Resolution Extrapolation。可以看到下面的圖片包含了比 256×256 圖片更多的細節，比如說毛髮的紋理。

3.4 統一 Encoding（Representation Learning）

最後一個問題，也是個人以為的視覺領域 “Autoregressive Generation” 的 Open Problem：在視覺領域，Representation是泛化到下游任務的基礎（比如說 CLIP 和 DINO），那麼如何統一理解（Encoding）與生成（Decoding）？

這個問題對於語言處理領域可能重要性稍微低一些，但是對於視覺領域根本關係到 “GPT” 時刻。

這個問題對於 Decoder-only 的 GPT 結構模型會更難一些——因為 Decoder-only 模型採用的是 Causal Attention，也就意味著在序列中靠前的 Token 沒有辦法”看見“在後面的 Token，那它的 Representation 就只能代表很少的一部分資訊。

最極端的例子就是——第一個圖片 Token 只有它自己 Patch 的資訊，根本無法知道圖片的其它位置。

一個直接的解決辦法就是——把影像 Token 序列再輸入一遍，然後我們只取第二輪序列的 Representation（如下圖），這樣每個圖片 Token 都可以得到完整的圖片資訊了。從對比中可以看到，

使用了 Random-order 的模型可以直接泛化到這種提取 Representation 的方式（柱狀圖左側），
但是按照 Raster-order 訓練的模型卻會直接崩掉（柱狀圖右側）。

看到這個結果的時候我們其實很開心——因為這是第一次我們看到一個 Decoder-only 的模型用單向（Uni-directional）Attention 可以實現 Encoder 模型用雙向（Bi-directional）Attention 做到的功能。

▲ 泛化到 Bi-directional Representation Encoding

3.5 總結

回到文章的最開始——我們希望這裡的多種 Zero-shot 能力證明——處理隨機順序的能力是讓自迴歸模型能夠解鎖視覺 “GPT 時刻” 的重要部分。

一些分析和反思

（如果你不需要演算法細節，可以節省時間，直接跳過這部分去結尾—我們對視覺 AR 模型終局的想象）

4.1 模型是怎麼記住 N! 個順序的

當我們採用隨機順序訓練，模型需要記住的影像 Token 順序會爆炸式的增長。比如說 256×256 的圖片有 16×16=256 個影像 Token，那麼一共會有種順序，大概是。

好的，那麼問題來了——模型是怎麼記住這麼多順序的？透過一些數學分析，我們可以得到如下結論：在生成的後半部分，也就是當我們生成第個 Token 之後的內容時，每個新 Token 都有超過 90% 的機率會有一個相鄰位置已經有生成的 Token 了，這些相鄰的上下文大大降低了模型的難度。

4.2 生成時候的順序

RandAR 可以按照任意的順序生成圖片，但是會不會有哪種順序更好呢？我們試驗了一些人類直觀上比較合理的順序，可以看到還是隨機的順序生成圖片的 FID 是最好的。

這裡我們的猜測是：（1）隨機的順序可以更好地結合來自圖片不同位置的上下文，比如說從下表中我們可以發現，那些讓影像在生成早起 Token 更分散的順序可以得到更好的效果；（2）隨機的順序增強了影像生成的多樣性。

▲ 不同生成順序的比較

4.3 遺憾

在研究 RandAR 的過程中，我們一直嘗試找到一個最優的順序，或者像 Mask AR 一樣，透過一些資訊熵之類的指標找到最優的取樣順序，可惜一直沒有成功。

另外受制於計算資源，我們沒有辦法把 RandAR 推廣到 Text-to-image 或者影片生成領域。我們希望這種讓模型更好理解時空位置的訓練方式可以在更大的資料上爆發 Scaling Law。

最後，我們還有諸多 Zero-shot 能力沒有精力完全嘗試或者實驗成功，也許因為 RandAR 模型主要是在 ImageNet 上訓練的，例如 RandAR 是否可以直接生成可控位置的多物體圖片。

期待會有朋友繼續探索，實現這些遺憾！

廣結善緣：社群裡的其他相關研究

（如果你不需要演算法細節，可以節省時間，直接跳過這部分到結尾—我們對視覺 AR 模型終局的想象）

5.1 基於 Encoder-Decoder 的 Mask AR

對我們的 RandAR 啟發最大的工作是去年年中 Kaiming He 和 Tianhong Li 實現的 MAR，最主要的區別是 MAR 研究的是 Encoder-Decoder 結構，而我們主要關心 Decoder-only，也就是和 GPT 相同結構的模型。

另外一個核心的 Insight，即為什麼我們會對 Decoder-only 的方式有信心，在於 Encoder-Decoder 的 Masked AR 在訓練的過程中需要手工規定一些 Masking Ratio，這些 “Human Priors” 某種程度上也許會讓模型的 Scalability 被限制。

5.2 其它方式的 AR 生成

另外一些相關的 AR 為了解決從 2D 影像序列到 1D Token 序列都需要一些額外的設計——例如 VAR 設計的按照從低到高的解析度去生成影像 Token。但是這些設計從某種程度上也都需要人類的先驗知識，而我們則希望 RandAR 可以嘗試一種完全不需要人工先驗的結構。

5.3 隨機順序的視覺 AR 生成

和我們同期的工作是來自字節跳動的 RAR，他們證明了透過 Random Order 的訓練模型可以得到更好的生成質量——這其實和我們一樣，驗證了“任意順序”對於視覺模型的重要性。

RAR 在生成質量上達到了 SOTA，我們和它的不同在於：RAR 在做生成的時候仍然要回到單一的 Raster-Order，而我們更注重在生成的時候可以按照任意順序並支援大量的 Zero-shot Capability。

5.4 視覺 AR 中的 Parallel Decoding

關於生成順序對於 Parallel Decoding 的重要性，和我們非常相關的是兩個同期工作：（1）PAR 研究瞭如何指定生成的順序可以支援 Parallel Decoding；（2）SAR 研究瞭如何小幅度修改 Decoder-only 結構可以讓自迴歸模型能夠實現 Parallel Decoding。

5.5 RandAR 的後續工作

最後，我們也很高興看到我們的文章已經啟發了一些後續工作。ARPG 很好地解決了 RandAR 裡面需要額外 Position Instruction Token 帶來的問題並且拓展了更多的應用，例如 ControlNet。

對 Gemini 和 GPT4o 圖片編輯的一些猜測 & AR 的未來

6.1 Gemini 和 GPT4o 圖片編輯

最近 Gemini 和 GPT4o 都公開了自己的 in-context 影像編輯的功能（比如下面的例子）。它們的設計大機率沿用了多模態 AR 的思想，就是讓語言模型可以合成一些影像 Token、或者 Diffusion 模型的一些 Conditional Input。

事實上，實現這樣的影像編輯，也許並不一定需要直接應用上面講述的“隨機順序”能力，我們可以想象一種最“浪費”的實現方式：哪怕我們只需要修改圖片的一個小部分，我們還是讓模型去訓練按照 Raster-Order 或者 Multi-resolution 的方式重新生成每一個 Patch。

這種“浪費 Token” 的方式除了對效率的不友好，另外一個限制其實在於 Token 學習效率的降低——如果絕大多數 Token 都在學習如何重複之前圖片的內容，模型在真正需要 Reasoning 的 Token 上獲得的訊號實際上就被降低了。

那麼這就引向了我們對於視覺 AR 終局的想象：

6.2 視覺自迴歸模型（AR）的終局

視覺 AR 的終局，必然要讓模型可以

1. 統一“生成”（影像編輯、影像生成…）與“判別”（多模態 QA、影像分割、深度估計…）

2. 處理“任意”位置、“任意”順序、“任意”指令

而我個人認為，視覺 AR 的最終正規化，在於它要有 “Action”（動作）的能力，因為視覺最終服務的是和物理世界進行互動。我希望可以藉助一句“百年孤獨”裡的話說明 “Action” 的意義：

世界新生伊始，許多事物還沒有名字，提到的時候尚需用手指指點點。

因此，一個真正全能的視覺 AR 模型，需要設計一套通用的 Action，讓生成（Generation）、理解（Perception）、推理（Reasoning）可以在同一個 Token 序列中被取樣。

事實上，當我今天看到很多 Vision-Language Model 的論文增加了一些 Special Token，例如影像分割的 <SEG>，我都會把它看成是邁向“通用 Action” 的中間一步。而我們研究的隨機順序，特別是 Position Instruction Tokens，實際上就給予了模型“指指點點”的能力。

對於一些其它的模型，比如說推理模型中的 <think>、感知細節模型的 Visual Chain-of-thought，本質上都是為 AR 模型加上了一些“動作”（Action）Token。

我自己的願景是未來會有一個統一的 Transformer，它的引數可以直接應用到多種模態、多種任務，也就是實現一個終極的自迴歸 AR 模型。我之前的探索也驗證了這條路線的潛力（ICLR 2024，用 LLM 的引數處理視覺任務）。

我期待著下一代的視覺模型不再是用眼睛“看書”，而是也可以用手“揉麵”——它有一雙“手”，可以隨心所欲地把面壓縮、放大、改變形狀，變成我們真正想要的麵包和點心。

更多閱讀