邁向長上下文影片生成！FAR重塑下一幀預測正規化，短影片與長影片雙雙登頂SOTA

背景：長上下文影片生成的挑戰

目前的影片生成技術大多是在短影片資料上訓練，推理時則透過滑動視窗等策略，逐步擴充套件生成的影片長度。然而，這種方式無法充分利用影片的長時上下文資訊，容易導致生成內容在時序上出現潛在的不一致性。

解決這一問題的關鍵在於：高效地對長影片進行訓練。但傳統的自迴歸影片建模面臨嚴重的計算挑戰——隨著影片長度的增加，token 數量呈爆炸式增長。視覺 token 相較於語言 token 更為冗餘，使得長下文影片生成比長上下文語言生成更為困難。

本文針對這一核心挑戰，首次系統性地研究瞭如何高效建模長上下文影片生成，並提出了相應的解決方案。

我們特別區分了兩個關鍵概念：

長影片生成：目標是生成較長的影片，但不一定要求模型持續利用已生成的內容，因此缺乏長時序的一致性。這類方法通常仍在短影片上訓練，透過滑動視窗等方式延長生成長度。
長上下文影片生成：不僅要求影片更長，還要持續利用歷史上下文資訊，確保長時序一致性。這類方法需要在長影片資料上進行訓練，對影片生成建模能力提出更高要求。

長上下文影片生成的重要性：最近的工作 Genie2 [1] 將影片生成用於 world modeling /game simulation 的場景中，展現出非常令人驚豔的潛力。然而，現有基於滑窗的生成方法通常缺乏記憶機制，無法有效理解、記住並重用在 3D 環境中探索過的資訊，比如 OASIS [2]。

這種缺乏記憶性的建模方式，不僅影響生成效果，還可能導致對物理規律建模能力的缺失。這可能正是當前長影片生成中常出現非物理現象的原因之一：模型本身並未在大量長影片上訓練，i2v（image-to-video）+ 滑動視窗的方式難以確保全域性合理性。

論文標題：

Long-Context Autoregressive Video Modeling with Next-Frame Prediction

論文作者：

Yuchao Gu, Weijia Mao, Mike Zheng Shou

作者單位：

新加坡國立大學 Show Lab

專案主頁：

https://farlongctx.github.io/

論文連結：

https://arxiv.org/abs/2503.19325

開原始碼：

https://github.com/showlab/FAR

FAR 的創新設計與分析

2.1 核心理念：將影片生成重構為基於長短時上下文的逐幀預測任務

1）幀自迴歸模型（FAR）：FAR 將影片生成任務重新定義為基於已有上下文逐幀（影像）生成的過程。

▲ FAR 在短影片上的訓練測試架構

2）長短時上下文建模：我們觀察到，隨著上下文幀數量的增加，影片生成中會出現視覺 token 數量急劇增長的問題。然而，視覺 token 在時序上具有區域性性：對於當前解碼幀，其鄰近幀需要更細粒度的時序互動，而遠離的幀通常僅需作為記憶存在，無需深入的時序互動。

基於這一觀察，我們提出了長短時上下文建模。該機制採用非對稱的 patchify 策略：短時上下文保留原有的 patchify 策略，以保證細粒度互動；而長時上下文則進行更為激進的 patchify，減少 token 數量，從而在保證計算效率的同時，維持時序模擬的質量。

▲ FAR 在長影片上的訓練測試架構：對長時和短時 context 利用非對稱的 patchify 策略

▲ FAR 在長影片上的 token 減少以及訓練效率提升

3）用於長上下文影片生成的多層 KV Cache 機制：針對長短時上下文的非對稱 patchify 策略，我們提出了相應的多層 KV-Cache 機制。

在自迴歸解碼過程中，當某一幀剛離開短時上下文視窗時，我們將其編碼為低粒度的L2 Cache（少量 token）；同時，更新仍處於短時視窗內幀的 L1 Cache（常規 token）。最終，我們結合這兩級 KV Cache，用於當前幀的生成過程。

值得強調的是，多層 KV Cache 與擴散模型中常用的 Timestep Cache 是互補的：前者沿時間序列方向快取 KV 資訊，後者則在擴散時間步維度上進行快取，共同提升生成效率。

▲ 針對長短時上下文策略的多層 KV Cache

▲ 長影片生成的效率提升

FAR 相對於 SORA 類 VideoDiT 的潛在優勢

1）收斂效率：在相同的連續潛空間上進行實驗時，我們發現 FAR 相較於 Video DiT 展現出更快的收斂速度以及更優的短影片生成效能。

▲ FAR 與 Video DiT 的收斂對比

2）無需額外的 I2V 微調：FAR 無需針對影像到影片（I2V）任務進行額外微調，即可同時建模影片生成與影像到影片的預測任務，並在兩者上均達到 SOTA 水平。

▲ 條件/非條件影片生成的評測結果

▲ 基於條件幀的影片預測的評測結果

3）高效的長上下文建模能力：FAR 支援高效的長影片訓練以及對長上下文建模。在基於 DMLab 的受控環境中進行實驗時，我們觀察到模型對已觀測的 3D 環境具有出色的記憶能力，在後續幀預測任務中首次實現了近乎完美的長期記憶效果。

▲ 基於觀測幀的長影片預測結果

總結

我們首次系統性地驗證了長上下文建模在影片生成中的重要性，並提出了一個基於長短時上下文的幀自迴歸模型——FAR。FAR 不僅在短影片生成任務中，相較於 Video DiT 展現出更快的收斂速度與更優效能，同時也在長影片的 world modeling 場景中，首次實現了顯著的長時序一致性。

此外，FAR 有效降低了長影片生成的訓練成本。在當前文字資料趨於枯竭的背景下，FAR 為高效利用現有海量長影片資料進行生成式建模，提供了一條具有潛力的全新路徑。

參考文獻

[1] Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

[2] Oasis: https://oasis-model.github.io/

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

邁向長上下文影片生成！FAR重塑下一幀預測正規化，短影片與長影片雙雙登頂SOTA

相關文章

邁向長上下文影片生成！FAR：基於長短時上下文的下一幀預測正規化

今年的錄取通知書已經是nextlevel！網友：支援以舊換新嗎？

電視首辯：哈里斯對特朗普實施表情魔法攻擊丨紐約時報丨政治

智源聯合多所高校推出首個多工長影片評測基準MLVU：GPT-4o單選正確率不到65％

颱風“Alfred”繼續挺進澳洲！數萬人斷電！超市貨架被清空！這件事千萬別做，恐被重罰$1.61萬！

在月球背面挖土city不city啊？

千幀長影片時代到來！MIT全新擴散演算法讓任意模型突破時長極限

AI危險檢測再進化！三層級解析長影片異常，各種時序粒度均有明顯優勢|CVPRHighLight

馬斯克炫酷變身毒液！實測通義Wan2.1首尾幀影片模型，還能“拼接”經典梗圖

一場內在意識的影像傳輸實驗