

背景:長上下文影片生成的挑戰
目前的影片生成技術大多是在短影片資料上訓練,推理時則透過滑動視窗等策略,逐步擴充套件生成的影片長度。然而,這種方式無法充分利用影片的長時上下文資訊,容易導致生成內容在時序上出現潛在的不一致性。
解決這一問題的關鍵在於:高效地對長影片進行訓練。但傳統的自迴歸影片建模面臨嚴重的計算挑戰——隨著影片長度的增加,token 數量呈爆炸式增長。視覺 token 相較於語言 token 更為冗餘,使得長下文影片生成比長上下文語言生成更為困難。
本文針對這一核心挑戰,首次系統性地研究瞭如何高效建模長上下文影片生成,並提出了相應的解決方案。
我們特別區分了兩個關鍵概念:
-
長影片生成:目標是生成較長的影片,但不一定要求模型持續利用已生成的內容,因此缺乏長時序的一致性。這類方法通常仍在短影片上訓練,透過滑動視窗等方式延長生成長度。
-
長上下文影片生成:不僅要求影片更長,還要持續利用歷史上下文資訊,確保長時序一致性。這類方法需要在長影片資料上進行訓練,對影片生成建模能力提出更高要求。
長上下文影片生成的重要性:最近的工作 Genie2 [1] 將影片生成用於 world modeling /game simulation 的場景中,展現出非常令人驚豔的潛力。然而,現有基於滑窗的生成方法通常缺乏記憶機制,無法有效理解、記住並重用在 3D 環境中探索過的資訊,比如 OASIS [2]。
這種缺乏記憶性的建模方式,不僅影響生成效果,還可能導致對物理規律建模能力的缺失。這可能正是當前長影片生成中常出現非物理現象的原因之一:模型本身並未在大量長影片上訓練,i2v(image-to-video)+ 滑動視窗的方式難以確保全域性合理性。

論文標題:
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
論文作者:
Yuchao Gu, Weijia Mao, Mike Zheng Shou
作者單位:
新加坡國立大學 Show Lab
專案主頁:
https://farlongctx.github.io/
論文連結:
https://arxiv.org/abs/2503.19325
開原始碼:
https://github.com/showlab/FAR

FAR 的創新設計與分析
2.1 核心理念:將影片生成重構為基於長短時上下文的逐幀預測任務
1)幀自迴歸模型(FAR):FAR 將影片生成任務重新定義為基於已有上下文逐幀(影像)生成的過程。

▲ FAR 在短影片上的訓練測試架構
2)長短時上下文建模:我們觀察到,隨著上下文幀數量的增加,影片生成中會出現視覺 token 數量急劇增長的問題。然而,視覺 token 在時序上具有區域性性:對於當前解碼幀,其鄰近幀需要更細粒度的時序互動,而遠離的幀通常僅需作為記憶存在,無需深入的時序互動。
基於這一觀察,我們提出了長短時上下文建模。該機制採用非對稱的 patchify 策略:短時上下文保留原有的 patchify 策略,以保證細粒度互動;而長時上下文則進行更為激進的 patchify,減少 token 數量,從而在保證計算效率的同時,維持時序模擬的質量。

▲ FAR 在長影片上的訓練測試架構:對長時和短時 context 利用非對稱的 patchify 策略

▲ FAR 在長影片上的 token 減少以及訓練效率提升
3)用於長上下文影片生成的多層 KV Cache 機制:針對長短時上下文的非對稱 patchify 策略,我們提出了相應的多層 KV-Cache 機制。
在自迴歸解碼過程中,當某一幀剛離開短時上下文視窗時,我們將其編碼為低粒度的L2 Cache(少量 token);同時,更新仍處於短時視窗內幀的 L1 Cache(常規 token)。最終,我們結合這兩級 KV Cache,用於當前幀的生成過程。
值得強調的是,多層 KV Cache 與擴散模型中常用的 Timestep Cache 是互補的:前者沿時間序列方向快取 KV 資訊,後者則在擴散時間步維度上進行快取,共同提升生成效率。

▲ 針對長短時上下文策略的多層 KV Cache

▲ 長影片生成的效率提升

FAR 相對於 SORA 類 VideoDiT 的潛在優勢
1)收斂效率:在相同的連續潛空間上進行實驗時,我們發現 FAR 相較於 Video DiT 展現出更快的收斂速度以及更優的短影片生成效能。

▲ FAR 與 Video DiT 的收斂對比
2)無需額外的 I2V 微調:FAR 無需針對影像到影片(I2V)任務進行額外微調,即可同時建模影片生成與影像到影片的預測任務,並在兩者上均達到 SOTA 水平。

▲ 條件/非條件影片生成的評測結果

▲ 基於條件幀的影片預測的評測結果
3)高效的長上下文建模能力:FAR 支援高效的長影片訓練以及對長上下文建模。在基於 DMLab 的受控環境中進行實驗時,我們觀察到模型對已觀測的 3D 環境具有出色的記憶能力,在後續幀預測任務中首次實現了近乎完美的長期記憶效果。

▲ 基於觀測幀的長影片預測結果

總結
我們首次系統性地驗證了長上下文建模在影片生成中的重要性,並提出了一個基於長短時上下文的幀自迴歸模型——FAR。FAR 不僅在短影片生成任務中,相較於 Video DiT 展現出更快的收斂速度與更優效能,同時也在長影片的 world modeling 場景中,首次實現了顯著的長時序一致性。
此外,FAR 有效降低了長影片生成的訓練成本。在當前文字資料趨於枯竭的背景下,FAR 為高效利用現有海量長影片資料進行生成式建模,提供了一條具有潛力的全新路徑。

參考文獻

[1] Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
[2] Oasis: https://oasis-model.github.io/
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
