點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

邁向長上下文影片生成! FAR提出基於長短時上下文的下一幀預測正規化,在短影片和長影片預測上同時SOTA,程式碼已開源!
論文資訊:
標題:Long-Context Autoregressive Video Modeling with Next-Frame Prediction
作者:Yuchao Gu, Weijia Mao, Mike Zheng Shou
單位:新加坡國立大學 Show Lab
專案主頁:https://farlongctx.github.io/
論文連結:https://arxiv.org/abs/2503.19325
開原始碼:https://github.com/showlab/FAR
1. 背景:長上下文影片生成的挑戰
研究背景簡介:目前的影片生成技術大多是在短影片資料上訓練,推理時則透過滑動視窗等策略,逐步擴充套件生成的影片長度。然而,這種方式無法充分利用影片的長時上下文資訊,容易導致生成內容在時序上出現潛在的不一致性。
解決這一問題的關鍵在於:高效地對長影片進行訓練。但傳統的自迴歸影片建模面臨嚴重的計算挑戰——隨著影片長度的增加,token數量呈爆炸式增長。 視覺token相較於語言token更為冗餘,使得長下文影片生成比長上下文語言生成更為困難。
本文針對這一核心挑戰,首次系統性地研究瞭如何高效建模長上下文影片生成,並提出了相應的解決方案。
我們特別區分了兩個關鍵概念:
·長影片生成:目標是生成較長的影片,但不一定要求模型持續利用已生成的內容,因此缺乏“long consistency”。這類方法通常仍在短影片上訓練,透過滑動視窗等方式延長生成長度。
·長上下文影片生成:不僅要求影片更長,還要持續利用歷史上下文資訊,確保長時一致性和合理性。這類方法需要在長影片資料上進行訓練,對建模能力提出更高要求。
長上下文影片生成的重要性:
最近的工作Genie2[1]將影片生成用於 world modeling /game simulation的場景中,展現出非常令人驚豔的潛力。然而,現有基於滑窗的生成方法通常缺乏記憶機制,無法有效理解、記住並重用在3D環境中探索過的資訊,比如OASIS[2]。這種缺乏記憶性的建模方式,不僅影響生成效果,還可能導致對物理規律建模能力的缺失。這可能正是當前長影片生成中常出現非物理現象的原因之一:模型本身並未在大量長影片上訓練,i2v(image-to-video)+ 滑動視窗的方式難以確保全域性合理性。
2. FAR的創新設計與分析
1)幀自迴歸模型(FAR):FAR 將影片生成任務重新定義為基於已有上下文逐幀(影像)生成的過程。為解決混合自迴歸與擴散模型在訓練與測試階段存在的上下文不一致問題,我們在訓練過程中隨機引入乾淨的上下文資訊,從而提升模型測試時對利用乾淨上下文的穩定性。

2) 長短時上下文建模:
我們觀察到,隨著上下文幀數量的增加,影片生成中會出現視覺 token 數量急劇增長的問題。然而,視覺 token 在時序上具有區域性性:對於當前解碼幀,其鄰近幀需要更細粒度的時序互動,而遠離的幀通常僅需作為記憶存在,無需深入的時序互動。基於這一觀察,我們提出了 長短時上下文建模。該機制採用非對稱的 patchify 策略:短時上下文保留原有的patchify策略,以保證細粒度互動;而長時上下文則進行更為激進的patchify,減少token 數量,從而在保證計算效率的同時,維持時序模擬的質量。

FAR的長影片訓練測試流程

長短時上下文的非對稱patchify帶來的token減少以及訓練效率提升
3) 用於長上下文影片生成的多層KV Cache機制
針對長短時上下文的非對稱 patchify 策略,我們提出了相應的 多層 KV-Cache 機制。在自迴歸解碼過程中,當某一幀剛離開短時上下文視窗時,我們將其編碼為低粒度的 L2 Cache(少量 token);同時,更新仍處於短時視窗內幀的 L1 Cache(常規 token)。最終,我們結合這兩級 KV Cache,用於當前幀的生成過程。
值得強調的是,多層 KV Cache 與擴散模型中常用的 Timestep Cache 是互補的:前者沿時間序列方向快取KV資訊,後者則在擴散時間步維度上進行快取,共同提升生成效率。

針對長短時contextFAR的Multi-Level KV Cache

長影片生成的效率提升
3. FAR 相對於 SORA 類 VideoDiT 的潛在優勢
在相同的連續 latent space 上進行實驗時,我們發現 FAR 相較於 VideoDiT 展現出更快的收斂速度以及更優的短影片生成效能。

FAR與Video DiT的收斂對比
FAR 無需針對影像到影片(I2V)任務進行額外微調,即可同時建模影片生成與影像到影片的預測任務,並在兩者上均達到 SOTA 水平。

條件/非條件影片生成的評測結果

基於條件幀的影片預測的評測結果
3)高效的長影片訓練與長上下文建模能力:FAR 支援高效的長影片訓練以及對長上下文建模。在基於 DMLab 的受控環境中進行實驗時,我們觀察到模型對已觀測的 3D 環境具有出色的記憶能力,在後續幀預測任務中首次實現了近乎完美的長期記憶效果。

總結:我們首次系統性地驗證了長上下文建模在影片生成中的重要性,並提出了一個基於長短時上下文的幀自迴歸模型——FAR。FAR 不僅在短影片生成任務中,相較於 Video DiT 展現出更快的收斂速度與更優效能,同時也在長影片的 world modeling 場景中,首次實現了顯著的長時序一致性。此外,FAR 有效降低了長影片生成的訓練成本。在當前文字資料趨於枯竭的背景下,FAR 為高效利用現有海量長影片資料進行生成式建模,提供了一條具有潛力的全新路徑。
參考文獻:
【1】Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
【2】Oasis: https://oasis-model.github.io
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
