千幀長影片時代到來!MIT全新擴散演算法讓任意模型突破時長極限

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected][email protected]
進入到 2025 年,影片生成(尤其是基於擴散模型)領域還在不斷地「推陳出新」,各種文生影片、圖生影片模型展現出了酷炫的效果。其中,長影片生成一直是現有影片擴散的痛點。
近期,MIT 團隊火遍外網的新論文《History-guided Video Diffusion》提出了一種全新演算法 Diffusion Forcing Transformer(DFoT),在不改動原有架構的情況下就能讓模型穩定輸出比之前近 50 倍、近千幀長的影片
  • 論文地址:https://arxiv.org/abs/2502.06764
  • 專案主頁:https://boyuan.space/history-guidance/
該演算法生成的影片如此之長,以至於只能截短並降低幀率才能放下。我們先來一睹生成影片的效果。
在現有的影片擴散模型中,無分類器引導(Classifier-free Guidance, CFG) 已被廣泛應用於提升取樣質量。然而,目前的影片模型通常只使用第一幀進行引導,而忽略了其他歷史幀的重要性。作者的研究發現:歷史資訊才是提升影片生成質量的關鍵因素
因此,透過在去噪過程中混合長曆史模型和短歷史模型的不同預測,論文提出了一系列「歷史引導」演算法 (History Guidance),顯著提升了影片擴散模型的質量、生成長度、魯棒性與可組合性。

在 X 上,論文共同一作 Boyuan Chen 的論文推介收穫了十幾萬的閱讀量、近千的點贊量。
該工作剛一推出便受到了大量網友的讚譽,尤其看到了 DFoT 演算法對影片擴散模型的影響。
谷歌研究科學家、3d gaussian splating 一作 George Kopanas 轉達並評論道,「一年前,連續的長期影片看起來是不可能的。而現在可以做到了!這項工作令人印象深刻,也提供了一個非常有趣的潛在想法。」
方法概覽
論文提出首先要訓練一個能根據不同部分的歷史進行去噪預測的影片模型。作者把不同歷史定義如下:
  1. 不同長度的歷史
  2. 歷史的不同子集
  3. 特定頻率域的歷史。
這樣的模型能夠靈活地應對不同場景,例如圖生影片或是延長已有的影片。遺憾的是,目前的影片擴散模型架構並不具備這種靈活性。如果簡單地把歷史幀編碼後餵給 AdaLN 層並使用無分類器引導常見的隨機丟棄法進行訓練,實際效果會非常差。
相反,作者提出了一個極其簡潔的演算法 Diffusion Forcing Transformer (DFoT),在不改變架構的情況下就可以實現以上目標。
具體來說,作者提出把熱門前作 Diffusion Forcing 中提出的噪聲掩碼 (noise as masking) 概念帶入到影片生成架構中 —— 訓練擴散模型時可以對每一幀使用不同的噪聲強度。某一幀無噪聲時相當於直接把該幀作為條件資訊,而最強的噪聲相當於完全移除這一幀的資訊。給定一個既有的傳統 DiT 架構,DFoT 只需要控制噪聲掩碼就可以訓練任意子序列的預測任務。
作者提到,這樣做保留了把現有模型直接微調成 DFoT 的可行性,並且 Adobe 公司已經在他們的影片大模型 CausVid 上驗證過了 Diffusion Forcing 微調。
圖(左):傳統的影片模型要需要把歷史資訊編碼進 AdaLN 層來相容多歷史幀。圖(右):DFoT 架構僅用噪聲掩碼來區分歷史幀和預測幀。
DFoT 一旦訓練好就可以進行極其靈活的取樣。如下圖所示,如果要把前四幀作為條件,可以控制噪聲掩碼給前四幀 0 噪聲(第一行);如果要進行無條件生成,可以把所有歷史幀設為白噪聲(第二行);如果要把短歷史作為條件,可以掩碼較早的歷史幀。
DFoT 的取樣和歷史引導。
基於這種能力,作者引出了一系列「歷史引導」演算法。歷史引導擴充套件了無分類起引導的概念,不僅在取樣過程中組合有條件模型和無條件模型,還能透過加權去噪組合多重不同的歷史條件。其中最簡單的版本 (HG-v) 已經能大幅提高影片的質量,較為先進一點的跨時間歷史取樣 (Temporal History Guidance) 和跨頻率域歷史取樣 (Fractional History Guidance) 更是分別增強了魯棒性和動作幅度。
實驗結果
作者進行了一系列實驗來分別驗證 DFoT 架構和歷史引導。
首先,在經典的 Kinetics 600 資料集上,DFoT 超過了所有同架構下的影片擴散演算法,並僅使用學術屆的計算就和谷歌閉源大模型的結果打成平手。
不光如此,DFoT 是可以用任意長度的歷史生成影片的,並不像其他演算法一樣在訓練時就要指定特定歷史長度。作者還特意驗證了從經典擴散演算法微調而來的 DFoT 模型,發現一樣能獲得出色的效果。
無歷史引導下 DFoT 的效果。
接下來,作者開始驗證結合了歷史引導的 DfoT。
在 kinetics600 上,原有的任務是給定前 6 幀預測下面 11 幀。由於 DFoT 極其穩定,作者直接把 11 幀拓展到了 64 幀,並在 FVD 和 vBench 上大幅超過了之前的模型。同時,文中提出的 HG-f 可以在保持穩定性的情況下避免模型生成靜止的畫面。

kinetics 上的對比。

在 RealEstate10K 資料集上,論文更是斷崖式領先:在此之前,大部分演算法只能在該資料集上做到給定開頭結尾去插值中間幀,兩個最強閉源模型 LVSM 和 4DiM 的在給定第一幀預測影片的情況下最多隻能生成二三十幀。
而 Diffusion Forcing Transformer 和歷史引導直接做到了單圖生成近一千幀,並且提供了全套開源和 Huggingface 展示。
DFoT 可以在 RealEstate10K 上單圖生成近千幀。
總結
論文提出了 Diffusion Forcing Transformer (DFoT),一個能用任何歷史幀作為條件的影片擴散架構。DFoT 讓歷史引導 (History Guidance) 成為了可能,使得影片質量和長度都大幅增加。論文還涉及了大量其他內容,例如數學證明,魯棒性,組合性和機器人實驗等近四十頁。
作者提供的開源實現詳細提供了復現的所有步驟,並且在 Huggingface 上提供了線上體驗,感興趣的讀者可以直接根據論文主頁的連結在瀏覽器裡直接驗證論文效果。
Huggingface 地址:https://huggingface.co/spaces/kiwhansong/diffusion-forcing-transformer
此外,為了方便讀者們進一步學習瞭解該論文,我們邀請到了論文共同一作、MIT計算機系四年級博士生陳博遠於北京時間2月27日20:00直播解讀該研究,歡迎感興趣的讀者預約觀看。
分享嘉賓簡介:陳博遠是麻省理工大學計算機系四年級的博士生,師從Vincent Sitzmann教授和機器人大牛Russ Tedrake教授。陳博遠的研究興趣是世界模型,基於模型的強化學習與具身智慧,他希望透過在大影片模型來解決機器人動作規劃的問題,並在視覺領域上覆現大語言模型的推理和自我提升。陳博遠之前在Deepmind和Google X實習過,著有SpatialVLM, Diffusion Forcing等論文。
本次直播設有 QA 環節,歡迎加入本次直播交流群探討交流。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章