ICML2025|SparseVideoGen:讓影片生成模型無損加速兩倍!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
自 OpenAI 釋出 Sora 以來,AI 影片生成技術進入快速爆發階段。憑藉擴散模型強大的生成能力,我們已經可以看到接近現實的影片生成效果。但在模型逼真度不斷提升的同時,速度瓶頸卻成為橫亙在大規模應用道路上的最大障礙。
當前最好的影片生成模型 Wan 2.1、HunyuanVideo 等,在單張 H100 GPU 上生成一個 5 秒的 720p 影片往往需要耗時 30 分鐘以上。主要瓶頸出現在 3D Full Attention 模組,約佔總推理時間的 80% 以上。
為了解決這個問題,來自加州伯克利和 MIT 的研究者們提出了聯合提出了一種新穎的解決方案:Sparse VideoGen。
  • 論文標題:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
  • 論文連結:https://arxiv.org/abs/2502.01776
  • 程式碼:https://github.com/svg-project/Sparse-VideoGenn
  • 網頁:https://svg-project.github.io/
這是一種完全無需重新訓練模型的影片生成加速方法。透過挖掘注意力機制中的空間與時間稀疏性,配合自適應稀疏選擇與運算元最佳化,成功將推理時間減半。令人驚訝的是,它生成的影片與 Dense Attention 方法相比,幾乎沒有肉眼可見的差別,保持極高的畫素保真度 (PSNR = 29)。Sparse VideoGen 也是第一個能夠達到這種級別的畫素保真度的方法。
目前,Sparse VideoGen 已經支援了 Wan 2.1, HunyuanVideo, CogVideoX 等多種 SOTA 開源模型,並且 T2V(文生影片),I2V(圖生影片)都可以加速。他們的所有程式碼均已開源。該工作已經被 ICML 2025 錄取。
擴散式影片生成的效能瓶頸
擴散模型(Diffusion Models)已經成為影像與影片生成的主流方案。特別是基於 Transformer 架構的 Video Diffusion Transformers(DiTs),在建模長時空依賴與視覺細節方面具有顯著優勢。然而,DiTs 模型的一大特徵 ——3D Full Attention—— 也帶來了巨大的計算負擔。每個 token 不僅要考慮當前幀的空間上下文,還要參與跨幀的時間建模。隨著解析度和幀數的提升,Attention 的計算複雜度以二次增長,遠高於普通影像生成模型。
例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 影片需要 29 分鐘,其中 Attention 計算佔據超過 80% 的時間。如此高昂的代價,大大限制了擴散影片模型在真實世界中的部署能力。
Sparse VideoGen 的核心設計
抓住 Attention 中的稀疏性
在 Video Diffusion Transformer 的 Attention Map 中存在兩種獨特的稀疏模式:空間稀疏性 (Spatial sparsity) 和時間稀疏性 (Temporal sparsity)。大多數 Attention Head 都可以歸類為其中之一,並可以相應地定義兩類 Attention Head:Spatial Head 和 Temporal Head。
Spatial Head – 關注空間鄰近的 Token
Spatial Head 主要關注相同幀及相鄰幀中的 Token,其 Attention Map 呈塊狀佈局,集中於主對角線附近。它負責建模區域性空間一致性,使得影像生成在幀內連貫。
Temporal Head – 關注不同幀中的相同 Token
Temporal Head 主要用於捕捉幀間的 Token 關係。其 Attention Map 呈斜線式佈局,並具有恆定步長。這種機制確保了時間一致性,即同一物體在多個幀中保持連貫。
這種 Attention 模式的解構,幫助模型在計算過程中識別哪些 token 是「重要的」,哪些可以忽略,從而構建稀疏注意力策略。
實現無損畫素保真度的關鍵
動態自適應的稀疏策略
儘管 Spatial Head 和 Temporal Head 分別解決了空間和時間一致性問題,但真正實現無損畫素保真度的關鍵在於最優地組合它們
在不同的去噪步驟(denoising steps)以及不同的生成提示(prompts)下,最優的稀疏策略可能會發生顯著變化。因此,靜態的稀疏模式無法保證最佳效果,必須採用動態、自適應的策略。
為此,Sparse VideoGen 採用了一種線上稀疏模式最佳化方法(Online Profiling),透過動態的決定 Attention Mask,用於動態決定每個注意力頭所採用的稀疏策略。
其方法如下:
1. 每一步推理過程中,隨機取樣極少量(僅 0.05%,約 64 個)的 Query Token;
2. 分別使用 Spatial 和 Temporal 兩種稀疏模式計算其注意力結果,並與 Dense Attention 對比誤差;
3. 為每個 Attention Head 選擇誤差最小的稀疏模式。
僅使用 64 個 Query Token(佔全部 token 總數的 0.1%),即可準確預測最優的稀疏模式。這種輕量級探索 + 區域性誤差擬合的策略,幾乎不增加額外計算開銷(<3%),但可在不同步驟下精準選取最優稀疏模式,從而最大限度保證畫質(PSNR > 29)且實現有效加速。
從運算元層最佳化稀疏計算
Layout Transformation + Kernel 加速
儘管利用稀疏效能夠顯著提升 Attention 速度,但如何達到最優的加速效果仍然是一大問題。尤其是 Temporal Head 的非連續記憶體訪問模式仍然對 GPU 的效能構成挑戰。 
Temporal Head(時間注意力頭)需要跨多個幀訪問相同空間位置的 token。然而,傳統的張量佈局通常是以幀為主(frame-major)的順序儲存資料,即同一幀的所有 token 連續儲存,而不同幀的相同位置的 token 則分散開來。
為了解決這一問題,Sparse VideoGen 引入了一種硬體友好的佈局轉換方法。該方法透過將張量從幀為主的佈局轉換為 token 為主(token-major)的佈局,使得 Temporal Head 所需的 token 在記憶體中呈現連續排列,從而優化了記憶體訪問模式。具體而言,這種轉換透過轉置操作實現,將原本分散的 token 重組為連續的記憶體塊,符合 GPU 的記憶體訪問特性。
這種佈局轉換不僅提高了記憶體訪問效率,還使得稀疏注意力計算能夠更好地利用 GPU 的平行計算能力。實驗結果表明,經過佈局轉換後,Sparse VideoGen 在 Temporal Head 上實現了接近理論極限的加速效果,顯著提升了整體推理速度。
除了注意力機制的最佳化,Sparse VideoGen 還對 Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)進行了定製化最佳化,以進一步提升推理效率。在標準實現中,QK-Norm 和 RoPE 的計算開銷較大,成為推理過程中的效能瓶頸之一。為此,研究者對這兩個模組進行了運算元最佳化,QK-Norm 的吞吐量在所有場景下均優於 PyTorch 的標準實現,平均加速比為 7.4 倍,。同樣地,定製化的 RoPE 實現也在所有幀數下表現出更高的吞吐量,平均加速比為 14.5 倍。
實驗成果
媲美原模型的畫質,顯著的推理速度提升
在 Wan2.1、HunyuanVideo 和 CogVideoX 上,Sparse VideoGen 展現出強大效能:
1. 在 H100 上將 HunyuanVideo 的推理時間從約 30 分鐘降至 15 分鐘以內;將 Wan 2.1 的推理時間從 30 分鐘將至 20 分鐘;
2. 保持 PSNR 穩定在 29dB 以上,接近 Dense Attention 輸出畫質;
3. 可無縫接入多種現有 SOTA 影片生成模型(Wan 2.1、CogVideoX、HunyuanVideo);
4. 同時支援 T2V(文字生成影片)和 I2V(影像生成影片)任務。
在未來,隨著影片擴散模型的複雜度進一步上升,如何在不損失視覺質量的前提下提升效率,將是核心問題之一。SVG 的工作展示了一條重要方向:結構理解 + 自適應稀疏性可能成為影片生成推理最佳化的黃金組合。
這一研究也在提示我們:影片生成模型不必一味追求更大,理解其內部結構規律,或許能帶來比擴容更可持續的效能突破。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章