CVPR2025|SketchVideo:讓手繪動起來,影片生成進入線稿時代!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
近年來,生成式人工智慧的快速發展,在文字和影像生成領域都取得了很大的成功。影片生成作為 AIGC 的重要研究內容,在影視製作、短影片合成和虛擬模擬等方面都有應用價值。現有的商用和開源的影片生成模型,都能根據文字或影像輸入生成高質量的影片片段。
但是,僅依賴文字作為輸入,使用者難以精確控制幾何細節和場景佈局;若引入額外影像輸入,則面臨如何獲取輸入影像、難以精確控制運動資訊等問題。此外,在給定已有影片片段後,如何對區域性區域進行二次修改,並讓新生成的畫面與原始影片保持空間與時序一致,是亟待解決的問題。
近期,中國科學院大學,香港科技大學和快手可靈團隊研究人員提出了一種基於線稿的可控影片生成和編輯方法 SketchVideo [1],相關技術論文發表於 CVPR 2025。這一方法助力每一個人成為 AI 時代下的繪畫影視大師,透過寥寥數筆即可生成栩栩如生的動態影片結果。無論是從零開始生成影片,還是在真實影片上做區域性創意編輯,SketchVideo 都能讓你輕鬆駕馭動態畫面,釋放創作潛能。
  • 論文標題:SketchVideo: Sketch-based Video Generation and Editing
  • arXiv 地址:https://arxiv.org/pdf/2503.23284
  • 專案主頁:http://geometrylearning.com/SketchVideo/
  • GitHub 地址:https://github.com/IGLICT/SketchVideo
  • 影片 demo:https://www.youtube.com/watch?v=eo5DNiaGgiQ
先來看看使用 SketchVideo 的影片生成和編輯的效果!
圖 1 基於線稿的影片生成結果
圖 2 基於線稿的影片編輯結果
Part1 背景
近年來,AI 影片生成模型,如 Sora [2]、可靈 [3](商用模型)和 CogVideo [4]、Wan [5](開源模型)等,發展非常迅速。這些模型以文字及影像作為輸入生成高質量影片,但在可控性和編輯性等方面有仍有提升空間。
線稿作為一種直觀且易於使用的互動方式,已廣泛應用於各類生成任務。早期研究 [6] 將線稿引入生成對抗網路(GAN),以生成特定類別的影像。隨著擴散模型的發展,線稿控制也被引入到文生圖模型中,如 Stable Diffusion [7]。其中,ControlNet [8] 是一項代表性工作,它基於 UNet 結構,透過複製 UNet 中的編碼器作為控制網路,用於提取線稿特徵,從而實現對幾何細節的有效控制。
然而,影片生成模型在視訊記憶體佔用和計算開銷方面遠高於影像生成模型,且通常採用 DiT 架構 —— 由一系列 Transformer 模組串聯而成,缺少編碼器和解碼器結構。這使得直接將 ControlNet 方法遷移至影片生成模型 [9] 面臨挑戰:一是沒有明確的編碼器可用作控制網路,二是複製大規模引數會帶來過高的資源消耗。此外,讓使用者為影片的每一幀繪製線稿並不現實,因此更合理的做法是僅繪製一幀或兩幀關鍵幀。但如何將這些關鍵幀的控制訊號有效傳播至整段影片,仍是亟需解決的技術難題。
相比影片生成,基於線稿的影片編輯更側重於對區域性區域的修改,要求生成結果與周圍區域在空間和時間上保持一致,同時確保非編輯區域的內容不被破壞。現有方法多采用文字驅動的方式進行影片編輯 [10],或透過傳播第一幀的編輯結果到整段影片 [11]。然而,這些方法主要聚焦於整體風格變化,對於實現精確的區域性幾何編輯存在不足,仍需進一步探索。
Part2 演算法原理
圖 3 SketchVideo 的網路架構圖,生成和編輯流程
該工作基於預訓練的影片生成模型 CogVideo-2B(圖 3a 灰色部分),在其基礎上添加了可訓練的線稿控制網路(圖 3a 藍色部分),用於預測殘差特徵,從而實現基於線稿的可控影片生成。不同於 PixArt-δ[12] 中透過複製前半部分的 DiT 模組構建控制網路的做法,該工作提出了一種跳躍式殘差控制結構:將條件控制模組以固定間隔均勻嵌入至預訓練模型的不同層次,分別處理不同深度的特徵,提升控制能力的同時降低冗餘計算。具體而言,線稿控制模組 0 的權重初始化自原始模組 0,模組 1 初始化自模組 6,依此類推。該設計在顯著減少引數開銷的同時,仍保持了良好的控制效果。
在影片生成階段,使用者可輸入一幀或兩幀關鍵幀線稿,並指定其對應的時間點,以控制影片在特定時刻的幾何細節和影片整體的運動狀態。為了將這些關鍵幀的控制資訊有效傳播至整段影片,該方法引入了幀間注意力機制(圖 3 b):先透過一組由原始影片生成模型初始化的可訓練 DiT 模組(DiT Block (trainable copy))提取關鍵幀的控制特徵,再利用幀間相似性引導控制訊號以稀疏方式向其他幀傳播,最後透過前饋網路生成所有幀的殘差控制特徵,實現時序一致的線稿引導生成。
在影片編輯階段,控制網路除線稿外,還需額外接收原始影片及隨時間變化的矩形掩碼,用於標記編輯區域。在生成控制模組的基礎上,該方法新增了影片嵌入模組(圖 3c),用於提取非編輯區域的原始影片資訊,確保編輯結果在空間和時間上與周圍內容協調一致。由於原始影片不具備時間稀疏性,影片嵌入模組未採用幀間注意力機制。在推理階段,該方法還引入區域性融合策略,在隱空間中融合原始影片與編輯結果,實現對非編輯區域內容的精確保留。
在訓練方面,該方法使用配對的線稿和影片資料進行訓練,並額外引入線稿與靜態影像對,提升線稿控制網路在不同場景下的泛化能力。對於影片編輯任務,網路初始化使用基於線稿的影片生成模型的權重,並引入隨機生成的掩碼模擬實際編輯過程,從而訓練出具備高質量編輯能力的模型。
Part3 效果展示
如圖 4 所示,使用者可以繪製單幀線稿,並額外輸入文字描述,該方法可以生成高質量的影片結果。合成的影片結果在指定的時間點與線稿存在較好的對應性,並且具有良好的時序一致性。
圖 4 基於單幀線稿的影片生成結果
如圖 5 所示,使用者也可以繪製兩幀線稿,該方法也可以生成高質量的影片結果。透過兩個關鍵幀輸入,使用者不僅可以控制場景佈局和幾何細節,也可以控制物體的運動狀態,實現影片的定製化生成。
圖 5 基於兩幀線稿的影片生成結果
如圖 6 所示,給定真實的影片後,使用者可以指定編輯區域,並額外繪製線稿對區域性進行修改。該方法生成逼真的影片編輯效果,新生成的內容會隨著非編輯區域的運動(如樹枝的移動、頭部旋轉)一起變化,從而生成自然的影片結果。
圖 6 基於單幀線稿的影片編輯結果
如圖 7 所示,與影片生成類似,使用者在影片編輯的過程中,也可以繪製兩個關鍵幀對應的線稿,從而控制新新增物體的運動狀態,該方法依然生成較為真實的影片編輯效果。
圖 7 基於兩幀線稿的影片編輯結果
Part4 結語
隨著大模型和生成式人工智慧的迅速發展,AI 繪畫的能力已從靜態影像延伸至動態影片的生成。相較於生成二維影像,如何基於關鍵幀的手繪線稿,精準控制影片中物體的幾何細節與運動軌跡,成為重要的研究問題。SketchVideo 提出了一種有效的解決方案,透過線稿引導實現高質量的影片的生成和編輯,提高影片合成的可控性。
藉助該方法,使用者無需掌握複雜的專業影片處理軟體,也不比投入大量時間和精力,僅憑几筆簡單的線稿勾勒,便可以將想象變為現實,得到真實靈動的動態藝術作品。SketchVideo 工作已經被 CVPR 2025 接受。
參考文獻:
[1] Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao*. “SketchVideo: Sketch-based Video Generation and Editing.” CVPR 2025
[2] https://openai.com/sora/
[3] https://www.klingai.com/cn/
[4] Yang, Zhuoyi, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang et al. "Cogvideox: Text-to-video diffusion models with an expert transformer." arXiv preprint arXiv:2408.06072 (2024).
[5] Wang, Ang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu et al. "Wan: Open and advanced large-scale video generative models." arXiv preprint arXiv:2503.20314 (2025).
[6] Wang, Ting-Chun, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. "High-resolution image synthesis and semantic manipulation with conditional gans." CVPR 2018.
[7] Rombach, Robin, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. "High-resolution image synthesis with latent diffusion models." CVPR 2022.
[8] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." ICCV 2023.
[9] Guo, Yuwei, Ceyuan Yang, Anyi Rao, Maneesh Agrawala, Dahua Lin, and Bo Dai. "Sparsectrl: Adding sparse controls to text-to-video diffusion models." ECCV 2024.
[10] Cheng, Jiaxin, Tianjun Xiao, and Tong He. "Consistent video-to-video transfer using synthetic dataset." ICLR 2024
[11] Ku, Max, Cong Wei, Weiming Ren, Huan Yang, and Wenhu Chen. "Anyv2v: A plug-and-play framework for any video-to-video editing tasks.” arXiv e-prints (2024): arXiv-2403.
[12] Chen, Junsong, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, and Zhenguo Li. "Pixart-{\delta}: Fast and controllable image generation with latent consistency models." arXiv preprint arXiv:2401.05252 (2024).

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章