SIGGRAPH2025|即插即用!港中文、騰訊等提出首個雙分支影片修復框架VideoPainter

本文介紹了 VideoPainter,一種用於影片修復的雙分支框架,旨在實現高質量的影片內容恢復和編輯能力。
透過構建大規模(390K 影片片段)影片修復資料集,結合輕量級上下文編碼器(僅佔骨幹網路引數的 6%)和掩碼選擇性融合和修復區域 ID 重取樣等模型架構來增強可擴充套件性和長影片 ID 一致性。這些創新顯著提升了模型在背景保留和前景生成的平衡能力和時間連貫性,為影片修復和影片編輯設立了新標準。
相關論文VideoPainter: Any-length Video Inpainting and Editing with
Plug-and-Play Context Control 獲得 SIGGRAPH 2025 錄用,程式碼已開源。
▲ VideoPainter 功能展示
論文地址:
https://arxiv.org/abs/2503.05639
Demo 影片:
https://www.youtube.com/watch?v=HYzNfsD3A0s
專案主頁:
https://yxbian23.github.io/project/video-painter
專案程式碼和資料集:
https://github.com/TencentARC/VideoPainter
研究背景
影片修復(Video Inpainting)旨在恢復影片中的損壞區域,同時保持時間和空間上的連貫性,為視覺試穿、電影製作和影片編輯等應用提供支援。近年來,擴散變換器(Diffusion Transformers, DiT)在影片生成領域展現出巨大潛力,由此推動了生成式影片修復的探索。
▲ 模型架構對比
然而,如上圖所示,現有的影片修復方法主要分為兩類:
非生成式方法:依賴有限的畫素特徵傳播(物理約束或模型架構先驗),只能接受帶掩碼的影片作為輸入,無法生成完全被分割掩碼覆蓋的物體。
生成式方法:透過新增時間注意力機制擴充套件單分支影像修復架構到影片領域,但在單一模型中難以平衡背景保留和前景生成,且與原生影片 DiT 相比時間連貫性較差。
此外,兩種正規化都忽視了長影片修復,並且在處理長影片時難以保持一致的物體身份。
方法:VideoPainter
基於上述問題,VideoPainter 提出將影片修復分解為背景保留和前景生成兩個任務,並在 DiT 中採用雙分支架構。具體而言,VideoPainter 引入專用的上下文編碼器用於提取掩碼影片特徵,同時利用預訓練 DiT 的能力生成語義連貫的影片內容,同時考慮保留的背景和文字提示。
核心創新
輕量級上下文編碼器:僅包含預訓練 DiT 骨幹網路引數的 6%,實現第一個高效的雙分支影片修復架構。
分組式特徵融合和掩碼選擇性融合:確保高效且密集的背景引導。
修復區域 ID 重取樣技術:高效處理任意長度的影片,同時保持 ID 一致性。
VideoPainter 核心技術詳解
▲ VideoPainter 模型架構
1. 雙分支修復控制
VideoPainter 透過高效的上下文編碼器將掩碼影片特徵融入預訓練的擴散變換器(DiT),解耦背景上下文提取和前景生成。編碼器處理噪聲潛變數、掩碼影片潛變數和下采樣掩碼的連線輸入。
具體實現:
  • 輕量級設計:僅克隆預訓練 DiT 的前兩層,僅佔骨幹網路引數的 6%。
  • 分組式特徵融合:第一層特徵新增到骨幹網路的前半部分,第二層特徵融入後半部分。
  • 掩碼選擇性機制:預過濾過程中,僅新增代表純背景的標記,確保只有背景上下文融入骨幹網路。
2. 目標區域 ID 重取樣
為解決長影片中的身份一致性問題,VideoPainter 提出了創新的修復區域 ID 重取樣方法:
  • 訓練階段:凍結 DiT 和上下文編碼器,新增可訓練的 ID 重取樣介面卡。當前掩碼區域的標記與 KV 向量連線,透過額外的 KV 重取樣增強修復區域的 ID 保留
  • 推理階段:優先保持與前一片段修復區域的 ID 一致性,將前一片段的掩碼區域標記與當前 KV 向量連線,有效重取樣並維持長影片處理中的身份資訊
3. 即插即用控制
VideoPainter 的框架具備兩方面的即插即用多功能性:
  • 支援各種風格化骨幹網路或 LoRA
  • 相容文字到影片(T2V)和影像到影片(I2V)的 DiT 架構
特別是 I2V 相容性使其與現有影像修復功能無縫整合。使用 I2V DiT 骨幹網路時,VideoPainter 只需一個額外步驟:使用任何影像修復模型根據掩碼區域的文字描述生成初始幀。
VPData 資料集和 VPBench 基準構建流程
為了支援大規模訓練和全面的測試,VideoPainter 開發了一個可擴充套件的資料集構建流程,建立了迄今為止最大的影片修復資料集 VPData 和基準測試集 VPBench,包含超過 39 萬個片段,具有精確的分割掩碼和密集的文字描述。
▲ 資料集構建流程
構建流程包括五個關鍵步驟:
收集:從 Videvo 和 Pexels 等公共影片源獲取約 45 萬個影片
註釋:實現自動化註釋流程
  • 使用 Recognize Anything Model 進行開放式影片標記以識別主要物體
  • 基於檢測到的物體標籤,使用 Grounding DINO 檢測物體邊界框
  • 將這些邊界框作為 SAM2 的提示,生成高質量掩碼分割
分割:使用 PySceneDetect 識別場景轉換並分割掩碼序列,確保每個掩碼序列對應單個連續鏡頭,將序列分割為 10 秒間隔,丟棄短片段(<6 秒)
選擇:應用三個關鍵標準
  • 美學質量:使用 Laion-Aesthetic Score Predictor 評估
  • 運動強度:使用 RAFT 透過光流測量預測
  • 內容安全性:透過 Stable Diffusion 安全檢查器評估
生成描述:利用最先進的視覺語言模型 CogVLM2 和 GPT-4o,均勻取樣關鍵幀並生成密集的影片描述和掩碼物件的詳細描述
實驗結果
VideoPainter 在 DAVIS 和 VPBench 兩個基準測試集上進行了全面評估。結果表明,VideoPainter 在影片修復和影片編輯任務中均優於現有最先進的方法。
▲ VideoPainterInp
在標準和長影片修復任務中,VideoPainter 都取得了卓越的表現:
  • 非生成式方法 ProPainter 無法生成完全被掩碼覆蓋的物體
  • 生成式方法 COCOCO 在修復區域無法保持一致的 ID(如不一致的船隻外觀和突然的地形變化)
  • VideoPainter 能生成超過一分鐘的連貫影片,同時透過 ID 重取樣保持 ID 一致性
▲ VideoPainterEdit
在影片編輯任務中,VideoPainter 同樣表現優異,能夠生成無縫的動畫效果,保持平滑的時間過渡和精確的背景邊界。
總結與展望
VideoPainter 是第一個具備即插即用控制能力的雙分支影片修復框架,其三個關鍵創新為:
1. 與任何預訓練影片 DiT 相容的輕量級即插即用上下文編碼器
2. 維持長影片 ID 一致性的修復區域 ID 重取樣技術
3. 可擴充套件的資料集構建流程
雖然 VideoPainter 在影片修復和編輯任務中取得了卓越的表現,但仍存在一些限制:生成質量受基礎模型限制,可能在複雜物理和運動建模方面存在困難;在處理低質量掩碼或不匹配的影片描述時效果次優。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章