賈佳亞團隊xAdobe提出GenProp，物體追蹤移除特效樣樣在行

作者 | 劉少騰

Text-to-Video 模型已展現出世界模擬器的潛力，這種潛力能革新傳統視覺任務嗎？

近日，賈佳亞團隊聯手 Adobe 團隊，用 GenProp（Generative Video Propagation）來給出答案。

GenProp 可以完成幾乎所有 “傳播”（ Propagation）任務，即便是更接近感知任務的例項追蹤（Instance Tracking）：

在人們的印象裡，追蹤（Tracking）問題已經得到了很好的解決。SOTA 方法 SAM 在大規模分割資料上經過了專門的訓練，精度很高。然而，傳統感知方法的資料標註很難覆蓋“千變萬化”的影子，強如 SAM 也會在這類問題上犯錯。

相比於 SAM v2.1，GenProp 展現出了生成模型特有的優勢：得益於 video generation 的基礎能力，模型可以完整地追蹤物體的 side effects，如狗和人的影子、反射等。

這給我們帶來了一些啟發：

能夠生成的視覺現象，是否都能夠被感知？
生成式的大規模預訓練，可能會彌補感知模型的一些缺陷。

GenProp 並不追求在某個問題上成為定量的 SOTA，而是希望能夠發揮生成模型的作用，拓展每個問題的邊界，展現之前方法做不到的事情。接下來，我們會看到 GenProp 對物體移除、影片補全、物體替換、背景替換、物體插入、影片外繪等問題的革新。

對於物體移除，傳統方法只能移除物體本身。和追蹤問題類似，GenProp 也可以同時移除物體產生的 side effects，如反射、影子。這對於傳統方法很困難，因為資料多變、難以收集，需要模型對物理規律有理解。

對於物體插入，GenProp 不僅能插入靜止物體，還可以產生合理的獨立運動，如行駛的賽車、掉落的檸檬（符合物理規律）。

對於物體替換，GenProp 不止能編輯外觀（appearance editing），還能大幅改變替換物體的形狀，例如熊變成羊，人變成石臺。而依靠 attention map 的傳統影片編輯方法，如 Video-P2P，都無法大幅改變形狀。

GenProp 還可以編輯特效，如使釣魚竿著火！須知，現階段的編輯演算法大多圍繞物體和場景，對於特效的編輯能力都較弱。

對於背景替換，GenProp 能使生成物體和新背景的相互作用，適應協調：

除此之外，GenProp 在沒有 outpainting 資料 pair 訓練的情況下，湧現出了 outpainting 的能力，可以補全大面積運動的區域，體現了模型的通用能力：

化繁為簡：通用框架與通用資料對

GenProp 允許使用者在初始幀上做任意修改，並據此生成後續變化的內容。

在推理過程中，GenProp 的框架透過選擇性內容編碼器（Selective Content Encoder，SCE）接收原始影片作為輸入，以保留未改變區域的內容。首幀所做的更改會透過 Image-to-Video（I2V）模型在整個影片中傳播，而其他區域則保持不變。

如圖所示，Selective Content Encoder 負責重建原始影片的資訊，Image-to-Video 模型負責生產新的影片資訊。透過調整 Injection Weight，可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基礎上集成了選擇性內容編碼器（Selective Content Encoder，SCE）和掩碼預測解碼器（Mask Decoder），強制模型傳播編輯區域的同時，保留原始影片中其他所有區域的內容。透過 Copy & Paste 等合成數據，模型被訓練以傳播首幀中的各種變化，同時還可以預測每幀中被編輯區域的位置。

如圖所示，訓練過程中，僅需放開 Selective Content Encoder 和 Mask Decoder 的引數。合成數據只作為 Selective Content Encoder 的輸入，用於監督的模型輸出資料均採用原始影片，從而保證了模型輸出的影片質量不會被降低。這也意味著，原始影片的 caption 可以直接送入 text encoder。

具體來說，文章對例項分割資料採用了多種資料製造技術，針對不同的傳播子任務進行了設計：

Copy-and-Paste：從一個影片中隨機分割物體並貼上到另一個影片中，模擬物體移除；
Mask-and-Fill：對遮罩區域進行影像修復，模擬選定區域內的編輯效果；
Color Fill：用特定顏色填充遮罩區域，代表基本的物體跟蹤場景。

Copy & Paste 合成數據如圖所示（Video1 和 Video2 是隨機取樣的影片）：

可以看出，GenProp 的資料對並無涵蓋所有的應用場景，但資料量很大。透過有限的構造資料，SCE 和 I2V 的分工得到了充分訓練，實現了“無限”應用，如特效編輯、outpainting 等。

除此之外，GenProp 提出了區域感知損失（Region-Aware Loss）。該 loss 透過限制梯度的方式，削弱了 SCE 對於編輯區域的影響，幫助模型將編輯區域與原始內容區分開來。

可以觀察到，在注意力圖視覺化過程中，注意力圖逐漸聚焦於要移除的區域（左邊的天鵝），引導 I2V 模型在這些區域內生成新內容，符合訓練的預期：

總結

本文搭建了一個通用的框架，把影片生成模型轉變為編輯模型 GenProp，可將一幀的修改傳播到整個影片。對於去除任務，模型可去除物體的 side effects（如影子、反射）。對於修改任務，模型可修改物體的一小部分，也可進行較大形變的修改。對於背景修改，模型能夠生成物體和新背景的相互作用。對於物體插入，模型能夠允許物體獨立的運動。對於物體追蹤，模型能夠同時追蹤 side effects（如影子、反射）。此外，模型還湧現出瞭如 outpainting 等新能力。

論文地址：https://arxiv.org/pdf/2412.19761

專案地址：https://genprop.github.io/

影片地址：https://www.youtube.com/watch?v=GC8qfWzZG1M

會議推薦

在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下，變革與機遇交織，挑戰與突破共生。2025 年 4 月 10 – 12 日，QCon 全球軟體開發大會將在北京召開，以 “智慧融合，引領未來” 為年度主題，匯聚各領域的技術先行者以及創新實踐者，為行業發展撥雲見日。現在報名可以享受 8 折優惠，單張門票立省 1360 元，詳情可聯絡票務經理 18514549229 諮詢。