Text-to-Video 模型已展現出世界模擬器的潛力,這種潛力能革新傳統視覺任務嗎?
近日,賈佳亞團隊聯手 Adobe 團隊,用 GenProp(Generative Video Propagation)來給出答案。
GenProp 可以完成幾乎所有 “傳播”( Propagation)任務,即便是更接近感知任務的例項追蹤(Instance Tracking):
在人們的印象裡,追蹤(Tracking)問題已經得到了很好的解決。SOTA 方法 SAM 在大規模分割資料上經過了專門的訓練,精度很高。然而,傳統感知方法的資料標註很難覆蓋“千變萬化”的影子,強如 SAM 也會在這類問題上犯錯。
相比於 SAM v2.1,GenProp 展現出了生成模型特有的優勢:得益於 video generation 的基礎能力,模型可以完整地追蹤物體的 side effects,如狗和人的影子、反射等。
這給我們帶來了一些啟發:
-
能夠生成的視覺現象,是否都能夠被感知?
-
生成式的大規模預訓練,可能會彌補感知模型的一些缺陷。
GenProp 並不追求在某個問題上成為定量的 SOTA,而是希望能夠發揮生成模型的作用,拓展每個問題的邊界,展現之前方法做不到的事情。接下來,我們會看到 GenProp 對物體移除、影片補全、物體替換、背景替換、物體插入、影片外繪等問題的革新。
對於物體移除,傳統方法只能移除物體本身。和追蹤問題類似,GenProp 也可以同時移除物體產生的 side effects,如反射、影子。這對於傳統方法很困難,因為資料多變、難以收集,需要模型對物理規律有理解。


對於物體插入,GenProp 不僅能插入靜止物體,還可以產生合理的獨立運動,如行駛的賽車、掉落的檸檬(符合物理規律)。


對於物體替換,GenProp 不止能編輯外觀(appearance editing),還能大幅改變替換物體的形狀,例如熊變成羊,人變成石臺。而依靠 attention map 的傳統影片編輯方法,如 Video-P2P,都無法大幅改變形狀。


GenProp 還可以編輯特效,如使釣魚竿著火!須知,現階段的編輯演算法大多圍繞物體和場景,對於特效的編輯能力都較弱。


對於背景替換,GenProp 能使生成物體和新背景的相互作用,適應協調:


除此之外,GenProp 在沒有 outpainting 資料 pair 訓練的情況下,湧現出了 outpainting 的能力,可以補全大面積運動的區域,體現了模型的通用能力:


GenProp 允許使用者在初始幀上做任意修改,並據此生成後續變化的內容。
在推理過程中,GenProp 的框架透過選擇性內容編碼器(Selective Content Encoder,SCE)接收原始影片作為輸入,以保留未改變區域的內容。首幀所做的更改會透過 Image-to-Video(I2V)模型在整個影片中傳播,而其他區域則保持不變。

如圖所示,Selective Content Encoder 負責重建原始影片的資訊,Image-to-Video 模型負責生產新的影片資訊。透過調整 Injection Weight,可以控制生成和重建的比例。
GenProp 的框架在 I2V 生成模型的基礎上集成了選擇性內容編碼器(Selective Content Encoder,SCE)和掩碼預測解碼器(Mask Decoder),強制模型傳播編輯區域的同時,保留原始影片中其他所有區域的內容。透過 Copy & Paste 等合成數據,模型被訓練以傳播首幀中的各種變化,同時還可以預測每幀中被編輯區域的位置。

如圖所示,訓練過程中,僅需放開 Selective Content Encoder 和 Mask Decoder 的引數。合成數據只作為 Selective Content Encoder 的輸入,用於監督的模型輸出資料均採用原始影片,從而保證了模型輸出的影片質量不會被降低。這也意味著,原始影片的 caption 可以直接送入 text encoder。
具體來說,文章對例項分割資料採用了多種資料製造技術,針對不同的傳播子任務進行了設計:
-
Copy-and-Paste:從一個影片中隨機分割物體並貼上到另一個影片中,模擬物體移除;
-
Mask-and-Fill:對遮罩區域進行影像修復,模擬選定區域內的編輯效果;
-
Color Fill:用特定顏色填充遮罩區域,代表基本的物體跟蹤場景。
Copy & Paste 合成數據如圖所示(Video1 和 Video2 是隨機取樣的影片):

可以看出,GenProp 的資料對並無涵蓋所有的應用場景,但資料量很大。透過有限的構造資料,SCE 和 I2V 的分工得到了充分訓練,實現了“無限”應用,如特效編輯、outpainting 等。
除此之外,GenProp 提出了區域感知損失(Region-Aware Loss)。該 loss 透過限制梯度的方式,削弱了 SCE 對於編輯區域的影響,幫助模型將編輯區域與原始內容區分開來。

可以觀察到,在注意力圖視覺化過程中,注意力圖逐漸聚焦於要移除的區域(左邊的天鵝),引導 I2V 模型在這些區域內生成新內容,符合訓練的預期:

本文搭建了一個通用的框架,把影片生成模型轉變為編輯模型 GenProp,可將一幀的修改傳播到整個影片。對於去除任務,模型可去除物體的 side effects(如影子、反射)。對於修改任務,模型可修改物體的一小部分,也可進行較大形變的修改。對於背景修改,模型能夠生成物體和新背景的相互作用。對於物體插入,模型能夠允許物體獨立的運動。對於物體追蹤,模型能夠同時追蹤 side effects(如影子、反射)。此外,模型還湧現出瞭如 outpainting 等新能力。
論文地址:https://arxiv.org/pdf/2412.19761
專案地址:https://genprop.github.io/
影片地址:https://www.youtube.com/watch?v=GC8qfWzZG1M
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
