影片可以精準控制了！一句話給熊戴眼鏡的那種，擴散模型立功，浙大悉尼科技大學出品|ICLR2025

ReLER Lab團隊

量子位 | 公眾號 QbitAI

如何讓你的模型能感知到影片的粒度，隨著你的心思想編輯哪就編輯哪呢？

Sora掀起了一股影片生成的熱潮，影片編輯作為影片生成的一個熱門方向一直飽受關注。但是以往的影片編輯方法主要關注影片的風格轉換，或者只編輯單一的目標。

如果使用者想要同時編輯影片的多個區域，大到多個目標，小到頭髮絲或者身體的一部分，應該怎麼辦呢？

來自悉尼科技大學的ReLER lab實驗室的同學和浙江大學的學者合作提出了一種多粒度影片編輯的任務，包括類別級、例項級和區域性級的影片編輯。

透過深入研究擴散模型內部的表徵空間，提出了VideoGrain的解決框架，無需任何訓練，即可實現文字到多個區域的控制，例項級別的特徵分離，在真實世界的影片上取得了最優效能。

論文已被ICLR 2025接收，是當天的HuggingFace daily paper top1。目前所有的資料集，模型，程式碼都已開源。

本文第一作者楊向鵬是悉尼科技大學的在讀博士生，主要研究方向為擴散模型、影片生成與編輯，師從浙江大學計算機學院楊易教授和朱霖潮副教授。

多粒度影片編輯是什麼？

首先來看看多粒度影片編輯是什麼，到底有什麼挑戰。

根據真實世界的影片粒度，受語義分割任務的啟迪，他們可以將影片的編輯分為三個的層次（粒度逐漸加深）：

(1)類別級編輯(Class Level)：編輯同一類別內的物件。（例如，將兩個男人變為“蜘蛛俠”，原影片中的兩人都屬於人這一類別，影片上方第二列所示）
(2)例項級編輯(Instance Level)：將影片中每個單獨的例項編輯為不同的物件。(例如，將左邊的男人編輯為“蜘蛛俠”，右邊的男人編輯為“北極熊”，影片上方第三列所示）
(3)區域性級編輯(Part Level)：對單個例項的特定元素進行部件級別的編輯，包括新增新的object和修改區域性屬性。（例如，在將右邊的男人編輯為“北極熊”時新增“太陽鏡”，影片上方第四列所示）。

儘管現有的方法採用了各種視覺一致性的表徵，比如檢測框(groundvdieo)或者特徵響應(TokenFlow)等等，但這些訊號沒有空間的感知能力，基於T2V模型的影片編輯，比如CVPR24的DMT，再至目前工業界的SOTA-Pika，仍然無法實現多粒度的影片編輯結果。

這裡的原因是什麼呢？

作者透過對擴散模型的特徵進行深入研究，說明了多粒度影片編輯的兩大挑戰。

1、特徵耦合：如圖(b)，在對inversion過程中的自注意力特徵進行聚類之後，可以發現：雖然聚類的結果是有清晰的佈局資訊的，但是無法“左邊的人”和“右邊的人“。當增加聚類的數量之後，會導致更細緻的分割結果比如頭，上半身，下半身，但仍然無法區分左右。因此，例項之間的特徵耦合影響了多粒度影片編輯中的有效性。
2、文字到多個區域的控制：使用SDEdit將同一類的兩個男人編輯為左邊鋼鐵俠，右邊蜘蛛俠，樹變成櫻花。結果如上圖(d)示，“鋼鐵俠”和“蜘蛛俠”的權重在左邊的人上重疊，“花朵”的權重洩漏到右邊的人上，導致了(c)中的編輯失敗。因此，另一個難點在於：能否調節交叉注意力以確保每個區域性編輯的權重準確分佈在預期區域。

VideoGrain整體框架

基於之前的觀察，交叉注意力的分佈和編輯的結果密切相關，而自注意力對於生成時間一致性的影片又十分重要。然而，一個區域內的畫素有可能關注到外部或者相似的區域，這對於多粒度的影片編輯造成了很大的挑戰。因此，需要去同時修改交叉和自注意力來讓每個畫素或者文字embedding只關注到正確的區域。

為了實現上述目標，團隊提出**ST-Layout Attention (時空佈局注意力機制），以一種unified的方式（即增強positive，減弱negative）來調節自注意力和交叉注意力。

具體來說，對於第i幀，他們修改Query-key對的condiation map:

調節交叉注意力(cross-attn)以實現文字到區域控制

在交叉注意力層中，文字特徵作為key和value，與來自video latents的query特徵進行互動。由於編輯目標的外觀和位置與交叉注意力的權重分佈密切相關，團隊目標是將每個例項的文字特徵聚集到想要去編輯的位置。

如上圖右側所示，在增加positive value和減去negative value後，“Spiderman”的原始交叉注意力權重（例如 p）被放大並集中在左邊的人身上。而“polar bear”的權重則集中在右邊的人身上。這表明他們調節將每個區域性文字提示的權重重新分配到目標區域上，實現了精確的文字到多個區域的控制。