ReLER Lab團隊
量子位 | 公眾號 QbitAI
如何讓你的模型能感知到影片的粒度,隨著你的心思想編輯哪就編輯哪呢?
Sora掀起了一股影片生成的熱潮,影片編輯作為影片生成的一個熱門方向一直飽受關注。但是以往的影片編輯方法主要關注影片的風格轉換,或者只編輯單一的目標。
如果使用者想要同時編輯影片的多個區域,大到多個目標,小到頭髮絲或者身體的一部分,應該怎麼辦呢?
來自悉尼科技大學的ReLER lab實驗室的同學和浙江大學的學者合作提出了一種多粒度影片編輯的任務,包括類別級、例項級和區域性級的影片編輯。
透過深入研究擴散模型內部的表徵空間,提出了VideoGrain的解決框架,無需任何訓練,即可實現文字到多個區域的控制,例項級別的特徵分離,在真實世界的影片上取得了最優效能。
論文已被ICLR 2025接收,是當天的HuggingFace daily paper top1。目前所有的資料集,模型,程式碼都已開源。

本文第一作者楊向鵬是悉尼科技大學的在讀博士生,主要研究方向為擴散模型、影片生成與編輯,師從浙江大學計算機學院楊易教授和朱霖潮副教授。
多粒度影片編輯是什麼?
首先來看看多粒度影片編輯是什麼,到底有什麼挑戰。

根據真實世界的影片粒度,受語義分割任務的啟迪,他們可以將影片的編輯分為三個的層次(粒度逐漸加深):
-
(1)類別級編輯(Class Level):編輯同一類別內的物件。(例如,將兩個男人變為“蜘蛛俠”,原影片中的兩人都屬於人這一類別,影片上方第二列所示)
-
(2)例項級編輯(Instance Level):將影片中每個單獨的例項編輯為不同的物件。(例如,將左邊的男人編輯為“蜘蛛俠”,右邊的男人編輯為“北極熊”,影片上方第三列所示)
-
(3)區域性級編輯(Part Level):對單個例項的特定元素進行部件級別的編輯,包括新增新的object和修改區域性屬性。(例如,在將右邊的男人編輯為“北極熊”時新增“太陽鏡”,影片上方第四列所示)。
儘管現有的方法採用了各種視覺一致性的表徵,比如檢測框(groundvdieo)或者特徵響應(TokenFlow)等等,但這些訊號沒有空間的感知能力,基於T2V模型的影片編輯,比如CVPR24的DMT,再至目前工業界的SOTA-Pika,仍然無法實現多粒度的影片編輯結果。

這裡的原因是什麼呢?
作者透過對擴散模型的特徵進行深入研究,說明了多粒度影片編輯的兩大挑戰。

-
1、特徵耦合:如圖(b),在對inversion過程中的自注意力特徵進行聚類之後,可以發現:雖然聚類的結果是有清晰的佈局資訊的,但是無法“左邊的人”和“右邊的人“。當增加聚類的數量之後,會導致更細緻的分割結果比如頭,上半身,下半身,但仍然無法區分左右。因此,例項之間的特徵耦合影響了多粒度影片編輯中的有效性。
-
2、文字到多個區域的控制:使用SDEdit將同一類的兩個男人編輯為左邊鋼鐵俠,右邊蜘蛛俠,樹變成櫻花。結果如上圖(d)示,“鋼鐵俠”和“蜘蛛俠”的權重在左邊的人上重疊,“花朵”的權重洩漏到右邊的人上,導致了(c)中的編輯失敗。因此,另一個難點在於:能否調節交叉注意力以確保每個區域性編輯的權重準確分佈在預期區域。
VideoGrain整體框架
基於之前的觀察,交叉注意力的分佈和編輯的結果密切相關,而自注意力對於生成時間一致性的影片又十分重要。然而,一個區域內的畫素有可能關注到外部或者相似的區域,這對於多粒度的影片編輯造成了很大的挑戰。因此,需要去同時修改交叉和自注意力來讓每個畫素或者文字embedding只關注到正確的區域。

為了實現上述目標,團隊提出**ST-Layout Attention (時空佈局注意力機制),以一種unified的方式(即增強positive,減弱negative)來調節自注意力和交叉注意力。
具體來說,對於第i幀,他們修改Query-key對的condiation map:

調節交叉注意力(cross-attn)以實現文字到區域控制

在交叉注意力層中,文字特徵作為key和value,與來自video latents的query特徵進行互動。由於編輯目標的外觀和位置與交叉注意力的權重分佈密切相關,團隊目標是將每個例項的文字特徵聚集到想要去編輯的位置。
如上圖右側所示,在增加positive value和減去negative value後,“Spiderman”的原始交叉注意力權重(例如 p)被放大並集中在左邊的人身上。而“polar bear”的權重則集中在右邊的人身上。這表明他們調節將每個區域性文字提示的權重重新分配到目標區域上,實現了精確的文字到多個區域的控制。
調節自注意力(self-attention)以保持特徵分離

為了使T2I模型SD適應T2V編輯,作者將整個影片視為“一個更大的影像”,用時空自注意力替換空間注意力。這增強了跨幀互動,並提供了更廣泛的視覺上下文。
然而,簡單的自注意力可能導致,模型關注不相關或相似的區域(例如,上圖底部,調節前左邊人的鼻子p同時關注到左右兩個人的鼻子),這會導致紋理混合。
為了解決這個問題,需要加強同一區域內的正向關注,並限制不同區域之間的負向互動。
如上圖右側所示,在應用自注意力調節後,來自左側人物鼻子的query特徵(例如p)僅關注左側的人,避免了對右側的人關注。這表明,自注意力調節打破了擴散模型原有的類別級特徵響應,確保了例項級甚至以上的特徵分離。
實驗結果
VideoGrain影片編輯結果
作者在涵蓋類別級、例項級和部分級編輯的影片上評估了VideoGrain。

首先VideoGrain可以保持背景不變,單獨的修左邊的人和右邊的人,或者同時修改兩個人。

例項級別:VideoGrain對動物例項也同樣有效,兩個猴子可以被分別修改為泰迪熊和金毛犬。
在複雜的非剛性運動場景中,例如打羽毛球。以前的方法往往在處理這種非剛性運動時表現不佳,VideoGrain可以成功編輯。此外,該方法還可以多區域編輯,既可以編輯前景也可以編輯背景,在手推車場景中,背景變為“森林中的湖上,長滿苔蘚的石橋”。
部件級別:VideoGrain可以做到在將當前人的身份修改為超人的同時,給超人加上墨鏡,這屬於新增加新的object。同時,也可以修改物體的原有部分屬性,比如小貓的頭改成橘色。

總體而言,對於多粒度編輯,VideoGrain表現出色。
定性和定量的比較
定性比較
下圖是VideoGrain與SOTA之間的比較,包括T2I和T2V方法的例項級和部分級編輯。

(1)部分級編輯:VideoGrain可以同時編輯太陽鏡和拳擊手套。ControlVideo編輯了手套,但在太陽鏡和運動一致性方面表現不佳。TokenFlow和DMT只編輯了太陽鏡,但未能修改手套或背景。

(2)人類例項:所有基於T2I的方法都將兩個人都編輯成鋼鐵俠。VideoGrain則可以分別編輯,將左側人物變成鋼鐵俠,右側人物轉變為猴子,打破了人類類別的限制。

(3)動物例項:即使是具有影片生成先驗的DMT,也仍然將熊貓和貴賓犬的特徵混合在一起。相比之下,VideoGrain成功地將一個編輯成熊貓,另一個編輯成貴賓犬。
定量比較

消融實驗
ST-Layout Attn的時間一致性:作為影片的編輯方法,時空一致性一直是及其重要的一點,VideoGrain可以在準確的編輯多個區域的情況下,充分的保證時間一致性,防止編輯目標的紋理的抖動或者不穩定。

定位概念+準確編輯
和最近twitter上很火的concept attention不同,該方法可以在localize concept(定位概念)的同時實現編輯:
目前,VideoGrain的資料和所有程式碼都已開源。
研究團隊表示,VideoGrain為擴散模型提供了新的影片編輯正規化,或將推動影片生成,擴散模型等領域以及影片編輯軟體出現更多,好玩有趣的應用。
目前,該團隊還在進一步的拓展影片生成方向,比如音影片的生成,影片的切換視角生成,以及電影級的多人物有聲長影片生成,歡迎工業界有資源的小夥伴合作與加入,共同探索影片生成的未來。
論文連結:https://arxiv.org/abs/2502.17258
專案主頁:https://knightyxp.github.io/VideoGrain_project_page
Github:https://github.com/knightyxp/VideoGrain
專案主頁:https://knightyxp.github.io/VideoGrain_project_page
Github:https://github.com/knightyxp/VideoGrain
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟