點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
轉載自:機器之心

論文第一作者為餘鑫,香港大學三年級博士生,通訊作者為香港大學齊曉娟教授。主要研究方向為生成模型及其在影像和 3D 中的應用,發表計算機視覺和圖形學頂級會議期刊論文數十篇,論文數次獲得 Oral, Spotlight 和 Best Paper Honorable Mention 等榮譽。此項研究工作為作者於 Adobe Research 的實習期間完成。
近年來,影像生成與編輯技術的快速發展,特別是擴散模型(Diffusion Models)的興起,使得影像編輯任務取得了顯著進展。然而,現有技術在實現影像中物體的移動、插入和移除時,仍存在諸多問題:比如物體在新位置的光照與陰影無法與環境真實協調,物體身份特徵發生失真,以及物體移動產生的空缺區域無法自然地補全。這些問題在複雜的真實場景中尤為突出。
為解決上述難題,Adobe 聯合香港大學提出了一種新型影像編輯模型 ——ObjectMover。該模型首次結合影片擴散模型(Video Diffusion Model)的強大先驗知識,並創新性地使用虛幻引擎(Unreal Engine)合成數據進行訓練,從而實現單張影像內物體的真實感移動。


-
論文題目:ObjectMover: Generative Object Movement with Video Prior -
論文連結:https://arxiv.org/abs/2503.08037 -
專案主頁:https://xinyu-andy.github.io/ObjMover
實驗結果與效果分析
ObjectMover 可統一地處理影像編輯中的三個常見任務:物體移動、物體刪除與物體插入。與以往方法不同的是,本文僅需使用者使用邊界框(Bounding Box)指定待編輯的物體及目標位置,無需額外標註(如文字指令或陰影標註),模型即可自動同步處理相關的物理效果(例如陰影、反射等)。
真實感的光影同步調整
如下圖所示,當移動水中人物時,ObjectMover 能夠自動同步調整水中倒影,並識別並調整人物身上的太陽光,使太陽光準確地照射在水面。

再例如下面這個異常困難的具有複雜陰影的例子。當雕像被移動後,其投射在地上的影子也被同步移動。需要注意的是,模型能夠識別哪一部分陰影屬於雕像,而不會移除其他物體的影子,並且還能補全之前被雕像陰影覆蓋的其他物體的陰影。此外,移動後雕像呈現出的透視角度也會隨位置變化而自然調整,且雕像背部原先被遮擋的區域自然地被新位置的太陽光照射。

此外,模型還能有效理解物體的材質特性。例如,下圖展示了透明酒杯移動的例項。當透明酒杯被移動後,模型不會簡單地複製酒杯原位置上透視看到的背景內容,而是精確地去除背景,僅保留酒杯自身的透明材質屬性。當酒杯被移動至新位置時,模型又能準確地透過酒杯重新生成與目標位置環境一致的新背景內容。這充分體現了模型對透明物體材質的深入理解。同時,模型還能夠自動補全原本不完整的酒杯杯體,生成完整的物體外觀。

綜上,ObjectMover 不僅實現了物體位置的簡單變化,更表現出顯著的物理規律理解能力。
多工處理,一個統一模型
得益於統一的條件輸入框架和多工訓練機制,ObjectMover 還能有效完成物體刪除與插入任務。如圖所示,刪除任務中,模型能夠真實地填充被移除物體的背景,而非生成不相干的新物體,並準確地移除光影;而在插入任務中,模型能精準保持被插入物體的身份特徵,自動生成與環境一致的光影效果。


實驗對比
實驗結果表明,ObjectMover 在物體移動、刪除和插入三個任務中均取得了明顯優於現有方法的影像質量與真實感。

研究方法與主要創新點
將影片擴散模型用於單幀影像編輯任務
傳統影像編輯方法一般微調單幀影像擴散模型,這些模型的預訓練階段僅關注單張影像,沒有學習到物體動態變化過程中的光影調整。而本文提出的核心創新在於,將物體移動任務視為序列到序列(Sequence-to-Sequence)的預測任務,首次應用了預訓練的影片擴散模型。
具體而言,本文透過將輸入影像、待移動物體、使用者指令與目標位置統一編碼為影片序列形式,以不改變模型原架構的前提下直接進行微調,充分利用了影片模型預訓練時習得的物理規律及物體對應關係(Object Correspondence),從而在影像編輯任務中實現了精確的光影同步與身份特徵保持。

首個利用虛幻引擎(Unreal Engine)生成合成資料進行影像編輯訓練
由於真實環境中難以獲取大規模精準標註的物體移動資料,傳統方法多依賴人工標註或資料改造,存在資料量不足和質量限制。為此,本文首次利用虛幻引擎生成了豐富、高質量的合成數據集,涵蓋了複雜的光照環境、多樣的物體型別及真實的物體與環境互動。

透過合成數據,本文得以模擬現實世界中多樣的物體移動場景,例如光照強弱變化、物體透視變化及遮擋區域真實補全效果等。此外,本文設計了多種移動軌跡與光照條件,確保模型學習到高度泛化的視覺先驗。

實驗結果證明,虛幻引擎生成的資料與影片預訓練模型的結合,有效提高了模型在真實影像編輯任務中的泛化能力。同時,本文提出了基於真實影片與合成數據的多工訓練策略,進一步增強模型的泛化表現。
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
