ICLR2025|谷歌&港大提出SVG:基於擴散模型的雙目影片生成

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

論文:https://arxiv.org/abs/2407.00367
主頁:
https://daipengwa.github.io/SVG_ProjectPage/
圖1:影像矩陣以及生成的時間/空間維度影片
研究背景:
1)VR裝置的發展需要大量的虛擬現實內容來支撐,比如雙目影片。然而,儘管網際網路上單目影片資源豐富,雙目影片卻相對稀缺。
2)影片生成模型,例如Sora, 能夠生成高質量、逼真的單目影片內容,展現了生成式人工智慧在影片創作領域的巨大潛力。然而,現有影片模型聚焦於單目影片的生成,雙目/多視角影片生成領域仍處於探索的初期階段。
鑑於此,香港大學與谷歌的研究團隊首次探索並提出了基於擴散模型的雙目影片生成框架,無需額外訓練即可生成高質量的雙目影片。          
方法設計:
給定文字描述,該工作利用單目影片生成模型生成一段影片,或者直接以相機拍攝的單目影片作為起始視角(左視角);然後利用深度估計將左視角影片投影到目標視角下(右視角),並透過影片填充的方案來獲取右視角下的完整影片。該工作主要解決填充過程中的視角語義一致性以及邊緣處瑕疵來獲取高質量雙目影片生成結果。
1)基於投影和填充的新視角影片合成
如圖2所示,利用估計的影片深度資訊,左視角影片被投影到目標視角下,從而產生帶有未知區域的右視角影片。為獲取完整的右視角影片,該工作利用預訓練影片生成模型對未知區域進行填充,並保留已知區域的內容。在實踐中,該工作發現獨立地對右視角影片進行填充會引入視角語義不一致性的問題,如圖3中的馬頭所示。這是由於未知區域的填充存在無限的可能性,但並非所有填充結果都符合語義一致性或視覺合理性。
圖2: 基於預訓練影片生成模型的新視角影片合成方案
圖3: 左右視角缺乏語義一致性
2)基於影像矩陣的新視角影片合成
為增強左右視角之間的語義關聯性,該研究提出一種影像矩陣的表示方法。如圖4所示,該方法透過在左右視角之間插入多個虛擬相機來構建一個連續的視角過渡空間;該影像矩陣不僅包含時間維度(每一列),同時引入空間維度(每一行)來關聯左右視角。相較於圖2的單視角影片填充,影像矩陣同時進行時間和空間維度的填充可以生成更加合理的結果,如圖5所示。該工作的核心任務是雙目影片生成,因此僅提取影像矩陣最左和最右兩列作為輸出。當輸出整個影像矩陣時,可產生多視角影片生成結果。

圖4: 基於影像矩陣的新視角影片合成方案
圖5: 基於影像矩陣的新視角影片生成方法提升生成影片與原始影片之間的語義一致性
3)邊緣特徵重注入
在基於隱空間架構的影片生成模型中,原影片需經過降取樣並壓縮至隱空間中進行處理。然而,在影片填充任務中,降取樣過程會導致未知區域向已知區域滲透,從而導致未知區域與已知區域交界處的特徵(latent feature)質量顯著降低,最終體現為重建影片中存在明顯的視覺瑕疵,如圖7左側所示。針對這一問題,該研究提出一種邊界特徵重注入的方案,如圖6所示:透過在影像空間中將未知區域替換為預測的內容,並重新對影像進行降取樣操作,進而實現對交界處特徵的更新。如圖7右側所示,該方案能夠有效地效祛瑕疵

圖6: 邊界特徵重新注入方案

圖7: 有無邊緣特徵重新注入的結果比較
結果展示
該研究透過與動態場景視角合成方法(圖8第一行)和影片填充方法(圖8第二行)進行對比實驗,驗證了其在生成效果上的優勢。具體而言,動態場景視角合成方法由於缺乏生成能力,無法有效填充被遮擋區域,同時高度依賴精確的相機引數估計,而這在動態場景中極具挑戰性,導致生成結果存在明顯的空洞和失真。另一方面,現有的影片填充方法雖然能夠生成完整畫面,但往往產生質量較低且模糊的結果。此外,圖9展示多視角影片生成的實驗結果。
圖8: 與動態場景新視角合成方法以及影片填充方法的比較
圖9: 多視角影片生成

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章