SIGGRAPH2025|快手可靈團隊提出3D感知的可控電影級影片生成工作CineMaster!

Sora、可靈等影片生成模型令人驚豔的效能表現使得創作者僅依靠文字輸入就能夠創作出高質量的影片內容。然而,我們常見的電影片段通常是由導演在一個場景中精心佈置多個目標的運動、攝像機拍攝角度後再剪輯而成的。例如,在拍攝賽車追逐的場景時,鏡頭通常跟隨賽車運動,並透過扣人心絃的超車時刻來展示賽事的白熱化。而如今的影片生成模型無法實現 3D 場景中目標、相機聯合控制的文字到影片創作,限制了 AI 影視製作的能力。
近期,可靈研究團隊在「3D 感知可控影片生成」領域做出了首次嘗試,推出了電影級文字到影片生成框架 CineMaster,允許使用者在提供全域性文字描述的基礎上,透過提出的互動式工作流輔助使用者像專業導演一樣佈置場景,設定目標與相機的運動,指導模型生成使用者想要的影片內容。目前該論文已錄用於 SIGGRAPH 2025。
  • 論文標題:CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

  • 論文地址:https://arxiv.org/abs/2502.08639
  • 專案主頁:https://cinemaster-dev.github.io/

CineMaster 支援 3D 感知的目標、相機運動控制

a) 目標相機聯合控制
b) 目標運動控制
c) 相機運動控制
可以觀察到,CineMaster 可以根據使用者提供的多模態細粒度的控制訊號生成期望的影片,支援較大幅度的目標、相機運動的可控生成。

CineMaster 框架

CineMaster 透過兩階段的工作流,實現高度可控的文字到影片生成:
階段 1:構建 3D 感知的控制訊號。使用者可以透過互動式介面在 3D 空間中調整物體的邊界框(3D Bounding Box)和攝像機位置,這個過程類似於真實的電影拍攝過程,即導演多次調整演員在場景中的排布和相機的運動。隨後,匯出相機軌跡和每幀的投影深度圖,作為後續生成的條件訊號。
階段 2:如圖所示,該方法框架透過語義佈局 ControlNet 的架構集成了物體的運動控制訊號和物體的類別標籤資訊,從而明確地控制每個目標的運動。此外,透過 Camera Adapter 集成了相機運動控制訊號表示影片序列的全域性運動。

CineMaster 訓練資料構建流程

資料構建流程旨在從任意影片中提取 3D bounding boxes、類別標籤、影片相機軌跡,主要包含 4 個步驟:
  • 透過 Qwen2-VL 增強的實體描述提升開放詞彙目標檢測模型 Grounding DINO 的效能,並透過 SAM v2 實現影片例項分割;
  • 利用 DepthAnything V2 估計影片的絕對深度;
  • 在每個目標的 Mask 最大幀透過深度投影分割結果到點雲空間計算 3D bounding box;
  • 訪問由 Spatial Tracker 實現的 3D 點跟蹤結果,計算所有目標在影片序列中的 3D bounding box,並投影整個 3D 場景得到深度圖。
此外,該框架利用 MonST3R 計算了影片的相機軌跡。

對比結果

上圖中研究者將 CineMaster 與基線方法進行了比較。據觀察,基線方法無法顯式地關聯給定的運動條件和相應的目標,也存在目標運動和相機運動耦合的問題。而 CineMaster 可以合成符合文字提示、目標、相機控制訊號的高質量影片。請訪問專案主頁檢視影片結果。

總結

在本文中,研究者期望為使用者提供強大的 3D 感知的可控影片生成能力,讓使用者能夠像專業導演一樣創作。為此,首先設計了一個 3D 感知的互動工作流,允許使用者直觀地編輯目標和相機的運動;隨後開發了一個多模態條件控制影片生成模型,生成使用者想要的影片。此外,該方法精心設計了一套從任意影片中提取 3D 控制訊號的資料構建流程,為 3D 可控影片生成領域的研究提供了實踐經驗。
更多細節請參閱原論文。
快手視覺生成與互動中心 (Kuaishou Visual Generation and Interaction Center)是「可靈」影片生成大模型背後的核心團隊,主要技術方向是視覺內容生成和多模態互動。我們致力於透過計算機視覺/圖形學、多模態機器學習、XR/HCI等多領域的交叉,一方面幫助每個人更好的表達自己和創作優質內容,另一方面為每個人提供更好的內容體驗和互動方式。
我們長期招聘GenAI、多模態等方向的優秀人才(社招、校招、實習生),歡迎加入我們!
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章