位元組影片生成新突破!Phantom搞定多人物/主體一致性

位元組智慧創作團隊 投稿

量子位 | 公眾號 QbitAI
影片生成模型當中已經不缺強者了,但保持多主體一致性依然是一項重大挑戰。
位元組智慧創作團隊專門針對這個問題,推出了主體一致性影片生成模型Phantom(“幻影”)。
Phantom在主體一致性保持方面取得了突破性進展,不僅支援多主體,還能同時保持主體的完整性。
無論是人物、物品、服裝、動物,還是充滿奇幻色彩的虛擬角色,它都能精準抓取其關鍵特徵,並自然地融入生成的影片中。
比如下面這段影片當中,“幻影”就結合了場景、服裝、配飾等要素,原創出了“歌劇魅影”的片段:

精準抓取關鍵特徵,影片融合更自然

身份保持影片生成

藉助面部參考影像,Phantom生成的影片不僅能嚴格鎖定主體的身份特徵,還能依據豐富多樣的提示詞,演繹出各種精彩內容。
例如,上傳一張人物照片,模型會以此為藍本,生成該人物在不同場景下說話、行動的影片。
人物的面部輪廓、五官細節以及獨特的表情神態,都能被高度還原,彷彿照片中的人物“活”了過來,在螢幕上真實地演繹著各種故事。

單參考主體影片生成

只需一張參考影像,無論是可愛小動物的萌態瞬間,還是時尚服裝的獨特魅力,亦或是神秘虛擬角色的奇幻冒險,Phantom都能精準捕捉主體的細節,將其生動地呈現在影片中。
還有下面的小狗照片,Phantom可以呈現它在溫馨的房間裡歡快奔跑的可愛模樣,柔軟的毛髮、靈動的眼神和俏皮的神態,都被細膩地刻畫出來,讓人彷彿能感受到活潑與快樂。

多參考主體影片生成

Phantom支援同時上傳多張參考影像,這一強大功能使得複雜互動場景的影片生成成為可能。
在群體場景創作中,只需上傳多個人物的照片,就能讓他們在影片中自然地聊天。
在一些產品展示的場景,結合產品圖片和相關場景圖片,Phantom能生成非常具有吸引力的產品展示影片,將產品的特點和優勢完美呈現,為產品推廣注入強大動力。
虛擬試穿場景,只需上傳服裝和人物照片,就能看到人物身著該服裝的動態效果,這有望為電商行業帶來全新的營銷模式,讓消費者的購物體驗更加直觀和有趣。
總之,Phantom在和一眾領先的商業化工具對比中,從影片質量,文字響應,主體一致性等多個維度處於優勢,尤其在人臉ID一致性方面的評估領先。

基於主體的DiT影片生成方案

目前,基礎影片生成模型主要集中在兩個主要任務——文字生成影片(Text-to-Video,T2V)和影像生成影片(Image-to-Video,I2V)。
影片生成T2V利用語言模型來理解輸入文字指令,並生成描述預期角色、動作和背景的視覺內容。
儘管它允許創造性和富有想象力的內容組合,但由於固有的隨機性,往往難以生成一直符合預期的結果。
另一方面,I2V通常是提供影像的首幀以及可選的文字描述,以將靜態影像轉化為動態影片。
雖然更具可控性,但內容的豐富度往往受到首幀“複製貼上”性質的限制。透過從影像中捕捉主體並根據文字提示靈活生成影片。
Phantom是一個基於DiT的影片生成框架,它的主要意圖是實現主體到影片的生成(Subject-to-video,S2V)。
其本質在於平衡文字和影像這兩種模式的提示,要求模型同時對齊文字指令和參考影像內容。
從而既滿足T2V所發揮創造性的優勢,又不像I2V生成的影片限制為輸入圖的延展。
具體來說,資料層面Phantom透過構建文字-圖片-影片三元組資料,讓模型學習不同模態之間的對齊。
為了緩解類似I2V生成影片“複製貼上”輸入圖的問題,透過匹配不同影片中的主體元素,並過濾掉具有高度視覺相似性的物件來構建交叉配對資料。
交叉配對資料可以來自同一長影片的不同片段,也可以來自資料庫中檢索參考物件。這些主體元素主要包括人、動物、物體、背景等等。
此外,多個元素之間的互動可以進一步對場景進行分類,例如多人互動、人與寵物互動、人與物體互動。
模型層面,Phantom繼承自MMDiT的架構。
在輸入頭部分,影片編碼器和文字編碼器分別繼承自基模權重,將輸入影片和文字prompt分別編碼得到相應的latent feature。
為了不影響MMDiT本身的結構,參考圖被特定視覺編碼器編碼,然後分別與影片特徵和文字特徵拼接,並分別輸入到MMDiT的vision branch和text branch進行計算。

團隊簡介

智慧創作團隊是字節跳動AI&多媒體技術中臺,透過建設領先的計算機視覺、音影片編輯、特效處理等技術,支援抖音、剪映、即夢等公司內眾多產品線;
同時透過火山引擎為外部ToB合作伙伴提供業界最前沿的智慧創作能力與行業解決方案。
文中示例僅為展示模型效果。如有侵權或冒犯,請聯絡論文作者,將及時刪除。
E-mail:[email protected]

論文連結:

https://arxiv.org/abs/2502.11079

專案網站:

https://phantom-video.github.io/Phantom/

程式碼網址:

https://github.com/Phantom-video/Phantom

—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章