V2M4團隊 投稿量子位 | 公眾號 QbitAI
只需一段影片,就可以直接生成可用的4D網格動畫?!
來自KAUST的研究團隊提出全新方法V2M4,能夠實現從單目影片直接生成高質量、顯式的4D網格動畫資源。這意味著無需NeRF/高斯點後處理,可直接匯入遊戲/圖形引擎。
該方法構建了一個系統化的多階段流程,涵蓋相機軌跡恢復、外觀最佳化、拓撲統一、紋理合成等關鍵步驟,讓影片“秒變模型”,大幅提升動畫與遊戲內容的生成效率與可用性。
論文已被ICCV 2025正式接收。

結果顯示,其生成的外觀和結構高度還原,平均每幀僅需約60秒處理,比現有方法顯著提速;而且還支援「長影片」,在300幀時長的影片上依然表現優異
影片生成4D動畫模型有多難?
從一段影片生成連續動畫網格資產,一直是視覺計算長期未解的問題:傳統動畫製作需依賴多攝像頭、動捕裝置、人工建模等高成本手段。隱式方法如NeRF雖能復現外觀,卻難以直接輸出拓撲一致的顯式網格。
而近期的原生3D生成模型能夠重建出高質量的3D網格,但常常存在姿態錯位、拓撲不一致、紋理閃爍等問題。
在該工作中,V2M4首次展示了利用原生3D生成模型,從單目影片生成可用4D網格動畫資產的可能性,並展現了其視覺效果與實用性。
V2M4提出一套系統化的五階段方法,直接從單目影片構建可編輯的4D網格動畫資產。該方法以“生成高質量顯式網格+拓撲一致+紋理統一”為目標,從結構、外觀、拓撲和時序角度逐步最佳化模型,輸出可直接用於圖形/遊戲引擎的4D動畫檔案。

相機軌跡恢復與網格重定位
由於原生3D生成模型輸出的每幀網格常處於標準座標系中心並且朝向固定,因此直接採用原生3D模型生成影片幀對應的3D網格會導致真實的平移和旋轉資訊的丟失,進而使得動畫無法還原物體在影片中的真實運動。
為解決該問題,V2M4設計了三階段相機估計策略,透過重建每幀影片的相機視角,進而將“相機運動”轉化為“網格運動”。
-
候選相機取樣+DreamSim評分:在物體周圍均勻取樣多個視角,渲染並與真實幀對比,挑選相似度最高的相機姿態。 -
DUSt3R點雲輔助估計:引入幾何基礎模型DUSt3R,透過預測點雲來推算出更穩定的相機位姿,再與取樣結果融合。 -
粒子群最佳化+梯度下降精調:用PSO演算法避免區域性最優,再以渲染出的掩模差異為最佳化目標,透過gradient descent精細調整最終相機引數。
最終,將估計得到的相機軌跡反向應用於每一幀3D網格,從而將網格從標準姿態中“還原”回影片中的真實空間位置,實現真實的動態建模。

外觀一致性最佳化:條件嵌入微調
即使完成空間對齊,初始生成的網格外觀往往與輸入影片存在一定外觀差異。為此,V2M4借鑑影像編輯中的null text optimization策略,對生成網路的條件嵌入進行微調,以DreamSim、LPIPS、MSE等指標衡量渲染結果與參考影片幀的相似度,從而最佳化嵌入向量,使生成的網格外觀更加貼合原影片,實現更高質量的外觀一致性。

拓撲對齊與結構一致性:幀間對齊+區域性約束
由於現有3D生成模型在每幀輸出中存在隨機性,相鄰幀的網格往往在拓撲結構上存在差異,例如頂點數量、邊的連線方式或面片組織均不一致。這類結構差異會嚴重阻礙動畫的連續性與可編輯性。為解決此問題,V2M4引入了逐幀配準與拓撲統一機制:以首幀網格為標準形態(rest pose),透過全域性剛體變換和區域性形變最佳化,逐步將其拓撲結構傳遞給所有後續幀。在配準過程中,該方法結合Chamfer距離、可微渲染損失與ARAP剛性形變約束,實現對整體姿態和區域性結構的精準調整。最終,所有幀網格不僅在形狀上保持高度連續性,更在拓撲層面實現完全一致,從而為後續紋理生成與時間插值奠定穩定基礎。
跨幀紋理一致性最佳化:共享UV提圖,消除閃爍與斷裂
為了確保動畫過程中外觀的一致性,V2M4為所有幀構建了一張共享的全域性紋理貼圖,避免了逐幀獨立紋理所帶來的色彩跳變與貼圖斷裂問題。由於前述拓撲統一後,各幀網格的結構保持一致,該方法以第一幀網格的UV展開作為所有幀的紋理基準,並基於多視角渲染最佳化貼圖細節。為提升與原影片匹配的區域性質量,該方法引入視角加權機制,對應影片幀的相機檢視被賦予更高權重。最終,實現外觀一致、幀間平滑的動畫體驗。
網格插幀與4D動畫匯出:輕量封裝,一鍵部署
為了提升動畫的時間連續性與軟體適配性,V2M4對生成的網格序列進行時間插幀與結構封裝。具體而言,該方法對關鍵幀網格的頂點位置進行線性插值,生成時序上更平滑的動畫序列,並進一步將其表示為:單個靜態網格,加上一組隨時間變化的頂點位移張量。最終結果被匯出為符合GLTF標準的動畫檔案,包含統一拓撲結構、共享紋理貼圖與頂點時序變形,可直接匯入Blender等主流圖形與遊戲引擎進行編輯與複用。由此,該方法實現了從影片到4D網格動畫資產的完整轉換路徑,具備視覺化、可編輯與實際應用相容性。
效果驗證與評估
為系統評估 V2M4 的效能,該工作在比以往更具挑戰性的影片資料上開展實驗,結合定量與定性對比,驗證其在重建質量、執行效率與泛化能力上的全面優勢。
定量對比:效能全面領先
該方法基於CLIP、LPIPS、FVD和DreamSim等主流指標,從語義一致性、視覺細節與時序流暢性等維度,評估輸入影片與重建網格渲染之間的匹配度,更貼近真實使用者感知。
與DreamMesh4D和Naive TRELLIS等方法相比,V2M4在Simple(輕微動作)及Complex(複雜動作)兩個資料集上各項指標均實現領先。同時,依託高效的插幀與紋理共享機制,平均每幀僅需約60秒即可完成重建,大幅優於現有方法。

視覺對比:結構更清晰、外觀更真實
在視覺效果方面,V2M4生成的網格在渲染細節、法線結構與跨幀一致性上表現更出色,不僅還原度高、拓撲完整,更能穩定生成連續、流暢的動畫,展現出優異的實用性與泛化能力。
論文連結:https://arxiv.org/abs/2503.09631
專案主頁:https://windvchen.github.io/V2M4
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —

🌟 點亮星標 🌟