無需NeRF/高斯點後處理，影片秒變遊戲模型成現實！新方法平均每幀僅需60秒|ICCV2025

V2M4團隊投稿量子位 | 公眾號 QbitAI

只需一段影片，就可以直接生成可用的4D網格動畫？！

來自KAUST的研究團隊提出全新方法V2M4，能夠實現從單目影片直接生成高質量、顯式的4D網格動畫資源。這意味著無需NeRF/高斯點後處理，可直接匯入遊戲/圖形引擎。

該方法構建了一個系統化的多階段流程，涵蓋相機軌跡恢復、外觀最佳化、拓撲統一、紋理合成等關鍵步驟，讓影片“秒變模型”，大幅提升動畫與遊戲內容的生成效率與可用性。

論文已被ICCV 2025正式接收。

結果顯示，其生成的外觀和結構高度還原，平均每幀僅需約60秒處理，比現有方法顯著提速；而且還支援「長影片」，在300幀時長的影片上依然表現優異

影片生成4D動畫模型有多難？

從一段影片生成連續動畫網格資產，一直是視覺計算長期未解的問題：傳統動畫製作需依賴多攝像頭、動捕裝置、人工建模等高成本手段。隱式方法如NeRF雖能復現外觀，卻難以直接輸出拓撲一致的顯式網格。

而近期的原生3D生成模型能夠重建出高質量的3D網格，但常常存在姿態錯位、拓撲不一致、紋理閃爍等問題。

在該工作中，V2M4首次展示了利用原生3D生成模型，從單目影片生成可用4D網格動畫資產的可能性，並展現了其視覺效果與實用性。

V2M4提出一套系統化的五階段方法，直接從單目影片構建可編輯的4D網格動畫資產。該方法以“生成高質量顯式網格+拓撲一致+紋理統一”為目標，從結構、外觀、拓撲和時序角度逐步最佳化模型，輸出可直接用於圖形/遊戲引擎的4D動畫檔案。

相機軌跡恢復與網格重定位

由於原生3D生成模型輸出的每幀網格常處於標準座標系中心並且朝向固定，因此直接採用原生3D模型生成影片幀對應的3D網格會導致真實的平移和旋轉資訊的丟失，進而使得動畫無法還原物體在影片中的真實運動。

為解決該問題，V2M4設計了三階段相機估計策略，透過重建每幀影片的相機視角，進而將“相機運動”轉化為“網格運動”。

候選相機取樣+DreamSim評分：在物體周圍均勻取樣多個視角，渲染並與真實幀對比，挑選相似度最高的相機姿態。
DUSt3R點雲輔助估計：引入幾何基礎模型DUSt3R，透過預測點雲來推算出更穩定的相機位姿，再與取樣結果融合。
粒子群最佳化+梯度下降精調：用PSO演算法避免區域性最優，再以渲染出的掩模差異為最佳化目標，透過gradient descent精細調整最終相機引數。

最終，將估計得到的相機軌跡反向應用於每一幀3D網格，從而將網格從標準姿態中“還原”回影片中的真實空間位置，實現真實的動態建模。

外觀一致性最佳化：條件嵌入微調

即使完成空間對齊，初始生成的網格外觀往往與輸入影片存在一定外觀差異。為此，V2M4借鑑影像編輯中的null text optimization策略，對生成網路的條件嵌入進行微調，以DreamSim、LPIPS、MSE等指標衡量渲染結果與參考影片幀的相似度，從而最佳化嵌入向量，使生成的網格外觀更加貼合原影片，實現更高質量的外觀一致性。

拓撲對齊與結構一致性：幀間對齊+區域性約束

由於現有3D生成模型在每幀輸出中存在隨機性，相鄰幀的網格往往在拓撲結構上存在差異，例如頂點數量、邊的連線方式或面片組織均不一致。這類結構差異會嚴重阻礙動畫的連續性與可編輯性。為解決此問題，V2M4引入了逐幀配準與拓撲統一機制：以首幀網格為標準形態（rest pose），透過全域性剛體變換和區域性形變最佳化，逐步將其拓撲結構傳遞給所有後續幀。在配準過程中，該方法結合Chamfer距離、可微渲染損失與ARAP剛性形變約束，實現對整體姿態和區域性結構的精準調整。最終，所有幀網格不僅在形狀上保持高度連續性，更在拓撲層面實現完全一致，從而為後續紋理生成與時間插值奠定穩定基礎。

跨幀紋理一致性最佳化：共享UV提圖，消除閃爍與斷裂

為了確保動畫過程中外觀的一致性，V2M4為所有幀構建了一張共享的全域性紋理貼圖，避免了逐幀獨立紋理所帶來的色彩跳變與貼圖斷裂問題。由於前述拓撲統一後，各幀網格的結構保持一致，該方法以第一幀網格的UV展開作為所有幀的紋理基準，並基於多視角渲染最佳化貼圖細節。為提升與原影片匹配的區域性質量，該方法引入視角加權機制，對應影片幀的相機檢視被賦予更高權重。最終，實現外觀一致、幀間平滑的動畫體驗。

網格插幀與4D動畫匯出：輕量封裝，一鍵部署

為了提升動畫的時間連續性與軟體適配性，V2M4對生成的網格序列進行時間插幀與結構封裝。具體而言，該方法對關鍵幀網格的頂點位置進行線性插值，生成時序上更平滑的動畫序列，並進一步將其表示為：單個靜態網格，加上一組隨時間變化的頂點位移張量。最終結果被匯出為符合GLTF標準的動畫檔案，包含統一拓撲結構、共享紋理貼圖與頂點時序變形，可直接匯入Blender等主流圖形與遊戲引擎進行編輯與複用。由此，該方法實現了從影片到4D網格動畫資產的完整轉換路徑，具備視覺化、可編輯與實際應用相容性。