PhysGen3D 實現了對靜態影像中物體的三維重建、物理屬性估計和使用者驅動的動態模擬。
作者丨陳博遠
你是否曾看著一張照片,想象“如果推一下這個蘋果,它會怎麼滾動?”或“如果捏一下這些毛絨玩具,它們會如何變形?”人類天生具備從靜態影像推理物理動態的能力,但AI卻長期難以實現這一認知飛躍。清華大學、伊利諾伊大學香檳分校和哥倫比亞大學的研究團隊提出PhysGen3D,首個從單張影像構建可互動物理3D世界的通用框架。該框架透過整合幾何重建、物理推理與模擬、真實感渲染等技術,實現了對靜態影像中物體的三維重建、物理屬性估計和使用者驅動的動態模擬,在物理合理性、使用者控制靈活性和渲染質量上超越現有影像到影片生成模型。
技術亮點:
-
單圖輸入:僅需一張RGB照片。
-
物理引數控制:調節彈性、摩擦係數、初始速度,兼顧自動推理和使用者指定。
-
多材質模擬:支援不同軟硬物體(如毛絨玩具和蘋果)、顆粒(如沙子)。
-
靈活應用:支援更換場景

論文題目:
PhysGen3D: Crafting a Miniature Interactive World from a Single Image
論文主頁:
https://by-luckk.github.io/PhysGen3D/
論文連結:
https://arxiv.org/abs/2503.20746
程式碼連結:
https://github.com/by-luckk/PhysGen3D
想象一下,當你看到一張靜物的照片時,是否曾好奇:推一下這個物體它會怎麼運動?按一下這個物體它會怎麼變形?這些"假設性"問題背後,是人類對物理世界的直覺推演能力。然而,當前AI生成技術卻面臨兩難困境——基於擴散模型的影像轉影片(I2V)雖能生成逼真的視覺效果,卻缺乏物理規律約束;而物理數字孿生技術雖能精確模擬互動,又受限於多視角資料採集的嚴苛要求。
現有AIGC影片模型(如Sora、Pika、Kling等)雖能生成驚豔的視覺效果,但使用者無法精準控制物體的運動軌跡和物理屬性,導致"所想未必所得"。另一方面,單影像物理建模方法常侷限於剛體運動或特定物體型別,難以實現複雜場景的普適性互動。這種技術斷層阻礙了AI對物理世界的深度理解與創造性應用。
為此,我們提出PhysGen3D,致力於突破單影像重建的物理互動瓶頸。透過融合視覺大模型的幾何理解能力與物質點法(MPM)的物理模擬引擎,僅憑單張影像即可構建可互動的3D數字孿生場景。這不僅讓使用者能自由設定初速度、材質屬性等物理引數,更透過物理約束保證動態演化的真實性,在虛擬世界中重建符合直覺的"因果律"。這項研究為連線計算機視覺與物理模擬開闢了新路徑,讓AI生成的動態內容真正紮根於物理現實的土壤。
我們的目標是從單張輸入影像重建一個微型的3D可互動世界。該任務面臨的核心挑戰在於單視角觀測的侷限性,以及在缺乏動態觀測資料時物理推理的欠定性。針對這些挑戰,我們提出了一種整體重建方法,利用預訓練視覺模型從單張影像聯合推斷幾何結構、動態材質、光照和基於物理的渲染(PBR)材質引數。重建後的場景將被輸入物質點法(MPM)模擬器,以生成逼真的物理現象。最後,我們基於模擬結果渲染動態物體行為,並將其重新整合到場景中,從而生成具有真實運動和視覺表現的影片。整體流程由下圖展示。

1、多模態聯合重建
本框架採用多模態協同推理,突破幾何重建、位姿估計、物理和渲染引數最佳化三大核心技術瓶頸,實現從單視角影像到物理可互動數字孿生的轉化。
a) 幾何解耦與重建
例項感知分割:利用GPT-4o的zero-shot能力識別獲取物體語義標籤,結合Grounded-SAM實現開放詞彙例項分割,生成物體的掩碼。三維幾何生成:採用與InstantMesh相同的框架實現單物體三維重建。對每個分割出的物體,利用Zero123++生成多視角影像,重建出每個物體的3D mesh模型。場景建模:採用Dust3R預測相機座標系下的單目深度

,使其儘可能地接近人類的注視軌跡S。利用LaMA模型補全被物體遮擋的空洞區域,構建完整的3D背景模型。對於相互遮擋的物體,採用迭代補全的修復策略恢復各自物體的完整幾何。
b) 物理約束的位姿估計
為解決生成的物體模型與恢復出的場景之間空間對齊的難題,提出兩階段最佳化策略。粗對齊:對每個生成的物體模型渲染多視角的圖片,透過SuperGlue匹配渲染圖和原圖的特徵點,採用PnP演算法求解物體模型的初始位姿引數。精調優:建立多模態聯合損失函式:

其中Mr、Zr為渲染結果,Mg、Zg為觀測值。使用可微分渲染,精確對齊物體姿態。
c) 物理和渲染引數最佳化
物理引數推理:使用GPT-4o估計每個物體的密度、楊氏模量 E 等先驗分佈。同時為了統一模擬器的尺寸,使用了無量綱化的方法,利用特徵長度消除尺度上的歧義。逆向材質最佳化:為實現光影一致性,使用Mitsuba渲染器構建可微分的渲染最佳化物體材質。首先基於DiffusionLight估計環境光照的球諧係數。然後在估計的環境光中,針對物體最佳化物理渲染(PBR)材質引數,包括反照率、金屬度和粗糙度等。本框架通過幾何-材質-物理的協同最佳化,在單圖重建中實現了多模態的聯合重建,確保物理模擬的穩定性。
2、物理模擬引擎
在動力學模擬部分,我們使用已推理出物理屬性和比例因子的3D資產,採用使用Taichi實現的物質點法(MPM)物理引擎。該模擬器具有強大的多材質支援能力,能夠準確模擬剛性體、軟體和顆粒物質等多種材質的物理行為。
a) 粒子表示
我們首先將3D資產轉換為適合模擬的粒子表示。在這一過程中,我們去除數值不穩定的浮點、填充實體內部以確保物質連續性。我們還根據模擬器網格尺寸進行自適應的體素降取樣處理。為了在保證模擬精度的同時最佳化渲染效果,我們優先保留表面的特徵點。
b) 物理引數
為了確保模擬系統的穩定性,我們創新性地採用了對物理引數施加比例因子而非直接縮放資產尺寸的方法。具體而言,我們修正了重力加速度、彈性模量等關鍵材料引數,使用比例因子同步縮放。這種無量綱化處理使得系統能夠在不損失物理真實性的前提下,適應不同尺度的模擬需求。在互動控制方面,系統支援根據使用者輸入的初始速度引數,為場景中的每個物體設定差異化的運動狀態,從而實現精確的運動軌跡控制。
c)特效模擬
除了基礎的物理模擬功能外,我們的系統還具備豐富的特效模擬能力。透過動態調整楊氏模量引數,可以逼真地模擬不同材質物體碰撞的效果;將材料型別切換為流體,則能實現物質熔融的視覺效果。這種靈活的引數調整機制賦予了使用者極大的創作自由度,使其能夠透過簡單的引數修改,就實現多樣化的物理效果模擬,大大拓展了系統的場景。
3、動態渲染合成
在完成動力學模擬後,我們獲取了物體點的運動軌跡,並透過運動插值技術實現對三維mesh模型的動態形變處理。基於最佳化後的基於物理的渲染(PBR)材質引數,我們採用Mitsuba3渲染引擎在環境光照條件下進行物理渲染。借鑑前人在場景合成渲染領域的研究成果,我們創新性地避免了將整個靜態背景匯入渲染管線這一傳統做法,而是透過背景深度圖構建出一個專門用於捕捉陰影的三維表面。在具體渲染過程中,採用陰影對映技術來精確提取動態物體投射的陰影和全域性光照效果。
最終,我們將經過物理模擬變形的前景物體與計算得到的陰影效果,透過影像合成融合到經過修復處理的背景影像上,從而生成具有真實光影表現力的最終影片輸出。這種方法不僅提升了渲染效率,更確保了動態物體與靜態場景在光照互動方面的物理一致性,使得合成結果在視覺上達到高度逼真的效果。
1、實驗設定
本研究的測試資料集涵蓋多種影像來源,包括自主拍攝、網路相簿及生成模型輸出,主要是包含單個或少量物體的中心化場景。出於方法的侷限性,我們排除了物體數量過多、深度交疊遮擋或表面幾何劇烈起伏的複雜場景。在後處理環節,我們引入VEnhancer增強模組作為可選流程,該模組能對生成的影片進行修復,可以部分提升畫面的細節表現力,但定量實驗也表明其可能引入非物理的偽影。在基準選擇上,由於現有物理模擬方案均需多視角輸入或特殊場景配置,我們主要與主流的影像轉影片(I2V)模型進行對比:開源運動控制模型DragAnything、MOFA-Video及商業級模型Kling 1.0透過人工標定運動軌跡實現精準控制;Gen-3與Pika 1.5則採用文字描述驅動,其中Pika 1.5額外支援"融化""收縮"等特效。
2、定性結果
我們的系統能夠從單張影像生成微型互動世界,實現多樣化物理現象的模擬模擬。下圖中,系統成功處理了包含單物體、多物體以及剛體/軟體等不同材質型別的輸入影像,並生成相應動態影片。
對比實驗:我們從運動控制與物理材質兩個維度進行對比分析。下圖對比了我們的模型和兩個閉源的影片生成模型,本系統在物理真實性與可控性方面展現出顯著優勢。基於學習的模型即使經過提示詞調優,仍常出現違揹物理規律或使用者意圖的虛假生成現象。
動態調控:下圖展示了同一輸入影像在不同引數配置下的多樣化動態生成效果。左側三組實驗保持物體初始位姿與速度一致,僅調整兩個物體的彈性引數,呈現出從剛性碰撞到彈性振盪的連續變化;右側三組則固定物理引數,透過改變速度方向產生截然不同的運動軌跡,驗證了系統對動力學引數的高精度控制能力。
場景編輯:如下圖所示,本方法支援對生成影片進行物體移除、新增與替換等編輯操作。得益於顯式三維表徵,重建的3D資產可被靈活操控。例如將兩個場景中的物體互換,保持了物理互動的連貫性。
運動追蹤:基於顯式三維表徵與粒子物理模擬器的協同工作,本框架可生成附帶精準三維運動追蹤資料的影片。下圖中的兩個案例分別展示了剛體旋轉軌跡與軟體形變場的追蹤結果。
3、定量結果
為評估生成影片的質量,我們構建了人工評測、GPT-4o自動評估與VBench標準化指標複合評價體系。針對人工與GPT-4o評估,我們制定了三項核心指標:(1)物理真實感(PhysReal):衡量影片是否符合物理規律,以及彈性、摩擦等材料屬性的真實表現;(2) 照片真實感(Photoreal):評估影片的視覺質量,包括光影連貫性、材質細節還原度與偽影控制;(3) 語義一致性(Align):檢驗生成內容與文字提示的意圖匹配程度。此外,我們選取VBench中的運動平滑度與成像質量作為量化指標。我們設計了包含27個場景的影片評測集,涵蓋不同運動條件與特效型別。

如上表展示的,本方法在物理真實感(PhysReal)與語義一致性(Align)指標上均顯著優於所有商業模型,其中GPT-4o評估結果與人工評測趨勢一致。本方法在物理合理性維度領先開源模型達37.5%。VBench資料顯示,本方法的運動平滑度(0.82)與成像質量(0.79)均達到SOTA水平。在基線模型中,Kling 1.0憑藉"運動筆刷"的軌跡控制功能表現最佳,但其物理真實感得分(3.12)仍低於本方法,凸顯了物理模擬引擎的獨特優勢。
本文提出的PhysGen3D框架主要適用於以物體為主的圖片,且要求場景空間結構相對簡單,對於包含複雜幾何關係與多重互動的全域性場景重建仍存在理論瓶頸。
我們實現了從靜態影像到可互動物理場景的跨維度轉化,透過三維重建、動態模擬與物理渲染的三元協同,形成了物理規律驅動的可控影片生成新正規化。我們的研究在運動真實性與材質多樣性方面實現顯著提升,期待後續研究在複雜場景重建、多物體互動等方向取得突破,推動數字孿生技術的縱深發展。

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
