PUGS專案組 投稿
量子位 | 公眾號 QbitAI
理解物體的物理屬性,對機器人執行操作十分重要,但是應該如何實現呢?
光輪智慧與清華AIR、同濟大學等機構聯合提出了一種基於3D高斯濺射的方法——
PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)
無需訓練、零樣本,它就能夠從多視角影像中重建物體,並對各種指定的物理屬性進行密集重建。
該論文已被ICRA 2025接收。

在非結構化環境中,準確理解物體的物理屬性不僅能幫助機器人更好地規劃抓取策略,還能避免因錯誤估計導致的操作失敗(比如下手太重導致物體損壞)。
現有的方法如NeRF2Physics利用NeRF來對物體進行重建,並結合視覺語言模型(VLM)與大語言模型(LLM)進行物理屬性預測。
但是,此類方法存在預測結果碎片化、物理屬性不連續不合理的問題。
研究團隊透過3D高斯濺射作為重建表徵,並引入區域感知特徵來增強區域區分的能力。
在此基礎上,結合基於VLM的物理屬性預測和基於特徵的屬性傳播,可以達到更好的物體重建和更加合理的物理屬性預測結果。
為了保持重建結果的幾何一致性,研究團隊還引入了幾何感知的正則化損失和稀疏損失,確保高斯分佈與物體的實際空間形狀分佈一致。
高斯濺射+視覺大模型,理解物理屬性
PUGS框架分為三個階段——形狀與區域感知的3DGS重建、基於視覺語言模型(VLM)的物理屬性預測,以及基於區域特徵的屬性傳播。
對於物體級別的物理屬性(例如質量),則還包含高斯體積積分模組以得到整體的物理屬性結果。

PUGS以物體的多視角影像作為輸入,同時允許給定需要預測的物體屬性(如密度、硬度係數、楊氏模量等),最終輸出則是物體的重建結果,其中包含了物體的RGB資訊,以及任意位置的物理屬性。
形狀與區域感知的3DGS重建
PUGS首先使用3DGS來從多視角RGB影像中重建物體。
但是原始的3DGS重建通常會出現Floater,這導致重建結果的細節表現不佳,並且在幾何的準確性上存在問題。
研究團隊參考現有方法,引入幾何感知的正則化損失和稀疏損失,損失項如下(如顯示不完整,請左右滑動):
其中,是影像中的畫素集合,是歸一化到0到1的影像梯度;
是基於畫素點的區域性平面計算得到的法向量,是基於PGSR提出的無偏深度渲染計算得到的法向量,是每個高斯的不透明度。
這裡是幾何感知的正則化損失,是稀疏損失。
前者透過兩種不同方式來渲染法線圖,並鼓勵輸出結果儘可能一致,從而確保高斯分佈與物體的實際空間形狀一致;
而後者則鼓勵每個高斯的不透明度靠近0或1,減少中間結果的存在。
引入幾何感知的正則損失(Geometry-Aware Regularization Loss, GARL)後,可以有效緩解Floater問題,增強幾何的準確性。

此外,PUGS還引入了區域感知的特徵對比損失,透過對比學習訓練高斯分佈的特徵,使其能夠區分物體的不同區域。
在現實場景中,物體表面可能存在不同的材料,如金屬、木材、塑膠等,而這些材料在物體上通常表現為不同的區域。
對區域的區分有助於提高物理屬性預測的準確性。
研究團隊首先向每個Gaussian上引入一個新的可學習特徵,並使用-blending來渲染出不同視角下的特徵圖,然後使用SAM對多視角影像進行分割,以區分物體的不同區域。
之後,利用對比學習來訓練該特徵。損失函式如下:
其中,表示兩個畫素是否屬於同一個區域,是兩個畫素點在特徵空間中的餘弦相似性。
直觀來說,如果兩個畫素點屬於同一個區域,那麼它們在特徵空間中的餘弦相似性應該越大越好,反之則應該越小越好。

△幾何感知損失與形狀感知特徵訓練的示意圖
基於VLM的物理屬性預測
在重建階段完成後,PUGS利用視覺語言模型(VLM)進行零樣本物理屬性預測。
NeRF2Physics採用兩階段的方法來進行物理屬性預測。
它首先透過VLM來從物體的影像預測物體的文字描述,然後將該文字描述輸入給LLM來預測材質和物理屬性。
與NeRF2Physics不同,PUGS直接使用VLM對多視角影像中的某一張進行材質和物理屬性預測,避免了影像到文字轉換過程中的資訊丟失。
該階段VLM輸出的結果包括物體可能的材質,以及這些材質的物理屬性範圍等。
這些屬性在後續會透過CLIP特徵傳播到重建的3DGS中。
基於區域特徵的屬性傳播
為了將預測的物理屬性傳播到重建結果中,PUGS使用CLIP特徵作為基礎進行對映,並使用區域感知特徵作為依據進行屬性傳播。
首先研究團隊從3DGS中隨機取樣一些高斯點作為source point,並計算這些source point投影到多視角影像上得到的patch對應的CLIP特徵。
這些特徵與上一階段得到的候選材質進行相似性的計算,以分配不同的材質到對應的source point上。計算方式如下:
其中,是source point 的物理屬性值,是source point 的CLIP特徵與候選材質的CLIP特徵之間的餘弦相似性,是一個溫度引數。

△基於形狀感知特徵的物理屬性傳播
為了完成密集的物理屬性預測,研究團隊使用區域特徵作為依據進行屬性傳播。計算方式如下:
其中,和分別是高斯和的區域感知特徵。
基於區域感知特徵的屬性傳播方式使得物理屬性預測結果更加均勻和精確。
高斯體積積分
透過上面三個階段,PUGS已經可以完成物體的重建以及密集的物理屬性預測,即在物體表面的每個點都能夠得到相應的物理屬性。
而對於物體級別的物理屬性(如質量),PUGS提出了基於高斯體積積分的模組來進行計算。
以物體質量的預測為例,透過上述階段,PUGS可以得到每個3D高斯點對應的物理屬性,即密度值。
之後每個3D高斯被視為一個3D橢球體,透過其不透明度進行加權,同時結合預測的密度值進行累積計算,得到物體的初步體積預測。
這個初步體積預測結果是存在誤差的,因為3DGS重建結果通常只會對物體的表面進行建模,而物體內部表現出空洞。
為了進一步提高精度,PUGS引入了“pure volume”概念,這代表一個物體忽略空洞區域後的體積,一般會遠小於通常意義下物體的體積。
PUGS透過提示VLM來獲取物體的pure volume,並以此修正最終的預測結果。
預測準確性大幅提升
定性結果顯示,NeRF2Physics的材質預測表現出碎片化等不合理的情況,PUGS的預測結果則更加準確和合理。

在物體的抓取實驗中,PUGS準確預測了一個棉布包裹的楊氏模量(0.5+GPa),使機械臂的夾持器能夠以合適的開口大小成功抓取物體。
相比之下,NeRF2Physics錯誤地預測了該物體的楊氏模量(30+GPa),導致夾持器開口接近物體寬度,最終抓取失敗。

研究團隊還在ABO-500資料集上進行了物體質量估計的實驗,並與NeRF2Physics進行了對比,結果PUGS在多個指標上都表現更優。

此外,研究團隊還對上述PUGS的Pipeline中的不同模組進行消融實驗,包括幾何感知的正則化損失、區域感知的特徵訓練以及基於高斯體積積分模組,結果表明這些模組都有助於提升定量結果。
其中不僅在ABO-500資料集上整體有所提升,並且在一些具有特殊特徵的物體上提升更加明顯。
下表的subset A指的是ABO-500中一些具有較為精細結構的物體組成的子集,而subset B指的是那些具有多種區域和材質的物體子集。
這表示幾何感知的正則化損失對具有精細結構的物體提升較大,而區域感知模組則對多種材質和區域的區分更加有效。

總之,PUGS不僅能夠準確重建物體的幾何形狀,還能保持物理屬性預測的材質一致性,這對於實際的機器人應用具有重要意義。
同時該重建結果也能夠作為一種攜帶相關物理屬性的重建資產,用於其他相關的下游任務。
論文地址:
https://arxiv.org/pdf/2502.12231
專案主頁:
https://evernorif.github.io/PUGS/
GitHub:
https://github.com/EverNorif/PUGS
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!