CVPR2025|突破現有極限！清北聯合提出鉸鏈物體的通用世界模型PartRM

基於當前觀察，預測鉸鏈物體的運動，尤其是 part-level 級別的運動，是實現世界模型的關鍵一步。儘管現在基於 diffusion 的方法取得了很多進展，但是這些方法存在處理效率低，同時缺乏三維感知等問題，難以投入真實環境中使用。

清華大學聯合北京大學提出了第一個基於重建模型的 part-level 運動的建模——PartRM。使用者給定單張輸入影像和對應的 drag ，PartRM 能生成觀測物體未來狀態的三維表徵，使得生成資料能夠真正服務於機器人操縱等任務。實驗證明 PartRM 在生成結果上都取得了顯著的提升。該研究已入選CVPR 2025。

論文標題：

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

論文連結：

https://arxiv.org/abs/2503.19913

程式碼連結：

ttps://github.com/GasaiYU/PartRM

論文主頁：

https://partrm.c7w.tech/

研究動機

世界模型是一種基於當前觀察和動作來預測未來狀態的函式。該模型的研發使得計算機能夠理解物理世界中的複雜規律，在機器人等領域得到了廣泛應用。

近期，對 part-level 的動態建模的興趣日益增長，給定當前時刻的觀察並給與使用者給定的拖拽，預測下一時刻的鉸鏈物體各個部件的運動受到越來越多的關注，這種型別的世界模型對於需要高精度的任務，例如機器人的操縱任務等，具有重要的意義。

然而，我們對這個充滿前景的領域的調研表明，目前的前沿研究（如 Puppet-Master）透過對預訓練的大規模影片擴散模型進行微調，以實現增加拖拽控制的功能。

儘管這種方法有效地利用了預訓練過程中學習到的豐富運動模式，但在實際應用中仍顯不足。其中一個主要侷限是它僅輸出單視角影片作為表示，而模擬器需要三維表示來從多個視角渲染場景。

此外，擴散去噪過程可能需要幾分鐘來模擬單個拖拽互動，這與為操作策略（Manipulation Policies）提供快速試錯反饋的目標相悖。

因此，我們需要採用三維表徵，為了實現從輸入單視角影像的快速三維重建，我們利用基於三維高斯潑濺（3DGS）的大規模重建模型，這些模型能以前饋方式從輸入影像預測三維高斯潑濺，使重建時間從傳統最佳化方法所需的幾分鐘減少到僅需幾秒鐘。

同時，透過將使用者指定的拖拽資訊加入到大規模三維重建網路中，我們實現了部件級別的動態建模。在這個問題中，我們認為聯合建模運動和幾何是至關重要的，因為部件級運動本質上與每個部件的幾何特性相關聯（例如，抽屜在開啟時通常沿其法線方向滑動）。這種整合使我們能夠實現更真實和可解釋的部件級動態表示。

同時，由於我們是第一個做這個任務的，在這個任務上缺少相關的資料集，因此我們基於 PartNet- Mobility 構建了 PartDrag-4D 資料集，並在這個資料集上建立了衡量對部件級別動態建模的基準（Benchmark），實驗結果表明，我們的方法在定量和定性上都取得了最好的效果。

▲ PartDrag-4D 資料集的構建

我們首先定義 PartRM 需要完成的任務，給定單張鉸鏈物體的影像 ot 和使用者指定的拖拽 at ，我們需要設計一個模型，完成

其中

是 Ot 在 at 作用下的三維表徵。

現有的資料集分為兩種，一種是隻含有

資料對，但是缺乏對應的三維表徵（比如 DragAPart 中提出的 Drag-a-Move 資料集）。還有一種是通用資料集，比如 Objaverse 中的動態資料，這種資料不止還有部件級別的運動，還會含有物體整體的變形等運動，不適合我們訓練。

因此，我們基於提供鉸鏈物體部件級別標註的 PartNet-Mobility 資料集構建了 PartDrag-4D 資料集。我們選取了 8 種鉸鏈物體（其中 7 種用於訓練， 1 種用於測試），共 738 個 mesh。

對於每個 mesh，如圖所示，我們使其中某個部件在兩種極限狀態（如完全閉合到完全開啟）間運動至 6 個狀態，同時將其他部分狀態設定為隨機，從而產生共 20548 個狀態，其中 20057 個用於訓練，491 個用於測試。

為渲染多視角影像，我們利用 Blender 為每個 mesh 渲染了 12 個視角的影像。對於兩個狀態之間拖拽資料的取樣，我們在鉸鏈物體運動部件的 Mesh 表面選取取樣點，並將兩個狀態中對應的取樣點投影至 2D 影像空間，即可獲得對應的拖拽資料。

PartRM 方法

方法概覽

上圖提供了 PartRM 方法的概述，給定一個單視角的鉸鏈物體的影像 ot 和對應的拖拽 at，我們的目標是生成對應的 3D 高斯潑濺

。

我們首先會利用多視角生成模型 Zero123++ 生成輸入的多視角影像，然後對輸入的拖拽在使用者希望移動的 Part 上進行傳播。這些多視角的影像和傳播後的拖拽會輸入進我們設計的網路中，這個網路會對輸入的拖拽進行多尺度的嵌入，然後將得到的嵌入拼接到重建網路的下采樣層中。

在訓練過程中，我們採用兩階段訓練方法，第一階段學習 Part 的運動，利用高斯庫裡的 3D 高斯進行監督，第二階段學習外觀，利用資料集裡的多視角影像進行監督。

影像和拖拽的預處理

影像預處理：由於我們的主網路是基於 LGM 設計的， LGM 需要多視角的影像作為輸入，所以我們需要將輸入的單視角影像變成多視角，我們利用多視角影像生成網路 Zero123++，為了使得 Zero123++ 生成的影像質量更高，我們會在訓練集上對其進行微調。

拖拽傳播：如果使用者只輸入一個拖拽，後續網路可能會對拖拽的區域產生幻覺從而出錯，因此我們需要對拖拽進行傳播到需要被拖拽部分的各個區域，使得後續網路感知到需要被拖拽的區域，為此我們設計了一個拖拽傳播策略。

如圖所示，我們首先拿使用者給定的拖拽的起始點輸入進 Segment Anything 模型中得到對應的被拖拽區域的掩碼，然後在這個掩碼區域內取樣一些點作為被傳播拖拽的起始點，這些被傳播的拖拽的強度和使用者給定的拖拽的強度一樣。

儘管在拖動強度大小的估計上可能存在不準確性，我們後續的模型仍然足夠穩健，能夠以資料驅動的方式學習生成預期的輸出。

拖拽嵌入

PartRM 重建網路的 UNet 部分沿用了 LGM 的網路架構，為了將上一步處理好的拖拽注入到重建網路中，我們設計了一個多尺度的拖拽嵌入。具體地，對於每一個拖拽，我們會將它的起始點和終止點先過一個 Fourier 嵌入，然後過一個三層的 MLP：

其中

代表第 i 個拖拽在第 l 層的嵌入，其餘部分設為 0。F 代表 Fourier 嵌入和 MLP ，

代表在 channel 維度上連線。得到第 l 層的嵌入後，我們將

和網路第 l 層的輸出 Ol 在 channel 維度上連線，並過一個卷積層，作為 Ol 的殘差加到 Ol 上作為下一層的輸入，具體地：

其中卷積層的引數全零初始化，

為第 l + 1 層的輸入。

兩階段訓練流程

為了保證對靜態 3D 物體外觀和幾何的建模能力，我們在預訓練的 LGM 基礎上構建了 PartRM。但直接在新資料集上微調會導致已有知識災難性遺忘，從而降低對真實場景資料的泛化能力。

為此，我們提出了兩階段學習方法：先專注於學習之前未涉及的運動資訊，再訓練外觀、幾何和運動資訊，以確保更好的效能。

運動學習階段：在運動學習階段，我們期望模型能夠學到由輸入的拖拽引起的運動。我們首先利用在我們的資料集上微調好的 LGM 去推理每個狀態 Mesh 對應的 3D 高斯潑濺表徵，拿這些作為監督資料我們第一階段的訓練。

對於兩個 3D 高斯之間的對應，我們利用 LGM 輸出的是一個 splatter image 這一優勢，即 LGM 會對 2D 影像的每一個畫素點學一個高斯潑濺，我們可以直接對監督資料和 PartRM 網路預測的輸出做畫素級別的 L2 損失，即：

其中 i 代表在 splatter image 裡的座標， GSi 和 GSj 均為每個畫素點對應的 14 維高斯球引數。

外觀學習階段：在運動學習階段之後，我們引入了一個額外的階段來聯合最佳化輸出的外觀，幾何以及部件級別的運動。這個階段我們會渲染我們輸出的 3D 高斯，利用資料集中提供的多視角影像計算一個損失，具體地：

實驗結果

實驗設定

我們在兩個資料集上來衡量我們提出的 PartRM 方法，這兩個資料集包括我們提出的 PartDrag-4D 資料集以及通用資料集 Objaverse-Animation-HQ。

因為 Objaverse-Animation-HQ 資料量比較大，我們只從其中取樣 15000 條資料，然後手動拆分訓練集和測試集。驗證時，我們對輸出的 3D 高斯渲染 8 個不同的視角，在這 8 個視角上算 PSNR ，SSIM 和 LPIPS 指標。

我們選用 DragAPart ， DiffEditor 和 Puppet-Master 作為我們的 baseline。對於不需要訓練的 DiffEditor 方法，我們直接拿它官方的訓練權重進行推理。對於需要訓練的 DragAPart 和 Puppet-Master，我們在訓練集上對他們進行微調。

由於現有的方法只能輸出 2D 影像，不能輸出 3D 表徵，為了和我們的任務對齊，我們設計了兩種方法。

第一種稱為 NVS-First，即我們首先對輸入的單視角影像利用 Zero123++ 生成多視角影像，再分別對每個視角結合每個視角對應的拖拽進行推理，生成對應的影像後再進行 3D 高斯重建。

第二種稱為 Drag-First，即我們首先先對輸入視角進行拖拽，然後對生成的結果利用 Zero123++ 進行多視角生成，最後進行 3D 高斯重建。

我們採用了兩種 3D 高斯重建方法，第一種為直接用 LGM （下圖中兩個時間的第一個）進行重建，第二種利用基於最佳化的 3D 高斯潑濺進行重建（下圖中兩個時間的第二個）。

定性比較

在視覺效果方面， PartRM 透過對外觀，幾何和運動的聯合建模，能夠在抽屜開合等場景中生成物理合理的三維表徵。

相比之下， DiffEditor 由於缺乏三維感知，導致部件形變錯位；DragAPart 雖然能夠處理簡單的關節運動，但在生成微波門板時出現了明顯的偽影等問題，同時在通用資料集上表現不佳；Puppet- Master 在外觀的時間連續性和運動部分的建模方面表現不佳。

在 in the wild 質量方面，我們從網際網路上採了一些資料，手動設定拖拽，利用我們在 PartDrag-4D 上訓練好的 PartRM 進行推理。圖中可以看到，我們的方法在一些和訓練資料分佈差別不大的資料上可以取得較好的效果；但是在一些分佈差別較大的資料上效果欠佳。

定量比較

定量評估中， PartRM 在 PSNR、SSIM、 LPIPS 指標上較基線模型均有提升；同時大幅提升了生成效率， PartRM 僅需 4 秒即可完成單次生成，而傳統方案需分步執行 2D 形變與三維重建。

總結

本文介紹了 PartRM，一種同時建模外觀、幾何和部件級運動的新方法。為了解決 4D 部件級運動學習中的資料稀缺問題，我們提出了 PartDrag-4D 資料集，提供了部件級動態的多視角影像。

實驗結果表明，我們的方法在部件運動學習上優於以往的方法，並且可應用於具身 AI 任務。然而，對於與訓練分佈差異較大的關節資料，可能會遇到挑戰。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

CVPR2025|突破現有極限！清北聯合提出鉸鏈物體的通用世界模型PartRM

相關文章

那些號稱「永遠免費」的軟體，永遠不要相信

震驚影片曝光！馬里蘭州髮型師因150元費用糾紛，強行拖拽15歲女孩

位元組憋的這個大招一夜爆火！

天工AI彩頁編輯器，讓我體驗了一把0幀起手

與野馬同行

FairviewMall出事了！華人女子被戴上手銬暴力拖拽！大批群眾圍觀！

三美軍士兵在立陶宛被發現死亡尚有一人下落不明

南京AI放大招：Agent平臺支援100+智慧體，跨系統呼叫成功率99.2％

中科聞歌釋出智川X-Agent平臺、優雅音影片大模型更新，領先技術加速AI普惠落地

留學圈大瓜！中國留學生考場內被警察拖走，遭控多項罪行！