CVPR2025|北大提出SLAM3R:基於單目影片的即時密集3D場景重建

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心

北京大學陳寶權團隊和香港大學等高校及業界機構聯合推出即時三維重建系統 SLAM3R,首次實現從長影片(單目 RGB 序列)中即時且高質量地重建場景的稠密點雲。SLAM3R 使用消費級顯示卡(如 4090D)即可達到 20+ FPS 的效能,重建點雲的準確度和完整度達到當前最先進水平,同時兼顧了執行效率和重建質量。該研究成果被 CVPR 2025 接收為 Highlight 論文,並在第四屆中國三維視覺大會(China3DV 2025)上被評選為年度最佳論文,合作者為董思言博士(共同一作)、王書哲博士、尹英達博士、楊言超助理教授和樊慶楠博士,第一作者為北京大學本科生劉宇政。
  • 論文標題:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
  • 論文地址:https://arxiv.org/pdf/2412.09401
  • 程式碼地址:https://github.com/PKU-VCL-3DV/SLAM3R
SLAM3R 的互動介面(影片經過加速)。使用者只需使用普通手機攝像頭拍攝 RGB 影片,即可透過部署於伺服器的 SLAM3R 系統即時重建出高質量的場景稠密點雲,將二維影片轉化為"可互動"、"可編輯"的三維世界。
在計算機視覺與機器人感知領域,基於單目攝像頭的高質量三維環境感知與重建一直是個極具挑戰性的課題——這主要是因為需要從有限的二維觀測中恢復在相機投影過程中丟失的三維空間資訊。過去的三十年間,研究者們建立了較為完善的多視角幾何理論和計算框架,通常依賴多種演算法的整合,包括運動恢復結構(Structure-from-Motion,簡稱 SfM)、同時定位和地圖構建(Simultaneous Localization and Mapping,簡稱 SLAM)以及多視角立體視覺(Multi-View Stereo,簡稱 MVS)等。
由於擁有紮實的數學原理和最佳化演算法作為"護城河",三維重建領域較少受到神經網路等深度學習方法的"入侵"。在傳統方法中,神經網路主要作為演算法流程的輔助模組,用於提升特徵匹配的魯棒性和深度估計的完整性。近年來,隨著以 DUSt3R 為代表的大型神經網路模型出現,這一傳統正規化正在改變:透過端到端的前饋神經網路,可以直接從多視角 RGB 影像預測三維幾何,避免了傳統方法中迭代最佳化所帶來的效率瓶頸。
SLAM3R(發音:/slæmər/)進一步革新了這一正規化的演進,首次將大模型應用於長影片序列的稠密重建任務。該方案透過前饋神經網路,將區域性多視角三維重建與全域性增量式座標配準無縫整合,為基於單目 RGB 影片輸入的稠密點雲重建提供了高效率解決方案,無需迭代最佳化相機引數或三維點雲。實驗結果表面,SLAM3R 不僅在多個數據集上展現出最先進的重建質量,還能在消費級顯示卡上保持 20+ FPS 的即時效能。更為重要的是,SLAM3R 的成功展示了純資料驅動的方法在長影片序列三維幾何感知任務中的潛力,為未來重建系統的研究提供了新思路。
SLAM3R 漸進式重建過程展示。輸入 RGB 影像序列(如左上圖所示)後,SLAM3R 首先進行區域性多視角三維重建(左下圖),然後執行全域性增量式座標配準(右圖),從而逐步構建完整場景的點雲模型。
三位一體的挑戰:準確、完整、高效
基於多視角幾何理論的傳統方法通常將三維重建分為兩個階段:首先透過 SLAM 或 SfM 演算法估計相機引數和場景結構,然後使用 MVS 演算法補充場景的幾何細節。這類方法雖然能夠獲得高質量的重建結果,但是需要離線最佳化等處理,因此即時效能較差。
近年來,DROID-SLAM 和 NICER-SLAM 等集成了相機定位和稠密重建的 SLAM 系統相繼問世。然而,這些系統或是重建質量不夠理想,或是無法達到即時執行的要求。DUSt3R 開創性地提出端到端的高效點雲重建,但其僅侷限於影像對(雙目),在影片場景下仍需全域性迭代最佳化,因而影響了效率。同期工作 Spann3R 雖將 DUSt3R 擴充套件為增量重建方式並提高了效率,但也帶來了明顯的累積誤差,降低了重建質量。
此外,重建的準確度和完整度之間存在著固有的權衡關係,導致當前重建系統難以同時實現準確、完整和高效這三個目標。因此,在單目影片稠密重建領域中,要同時達到高質量和高效率極具挑戰性。
SLAM3R:大模型時代背景下的即時稠密重建系統
DUSt3R 首次證明了大型神經網路模型的 Scaling Law 在雙目立體視覺中的可行性。SLAM3R 在此基礎上更進一步,透過引入傳統 SLAM 系統的經典設計理念,成功將大模型應用於長影片序列的稠密重建任務。這種端到端的方法不僅具有天然的高執行效率,而且經過大規模訓練後能達到高質量的重建效果,從而實現了一個在準確度、完整讀和效率方面都表現出色的三維重建系統。
SLAM3R 系統示意圖。給定單目 RGB 影片,SLAM3R 使用滑動視窗機制將其轉換為互有重疊的片段(稱為視窗)。每個視窗輸入至 Image-to-Points(I2P)網路,用於恢復區域性座標系中的稠密點雲。隨後,這些區域性點逐步輸入至 Local-to-World(L2W)網路,以建立全域性一致的場景模型。I2P 網路選擇一個關鍵幀作為參考建立區域性座標系,並利用視窗中的其餘幀估計該視窗的稠密點雲。第一個視窗用於建立世界座標系,之後 L2W 網路逐步融合後續視窗。在增量融合過程中,系統檢索最相關的已註冊關鍵幀作為參考,並整合新的關鍵幀。透過這個迭代過程,最終完成整個場景的重建。
SLAM3R 主要由兩個部分組成:Image-to-Points(I2P)網路和 Local-to-World(L2W)網路。I2P 網路負責從影片片段中恢復區域性座標系下的稠密點雲,而 L2W 網路則將區域性重建結果逐步註冊到全域性場景座標系中。在整個點雲重建過程中,系統直接使用網路在統一座標系中預測 3D 點雲,無需顯式計算相機引數和三角化場景點雲,從而避免了傳統重建方法中迭代最佳化等耗時的操作。
視窗內的多視角三維重建(I2P 網路)。在每個視窗內,選擇一幀作為關鍵幀來建立參考系,其餘幀(稱為支援幀)用於輔助該關鍵幀的重建。我們基於 DUSt3R 解碼器設計了關鍵幀解碼器,透過引入簡單的最大值池化操作來聚合多個支援幀的交叉注意力特徵,從而有效整合多視角資訊。這一改進在保持模型結構簡潔的同時具有多重優勢:1)繼承 DUSt3R 預訓練權重,從而保證預測質量;2)未引入過多計算開銷,保持即時效能;3)支援任意數量的影像輸入,具有良好的擴充套件性。
視窗間的增量式點雲註冊(L2W 網路)。視窗間的註冊與視窗內的重建相似,不同之處在於前者使用多幀重建結果作為參考系,用以輔助註冊新的關鍵幀。因此,L2W 採用了 I2P 的整體架構。在此基礎上,引入簡單的座標編碼器來處理點雲輸入,並透過逐層特徵疊加的方式注入解碼器。這種機制讓模型在解碼過程中持續接收幾何和座標系的雙重引導,既確保了資訊傳遞的充分性,又避免了複雜特徵互動設計帶來的計算負擔。這一設計巧妙地繼承了 DUSt3R 的座標轉換能力,並將其轉化為可控的註冊過程。
場景幀檢索模組。我們提出了一種前饋檢索機制,用於確定 L2W 網路在註冊新關鍵幀時所使用的參考幀。當 SLAM3R 系統需要呼叫 L2W 融合新視窗(關鍵幀)時,系統會先透過場景幀檢索模組從已註冊視窗中檢索 K 個最優參考幀,再將這些參考幀與新幀一同輸入 L2W 模型進行座標系轉換。這種設計既保持了全域性一致性,又有效緩解了傳統 SLAM 系統中的累積誤差問題。檢索模組透過在 I2P 網路中附加額外的輕量級 MLP 實現,完成前饋式快速檢索。
大規模訓練。SLAM3R 系統的各個模組均採用前饋式神經網路實現,最大程度地複用了 DUSt3R 大規模預訓練的權重,並在大規模影片資料集上進行訓練。具體來說,我們收集了約 85 萬個來自 ScanNet++、Aria Synthetic Environments 和 CO3D-v2 資料集的影片片段,使用 8 張 4090D 顯示卡進行訓練。訓練完成後,該系統可在單張 4090D 顯示卡上實現即時推理。
單目影片稠密重建邁入高質高效新時代
我們在室內場景資料集 7-Scenes 和 Replica 上評估了 SLAM3R。在重建速度較快(FPS 大於 1)的方法中,SLAM3R 實現了最佳的準確度和完整度。
7-Scenes(上方表格)和 Replica(下方表格)資料集的重建結果評估。我們以釐米為單位報告重建的準確度和完整性。FPS 欄目的顏色漸變從紅色變為黃色,再變為綠色,表示即時效能提升。
值得特別指出的是,即使沒有進行任何後續全域性最佳化,SLAM3R 的重建質量也達到了與需要複雜最佳化的離線方法相當的水平。這表明 SLAM3R 在準確度、完整度和執行效率三方面達到了理想的平衡。
SLAM3R 基於公開資料集與日常影片的場景重建結果展示。
未來展望
SLAM3R 在保持 20+ FPS 即時效能的同時,其重建質量可達到離線方法相近的水平,旨在推動三維重建向高質量、高效率方向發展。透過將傳統多階段的三維重建流程簡化為輕便的前饋網路,SLAM3R 降低了使用門檻,使三維重建有望從專業領域拓展至大眾化應用。隨著模型輕量化技術的突破,該方案未來有望進一步應用於移動終端,為三維資產快速獲取、通用人工智慧和具身智慧的落地提供基礎三維資料支援。
目前,SLAM3R 仍存在諸多侷限性。由於跳過了相機引數預測和最佳化等環節,SLAM3R 無法執行顯式的全域性最佳化(Bundle Adjustment)。因此,在大規模場景中,系統仍會受到累積誤差的影響。此外,基於場景重建推匯出的相機引數的精度仍不如專門針對相機定位的 SLAM 系統。解決這些侷限性是我們未來工作的重點。
歡迎試用!期待寶貴的意見和建議!

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章