Shark 投稿
量子位 | 公眾號 QbitAI
從自動駕駛、機器人導航,到AR/VR等前沿應用,SLAM都是離不開的核心技術之一。
現有基於3D高斯分佈(3DGS)的SLAM方法雖在室內場景表現出色,但使用僅RGB輸入來處理無界的戶外場景仍然面臨挑戰:
-
準確的深度和尺度估計困難,這影響了姿態精度和3DGS初始化
-
影像重疊有限且視角單一,缺乏有效的約束,導致訓練難以收斂
為了解決上述挑戰,港科廣團隊提出全新解決方案——OpenGS-SLAM。僅憑RGB影像實現高精度定位與逼真場景重建。

△OpenGS-SLAM管線示意圖
具體來說,研究人員採用了一個點圖迴歸網路來生成幀間一致的點圖。
這些點圖儲存了來自多個標準視角的3D結構,包含了視角關係、2D到3D的對應關係和場景幾何資訊。這使得相機位姿估計更加穩健,有效緩解了預訓練深度網路的誤差問題。
此外,OpenGS-SLAM將相機位姿估計與3DGS渲染整合到一個端到端可微的管道中。透過這種方式,實現了位姿和3DGS引數的聯合最佳化,顯著提高了系統的跟蹤精度。
研究人員還設計了一種自適應比例對映器和動態學習率調整策略,能夠更準確地將點圖對映到3DGS地圖表示。
值得注意的是,在Waymo資料集上的實驗表明,OpenGS-SLAM將追蹤誤差降低至現有3DGS方法的9.8%。研究人員還在新視角合成任務上建立了一個新的基準,達到了最先進的結果。
基於3DGS表示的RGB-only SLAM系統
來看具體技術細節。
在OpenGS-SLAM的管線示意圖可以看到,每一幀都會輸入一張RGB影像用於追蹤。
當前幀和上一幀作為圖片對輸入到Pointmap迴歸網路進行位姿估計,隨後基於當前的3D高斯地圖進行位姿最佳化。
在關鍵幀處,系統執行地圖更新,並透過自適應尺度對映器(Adaptive Scale Mapper)對Pointmap進行處理,以插入新的3D高斯點。
此外,相機位姿與3D高斯地圖會在區域性視窗內進行聯合最佳化,確保更精準的追蹤與場景重建。
追蹤
幀間點圖迴歸與位姿估計
之前基於3DGS和NeRF的SLAM工作,主要集中在室內和小規模場景中,其中相機的運動幅度較小,視角密集。在這種情況下,NeRF或3DGS可以直接用於最佳化相機位姿。
然而,戶外場景通常涉及基於車輛的攝影,特徵是運動幅度較大且視角相對稀疏。這使得直接最佳化相機位姿難以收斂。
鑑於點圖包含視角關係、2D到3D的對應關係和場景幾何資訊,OpenGS-SLAM團隊提出了一種基於幀間點圖迴歸網路的位姿估計方法,旨在實現穩健且快速的當前幀相機位姿估計。
他們利用一個預訓練的點圖迴歸網路,該網路結合了ViT編碼器、帶有自注意力和交叉注意力層的Transformer解碼器以及一個MLP迴歸頭,生成連續幀影像的點圖。特別地,兩個影像分支之間的資訊共享有助於點圖的正確對齊。
儘管應用點圖可能看起來有些反直覺,但它能夠在影像空間中有效表示3D形狀,並且允許在不同視角的射線之間進行三角測量,而不受深度估計質量的限制。隨後,團隊使用穩健且廣泛應用的RANSAC和PnP來推斷兩幀之間的相對姿態

,使用這種方法,可以估計第k幀的位姿為:

。
位姿最佳化
為了實現精確的相機位姿追蹤,團隊基於3DGS可微光柵化管道,構建了一套可微的相機位姿最佳化方法。
定義光度損失為:

其中

表示每個畫素的可微渲染函式,透過高斯

和相機位姿

生成影像,

表示真實影像。光度損失

關於位姿

的梯度為:

透過這些步驟,利用渲染函式的微分,將增量位姿更新與光度損失緊密關聯。這一策略使得相機位姿能夠基於3DGS 渲染結果進行端到端最佳化,從而確保高精度且穩定的位姿跟蹤。
3DGS場景表示
研究人員使用3DGS作為場景表示,提出自適應尺度對映器(Adaptive Scale Mapper),在關鍵幀時為地圖插入新的高斯點。
利用先前獲得的點圖來對映3D高斯地圖,由於幀間點圖存在尺度不穩定的問題,研究人員基於點匹配關係計算連續幀之間的相對尺度變化因子,以確保整個場景的尺度一致性。
建圖
高斯地圖最佳化
管理一個區域性關鍵幀視窗

,以選擇觀察相同區域的非冗餘關鍵幀,為後續的建圖最佳化提供更高效的多視角約束。在每個關鍵幀上,透過聯合最佳化

視窗中的高斯屬性和相機位姿來實現區域性BA。
最佳化過程仍然透過最小化光度損失進行。為了減少高斯橢球體的過度拉伸,研究人員採用了各向同性正則化:

高斯地圖最佳化任務可以總結為:

自適應學習率調整
在經典的室內 SLAM 資料集中,相機通常圍繞小範圍場景運動並形成閉環,使高斯最佳化的學習率隨迭代次數逐漸衰減。然而,戶外資料由前向車輛相機捕獲,所經過區域不會重訪,因此需要不同的學習率衰減策略。
為此,研究人員提出了一種基於旋轉角度的自適應學習率調整策略:當車輛沿直路行駛時,學習率逐步衰減;在遇到坡道或轉彎時,動態提升學習率,以更有效地最佳化新場景。
首先,計算當前關鍵幀和上一關鍵幀之間的旋轉矩陣

和

,其相對旋轉矩陣為:

接著計算旋轉弧度:

接著將弧度

轉換為度數

,並根據以下公式調整累計迭代次數:

當旋轉角度達到90度時,累積迭代次數將被重置。
實驗結果
如下圖所示,在Waymo資料集的無界戶外場景上,OpenGS-SLAM能渲染高保真的新視角圖片,準確捕捉車輛、街道和建築物的細節。相比之下,MonoGS和GlORIE-SLAM存在渲染模糊和失真的問題。

如下圖所示,OpenGS-SLAM擁有明顯更優的追蹤效能,在面臨大轉彎時也能穩定收斂。

精度方面,OpenGS-SLAM在Waymo資料集上實現了新視角合成(NVS)的最佳效能。在追蹤精度方面,與GlORIE-SLAM相當;而相比同樣基於3DGS的SLAM方法MonoGS,OpenGS-SLAM誤差降低至 9.8%,顯著提升了系統的魯棒性和準確性。

消融研究結果顯示,自適應學習率調整和自適應尺度對映均對整體效能產生積極影響,而Pointmap迴歸網路更是本方法的核心支撐,對系統性能至關重要。

總結
OpenGS-SLAM是一種基於3DGS表示的RGB-only SLAM系統,適用於無界的戶外場景。
該方法將點圖迴歸網路與3DGS表示結合,確保精確的相機姿態跟蹤和出色的新檢視合成能力。
與其他基於3DGS的SLAM系統相比,該方法在戶外環境中提供了更高的跟蹤精度和魯棒性,使其在實際應用中具有較高的實用性。
論文連結:https://arxiv.org/abs/2502.15633
程式碼連結:https://github.com/3DAgentWorld/OpenGS-SLAM
官方主頁:https://3dagentworld.github.io/opengs-slam/
程式碼連結:https://github.com/3DAgentWorld/OpenGS-SLAM
官方主頁:https://3dagentworld.github.io/opengs-slam/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟