4090玩轉大場景幾何重建，RGB渲染和幾何精度達SOTA｜上海AILab&西工大新研究

2025-08-08 06:54 量子位

CityGS-X團隊投稿量子位 | 公眾號 QbitAI

僅用4090就能實現大規模城市場景重建！

高效幾何重建新架構CityGS-X來了，透過一種新型並行化混合分層三維表徵架構（PH²-3D）的可擴充套件系統，突破了傳統三維重建在算力消耗和幾何精度上的限制。

算力瓶頸無處不在，當前3D高斯潑濺技術雖取得顯著進展，卻仍面臨三大核心挑戰：處理速度緩慢、計算成本高昂、幾何精度有限。

來自上海AI Lab和西工大的研究團隊認為，這些問題的根源在於其非結構化設計本質與並行化機制的缺失。

這就引出一個關鍵命題：能否構建一個兼具高效性、擴充套件性和精確性的新一代幾何重建框架？

由此，團隊提出了CityGS-X，研究的主要貢獻在於：

提出並行化混合層次三維表徵（PH²-3D）的可擴充套件架構，摒棄了傳統大場景分塊演算法造成的訓練冗餘，相比現有的SOTA幾何重建方法，訓練速度提升了一倍。
提出多工批渲染框架下的動態分配錨點的並行機制，在訓練階段以及渲染階段可以利用多張低端卡平替以及超越目前單張高階顯示卡，對於5000+圖的大場景（Matrixcity），只需4卡4090即可實現。
提出在模態批渲染框架下的漸進式RGB-深度-法向聯合訓練方法，在RGB渲染和幾何精度上都達到同類任務中的SOTA。

以下是更多細節。

CityGS-X的構建

CityGS-X提出基於並行化混合層次三維表徵（PH²-3D）的可擴充套件架構，摒棄傳統繁瑣的合併-分區流程，首創批處理級多工渲染機制；

開發動態多細節層次體素分配策略，實現視訊記憶體佔用與計算效率的平衡；

設計漸進式RGB-深度-法線聯合訓練方案，透過多視角約束與深度先驗的協同最佳化，顯著提升幾何一致性。

PH²-3D的設計

團隊提出一種基於分散式資料並行（DDP）正規化的可擴充套件三維表示方法，採用K層細節層次（LoDs）的混合結構來表徵大規模場景，其中每層級X_k X_k,1 X_k,v包含不同解析度的體素集合。

體素座標透過公式計算生成：

其中δ為初始體素尺寸，P為SfM得到的稀疏點雲。為實現多GPU負載均衡，團隊設計空間平均取樣策略將體素均勻分配到M個GPU上，滿足分配規則：

每個體素X_k,v^(m)關聯可學習嵌入F_v^(m)∈R、縮放因子l_v^(m)∈R、空間位置x_v^(m)和n個偏移量O_v^(m)∈R^n×3。透過多GPU共享的高斯解碼器de^(·)實現並行屬性預測：

其中

和

分別表示視角相對距離和觀察方向。

該設計透過顯式儲存高斯屬性和梯度同步機制，顯著降低視訊記憶體消耗和GPU間通訊開銷。

批處理級多工渲染機制

團隊採用批處理級多工渲染機制，首先將批次渲染影像分割為16×16畫素的圖塊，並基於Grendal-GS的自適應負載均衡策略分配到不同GPU。

在每塊渲染任務中，提出視角相關高斯遷移策略：並行搜尋所有GPU上各LoD層級的相交體素，預測對應高斯屬性（如公式所示），並遷移至任務分配GPU。

隨後各區塊遵循經典基於瓦片的光柵化並行渲染：

其中N為遷移高斯點數量，π(·)為遷移高斯重排序函式。

同時基於PGSR策略生成當前視角法線圖：

R_c^T表示相機到世界座標的旋轉矩陣，n_π(i)為第π(i)個重排序高斯的法線。

此外採用無偏深度渲染技術計算深度圖，將深度視為光線與高斯平面的交點：

D表示透過alpha混合的距離圖，d_π(i)為第π(i)個重排序高斯的距離，P為齊次座標表示，K^-1為相機內參逆矩陣。

傳統方法如MVGS受限於單GPU視訊記憶體需梯度累積，而多GPU並行機制可實現靈活擴充套件訓練批次。

批處理級連續性漸進訓練

作者提出三階段漸進式訓練策略：

階段一：批處理級RGB訓練

研究表明合適的批尺寸能提升神經網路效能。透過批次渲染多視角影像，作者將單視角RGB損失擴充套件為批處理級損失：

其中B為預設批尺寸,

和

分別為渲染影像和真實影像。

該策略使高斯解碼器能跨多視角更新梯度，有效緩解視角過擬合問題。

階段二：增強深度先驗訓練

基於最新單目深度估計器具有平滑連續的表面預測特性，作者提出改進方案：

1）透過最小二乘法恢復偽深度

的真實尺度

2）計算目標檢視與鄰近檢視的重投影誤差E

3）採用閾值τ_d過濾不一致區域，得到增強偽深度

批處理級深度正則化損失定義為：

階段三：批處理級幾何訓練

為修正小物體深度誤差，作者構建影像對：{(

,

),…,(

,

)}對每個影像對，7×7畫素塊中心點P_2n，透過單應矩陣，H_2n-1,2n對映到配對影像最小化塊間歸一化相關（NCC）誤差，

其中sg[·]表示梯度截斷，NCC(·)表示歸一化互相關。

實驗結果

以下是與主流方法的渲染指標對比（本文方法均使用4卡4090）：

深度圖視覺化結果：

對比試驗中，團隊在RGB渲染、深度渲染與其它方法對比，實驗表明CityGS-X在RGB渲染最優的情況下，深度圖也最準確，具有更少的浮點以及地面的空洞。

同時對於法線圖渲染，CityGS-X也展現出更準確的細節。

法線圖視覺化:

與目前的SOTA方法相比，CityGS-X在整體的mesh視覺化上都有顯著提升。

texture和mesh視覺化對比：

時間對比實驗結果：

F1分數對比實驗結果：

在MatriCity資料集上進行定量對比，CityGS-X在重建精度上有顯著提升，同時在訓練速度上也有明顯提升。

論文連結：https://arxiv.org/pdf/2503.23044專案主頁：https://lifuguan.github.io/CityGS-X/專案程式碼：https://github.com/gyy456/CityGS-X

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請於工作日發郵件到：

[email protected]

標題註明【投稿】，告訴我們：

你是誰，從哪來，投稿內容

附上論文/專案主頁連結，以及聯絡方式哦

我們會（儘量）及時回覆你

🌟 點亮星標 🌟

科技前沿進展每日見

相關文章

同中有異：GPU訓練與渲染技術探秘

同中有異：GPU訓練與渲染技術探秘

老黃5090都被初創公司虐了？印度CEO用20人團隊讓晶片快10倍、功耗大砍近80％！網友：等英偉達收購

老黃5090都被初創公司虐了？印度CEO用20人團隊讓晶片快10倍、功耗大砍近80％！網友：等英偉達收購

最強開源終端模擬器Ghostty正式釋出1.0：原生UI體驗、採用Zig編寫、速度飛快、支援Mac和Linux、支援GPU加速

最強開源終端模擬器Ghostty正式釋出1.0：原生UI體驗、採用Zig編寫、速度飛快、支援Mac和Linux、支援GPU加速

深度揭秘RTX5090八大看點：遊戲“兵器庫”逆天，將AI煉丹術塞到桌面

深度揭秘RTX5090八大看點：遊戲“兵器庫”逆天，將AI煉丹術塞到桌面

單圖秒變3D物件，還可互動即時編輯！StabilityAI中科大校友新作

單圖秒變3D物件，還可互動即時編輯！StabilityAI中科大校友新作

“十分”給力：Wine10.0重磅登場，超6000項改進，Linux執行Windows應用更上一層樓

“十分”給力：Wine10.0重磅登場，超6000項改進，Linux執行Windows應用更上一層樓

《哪吒2》的成功只是偶然？背後是國產動畫的技術革命！

《哪吒2》的成功只是偶然？背後是國產動畫的技術革命！

美國空軍六代機：F-47

美國空軍六代機：F-47

英偉達RTX5070評測解禁：老黃承諾4090級效能？不存在的

英偉達RTX5070評測解禁：老黃承諾4090級效能？不存在的

黃仁勳變身美隊，皮衣開光追，最強卡皇5090登場，全世界玩家都瘋狂了

黃仁勳變身美隊，皮衣開光追，最強卡皇5090登場，全世界玩家都瘋狂了

Copyright © 2025 | WordPress Theme by MH Themes