CVPR2025|GaussianCity：60倍加速，讓3D城市瞬間生成

想象一下，一座生機勃勃的 3D 城市在你眼前瞬間成型 —— 沒有漫長的計算，沒有龐大的儲存需求，只有極速的生成和驚人的細節。

然而，現實卻遠非如此。現有的 3D 城市生成方法，如基於 NeRF 的 CityDreamer [1]，雖然能夠生成逼真的城市場景，但渲染速度較慢，難以滿足遊戲、虛擬現實和自動駕駛模擬對即時性的需求。而自動駕駛的 World Models [2]，本應在虛擬城市中訓練 AI 駕駛員，卻因無法保持多視角一致性而步履維艱。

現在，新加坡南洋理工大學 S-Lab 的研究者們提出了 GaussianCity，該工作重新定義了無界 3D 城市生成，讓它變得 60 倍更快。過去，你需要數小時才能渲染一片城區，現在，僅需一次前向傳播，一座完整的 3D 城市便躍然眼前。無論是遊戲開發者、電影製作者，還是自動駕駛研究者，GaussianCity 都能讓他們以秒級的速度構建世界。

城市不該等待生成，未來應該即刻抵達。

🎥觀看Demo，發現GaussianCity與其他方法的顯著差異！

📄閱讀論文，深入瞭解GaussianCity的技術細節。

Paper：https://arxiv.org/abs/2406.06526
Code：https://github.com/hzxie/GaussianCity
Project Page：https://haozhexie.com/project/gaussian-city
Live Demo: https://huggingface.co/spaces/hzxie/gaussian-city

引言

3D 城市生成的探索正面臨著一個關鍵挑戰：如何在無限擴充套件的城市場景中實現高效渲染與逼真細節的兼得？現有基於 NeRF 的方法雖能生成細膩的城市景觀，但其計算成本極高，難以滿足大規模、即時生成的需求。近年來，3D Gaussian Splatting（3D-GS）[3] 憑藉其極高的渲染速度和優異的細節表現，成為物件級 3D 生成的新寵。然而，當嘗試將 3D-GS 擴充套件至無界 3D 城市時，面臨了儲存瓶頸和記憶體爆炸的問題：數十億個高斯點的計算需求輕易耗盡上百 GB 的視訊記憶體，使得城市級別的 3D-GS 生成幾乎無法實現。

為了解決這一難題，GaussianCity 應運而生，首個用於無邊界 3D 城市生成的生成式 3D Gaussian Splatting 框架。它的貢獻可以被歸納為：

透過創新性的 BEV-Point 表示，它將 3D 城市的複雜資訊高度壓縮，使得視訊記憶體佔用不再隨場景規模增長，從而避免了 3D-GS 中的記憶體瓶頸。
藉助空間感知 BEV-Point 解碼器，它能夠精準推測 3D 高斯屬性，高效生成複雜城市結構。
實驗表明，GaussianCity 不僅在街景視角和無人機視角下實現了更高質量的 3D 城市生成，還在推理速度上比 CityDreamer 快 60 倍，大幅提高了生成效率。

具體來說，得益於 BEV-Point 的緊湊表示，GaussianCity 可以在生成無界 3D 城市時保持視訊記憶體佔用的恆定，而傳統 3D-GS 方法在點數增加時視訊記憶體使用大幅上升（如下圖（b）所示）。同時，BEV-Point 在檔案儲存增長上也遠遠低於傳統方法（如下圖（c）所示）。不僅如此，GaussianCity 在生成質量和效率上都優於現有的 3D 城市生成方法，展現了其在大規模 3D 城市合成中的巨大潛力（如下圖（d）所示）。

方法

如上圖所示，GaussianCity 將 3D 城市生成過程分為三個主要階段：BEV-Point的初始化、特徵生成和解碼。

BEV-Point 初始化

在 3D-GS 中，所有 3D 高斯點在最佳化過程中都會使用一組預定義的引數進行初始化。然而，隨著場景規模的增加，視訊記憶體需求急劇上升，導致生成大規模場景變得不可行。為此，GaussianCity 採用 BEV-Point 進行最佳化，以緩解這一問題。

BEV 圖是生成 BEV-Point 的基礎，包含三個核心影像：高度圖（Height Map）、語義圖（Semantic Map）和密度圖（Density Map）。從BEV 圖中，BEV-Point被生成：

高度圖決定每個點在空間中的 3D 座標。
語義圖提供每個點的語義標籤，如建築、道路等。
密度圖調整取樣密度，根據不同區域的特徵決定是否增加或減少採樣點。

BEV-Point 透過只保留可見點大幅減少計算量。由於相機視角固定，場景中不可見的點不影響渲染結果，因而不佔用視訊記憶體。這樣，隨著場景擴充套件，視訊記憶體使用量保持恆定。

為了最佳化計算，二值密度圖根據語義類別調整取樣密度。對於簡單紋理（如道路、水域）減少密度，複雜紋理（如建築物）則增加密度。

透過射線交點（Ray Intersection）方法篩選出可見的 BEV-Point，確保僅這些點參與後續渲染和最佳化，進一步提升計算效率。

BEV-Point 特徵生成

在 BEV-Point 表示中，特徵可分為三大類：例項屬性、BEV-Point 屬性和樣式查詢表。

1.例項屬性

例項屬性包括每個例項的基本資訊，如例項標籤、大小和中心座標等。語義圖提供了每個 BEV 點的語義標籤。為了處理城市環境中建築物和車輛的多樣性，引入了例項圖來區分不同的例項。透過檢測連線元件（Connected Components）的方式，將語義圖進行例項化，從而得到每個例項的標籤、大小和邊界框的中心座標。

2.BEV-Point 屬性

在 BEV-Point 初始化時，生成了每個點的絕對座標，並設定其原點在世界座標系的中心。為了更精確地描述每個例項的相對位置，相對座標系被引入。其原點設定在每個例項的中心，並透過標準化的方式來計算相對座標。

為了融入更多的上下文資訊，場景特徵

從 BEV 圖中提取，並透過點的絕對座標進行索引，進一步為每個 BEV 點提供更豐富的上下文資訊。

3.樣式查詢表（Style Look-up Table）

在 3D-GS 中，每個 3D 高斯點的外觀都由其自身的屬性決定，導致儲存開銷隨著高斯點數量的增加而顯著增長，使得大規模場景的生成變得不可行。為了解決這一問題，BEV-Point 採用隱向量（Latent Vector）來編碼例項的外觀，使得相同的例項共享同一個隱向量，並透過樣式查詢表

為不同例項分配樣式，從而減少計算與儲存開銷。

BEV-Point 解碼

BEV-Point 解碼器用於從 BEV-Point 特徵生成高斯點屬性，主要包括五個模組：位置編碼器、點序列化器、Point Transformer、Modulated MLPs、以及高斯光柵化器。

1.位置編碼器（Positional Encoder）

為了更好地表達空間資訊，BEV-Point 座標和特徵不會直接輸入網路，而是經過位置編碼轉換為高維嵌入，從而提供更豐富的表徵能力。

2.點序列化器（Point Serializer）

BEV-Point 是無序點雲，直接用 MLP 可能無法充分利用其結構資訊。因此，我們引入點序列化方法，將點座標轉換為整數索引，使相鄰點在資料結構中更具空間連續性，最佳化資訊組織方式。

3.Point Transformer

序列化後的點特徵經過 Point Transformer V3 [10] 進一步提取上下文資訊，增強 BEV-Point 的全域性和區域性關係建模能力。

4.Modulated MLPs

在生成 3D 高斯點屬性時，MLP 結合 BEV-Point 特徵、Point Transformer 提取的特徵、例項的樣式編碼及標籤，以確保生成的高斯點具有一致的外觀和風格。

5.高斯光柵化器（Gaussian Rasterizer）

最終，結合相機引數，BEV-Point 生成的 3D 高斯點屬性透過高斯光柵化器進行渲染。對於未生成的某些屬性，如尺度、旋轉、透明度，則使用預設值填充。

實驗

下圖展示了 GaussianCity 和其他 SOTA 方法的對比，這些方法包括 PersistentNature [4]、SceneDreamer [5] 、InfiniCity [6] 和 CityDreamer [1]。實驗結果表明，GaussianCity 的效果明顯優於其他方法，相比於 CityDreamer 更是取得了 60 倍的加速。

在街景圖生成上，GaussianCity 在 KITTI-360 [7] 資料集上進行訓練，其生成效果超越了 GSN [8] 和 UrbanGIRAFFE [9] 等多種方法。

總結

本研究提出了 GaussianCity，首個針對無邊界 3D 城市生成的生成式 3D Gaussian Splatting 框架。透過引入創新性的 BEV-Point 表示，GaussianCity 在保證高效生成的同時，克服了傳統 3D-GS 方法在大規模場景生成中面臨的視訊記憶體瓶頸和儲存挑戰。該方法不僅實現了在街景和無人機視角下的高質量城市生成，還在推理速度上相比 CityDreamer 提升了 60 倍，顯著提高了生成效率。實驗結果表明，GaussianCity 能夠在確保細節還原的同時，高效處理無邊界 3D 城市生成，為大規模虛擬城市的即時合成開闢了新路徑。

參考文獻

[1] CityDreamer: Compositional Generative Model of Unbounded 3D Cities. CVPR 2024.

[2] A Survey of World Models for Autonomous Driving. arXiv 2501.11260.

[3] 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH 2023.

[4] Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.

[5] SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. TPAMI 2023.

[6] InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.

[7] KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding in 2D and 3D. TPAMI 2023.

[8] Unconstrained Scene Generation with Locally Conditioned Radiance Fields. ICCV 2021.

[9] UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative Neural Feature Fields. ICCV 2023.

[10] Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024.

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]

dignews.cc

CVPR2025|GaussianCity：60倍加速，讓3D城市瞬間生成

相關文章

CVPR2025|多視角視覺目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

CVPR2025|多視角目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

2024年終特輯|汽車產業的冰與火之歌

火力全開！智慧泊車邁入“黃金髮展期”

當AI四小龍的掌舵人，決定開始汽車創業的下半場

ICLR2025Spotlight|「免費」多模態資訊助力3D小樣本分割

ICLR2025|MM-FSS：多模態資訊助力3D小樣本分割

SiC，依然可期？

車企智慧駕駛的安全選項上，會不會出現“輕舟Inside”？

剛剛！352億對沖巨頭，官宣中國新總部…