復旦、同濟等聯合提出基於深度強化學習的社群佈局生成方法

近年來，隨著 o1 或 Deepseek-r1 等推理模型在複雜決策和推理任務中的迅速發展，強化學習（Reinforcement Learning, RL）在模型訓練與推理最佳化中的價值越發凸顯。透過對龐大搜索空間進行有效探索與學習，RL 在機器決策和自動化設計等多個領域發揮了重要作用。

基於這一趨勢，我們希望將強化學習引入社群建築佈局生成這一更具挑戰性的場景，利用多智慧體協同來高效探索佈局空間並滿足多重設計需求。

建築佈局設計對建築師來說是一項耗時且勞動密集的任務，行業需要高度自動化的方法。與近來有較多研究的室內佈局生成相比，社群建築佈局生成由於建築間隔和容積率等限制而面臨更多挑戰。現有的依賴於規則或啟發式搜尋的演算法難以平衡這些因素。此外，缺乏用於評估的資料集。

我們為該任務定義狀態、動作空間和獎勵函式，提出了一種基於多智慧體強化學習的解法，以及一套用於評估社群建築佈局的指標，在現實世界場景中的實驗結果表明該方法的有效性。

本研究成果發表於 Knowledge and Information Systems（JCR Q2 國際期刊，致力於發表在知識與先進資訊系統領域熱門話題的前沿研究成果）。

論文標題：

Deep reinforcement learning for community architectural layout generation

論文連結：

https://link.springer.com/article/10.1007/s10115-024-02291-4

Introduction

建築佈局設計在城市設計 [1,2] 中起著重要作用，建築師需要花費大量時間對建築佈局設計進行規劃和調整。許多現有演算法主要側重於室內佈局圖的生成，比如 HouseGAN++ [3] 等，這些演算法受益於豐富的資料集如 RPLAN 和 LIFULL HOME，可以應用計算機視覺領域的生成式方法。

相比之下，社群建築佈局生成是在給定地塊邊界和建築引數的條件下，對建築物進行佈置並生成合理的建築佈局。如圖所示，該任務通常具有較低的自由度，受到建築物形狀、數量、間隔等的限制。此外，用於訓練的社群建築佈局資料集仍然不足。

Rule-based 方法是最直觀的 [4]，它們根據領域知識為建築物佈置設定規則。然而，定義這些規則可能非常困難。啟發式搜尋是解決最佳化問題的主要方法之一，Zheng 等人 [5] 探索了模擬退火演算法在生成建築佈局中的應用，呈現了在特定引數下的模擬地塊中的應用結果。

然而啟發式搜尋演算法很難滿足地塊和建築物的硬約束，且大規模地塊的搜尋空間巨大、耗時長。GAN 方法如 Sch-GAN [6] 應用 Pix2Pix [7] 模型根據給定的校園邊界自動生成校園佈局，但依賴於專家手動處理過的資料集，且難以精細約束。

在實踐中，建築師需要對建築物的位置進行多次決策，透過獲取當前決策的反饋資訊來逐步完善建築佈局，直到做出令人滿意的設計。這個過程可以很自然地被建模為強化學習問題。

儘管強化學習在諸多領域取得進展，但在建築佈局生成中面臨兩大挑戰：1）大規模動作空間導致策略學習困難，前期錯誤佈局會限制後續建築排布，難以滿足輸入引數要求；2）需平衡建築師設計中的多因素權衡，單一線性獎勵函式難以有效協調衝突目標。

本文提出方法的主要思路是訓練多智慧體（mutli-agent）來調整建築物的位置，以最佳化佈局設計。我們利用規則初始化地塊的結果來豐富 agent 的狀態。放置在地塊上的建築物由多智慧體來表示，它們會執行動作並調整位置。

獎勵函式是根據建築師在佈局時所考慮的各種因素（如均勻度和對齊度）設計的，並透過課程學習策略從全域性到區域性逐步訓練模型。此外，我們還提出了計算這些因素的定量方法。

Problem Formulation

社群建築佈局任務定義為：給定一個地塊邊界和需要放置的建築列表，包括各型別建築的尺寸和需放置的數量，以及建築的最小橫縱間距，期望輸出所有放置建築的中心點座標。

其中，P_exterior 表示外邊界，所有建築需要放置在外邊界內；P_interior 表示內邊界，用來標明不可排布的區域（如公共綠化等）。

Methodology

方法的框架如圖所示。基於輸入的建築引數，為每個智慧體（agent）初始化位置，agent 根據 DQN 模型輸出的策略，在課程獎勵的引導下，分階段調整動作選擇策略、調整位置，逐步最佳化佈局。

動作空間是離散的，agent 在每個 step 可以上、下、左、右將建築移動 1m 或不執行動作。如果移動出了邊界或不滿足最小間距約束，該動作會被丟棄且返回一個懲罰性獎勵。

獎勵函式被定義為與建築佈局相關的指標的加權組合，包括貼邊度（r_edges）、對齊度（r_align）、均勻度（r_even）和中心度（r_center）。

我們將與建築師討論得出的定性評估方式定量化，計算 r_edges 為建築的邊界框與地塊的相交邊數，r_align 為建築座標重合的佔比，r_even 為建築距離的標準差，r_center 為所有建築的平均中心與地塊中心的重合程度。

獎勵函式被設計為多階段，初期鼓勵探索，獎勵基礎約束滿足（如邊界避障）；後期引入密集獎勵，最佳化空間均勻程度，透過加權獎勵驅動佈局收斂。學習策略上使用 DQN 作為 backbone，因其兼顧了生成效率和效果。

為了提高建築的調整效率，我們計算每個建築的區域性密度，從區域性密度最低的建築對應的 agent 開始執行動作，儘量避免排列堵塞帶來的大量無效動作。

演算法的核心流程如下圖所示：

Experiments

我們在上海市的 100 個真實地塊 [8] 上對比了各方法的效果，基線模型包括 Rule-based 純規則方法、Simulated annealing（SA）、Single-Agent RL（SARL）使用單 agent 每個 step 向地塊上放置一個建築、Multi-Agent RL（MARL）。

我們使用建築覆蓋率、中心程度、對齊度、均勻度、接受率和加權得到的 reward 作為評估指標。其中建築覆蓋率定義為建築外輪廓的凸包面積與地塊面積之比，接受率為方案滿足輸入約束且合法的比例。

從表中可見，我們的方法綜合表現最佳。其中單 agent 方法由於放置建築時可能會與已有建築產生衝突，從而導致無效操作，損失了方案的接受率。

以下為在三個真實地塊上將我們的方法和 baseline 生成的建築佈局視覺化。基於規則的方法雖區域性排列均勻但整體覆蓋率低，模擬退火演算法排列不夠規整，單智慧體強化學習因逐個嘗試放置導致建築數量與輸入不符。相比之下，我們的方法在保證均勻性的同時最大化覆蓋率，實現視覺平衡。

參考文獻

1. Zheng, Y., Lin, Y., Zhao, L., Wu, T., Jin, D., & Li, Y. (2023). Spatial planning of urban communities via deep reinforcement learning. Nature Computational Science, 3(9), 748-762.

2. Sun, Y., & Dogan, T. (2023). Generative methods for Urban design and rapid solution space exploration. Environment and Planning B: Urban Analytics and City Science, 50(6), 1577-1590.

3. Nauata N, Hosseini S, Chang K-H, Chu H, Cheng C-Y, Furukawa Y (2021) House-gan++: Generative adversarial layout refinement networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

4. Schneider S, Fischer J-R, König R (2011) Rethinking automated layout design: developing a creative evolutionary design method for the layout problems in architecture and urban design. In: Design computing and cognition’10. Springer, pp 367–386

5. Zheng H, Ren Y (2020) Architectural layout design through simulated annealing algorithm. In: Proceedings of the 25th international conference on computer-aided architectural design research in Asia (CAADRIA)

6. Liu Y, Luo Y, Deng Q, Zhou, X (2021) Exploration of campus layout based on generative adversarial network. In: Proceedings of the 2020 DigitalFUTURES, the 2nd international conference on computational design and robotic fabrication (CDRF 2020), Singapore

7. Isola, P., Zhu, J. Y., Zhou, T., & Efros, A. A. (2017). Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1125-1134).

8. Chen, X., Xiong, Y., Wang, S., Wang, H., Sheng, T., Zhang, Y., & Ye, Y. (2023, October). ReCo: A dataset for residential community layout planning. In Proceedings of the 31st ACM International Conference on Multimedia (pp. 397-405).

更多閱讀