
近年來,隨著 o1 或 Deepseek-r1 等推理模型在複雜決策和推理任務中的迅速發展,強化學習(Reinforcement Learning, RL)在模型訓練與推理最佳化中的價值越發凸顯。透過對龐大搜索空間進行有效探索與學習,RL 在機器決策和自動化設計等多個領域發揮了重要作用。
基於這一趨勢,我們希望將強化學習引入社群建築佈局生成這一更具挑戰性的場景,利用多智慧體協同來高效探索佈局空間並滿足多重設計需求。
建築佈局設計對建築師來說是一項耗時且勞動密集的任務,行業需要高度自動化的方法。與近來有較多研究的室內佈局生成相比,社群建築佈局生成由於建築間隔和容積率等限制而面臨更多挑戰。現有的依賴於規則或啟發式搜尋的演算法難以平衡這些因素。此外,缺乏用於評估的資料集。
我們為該任務定義狀態、動作空間和獎勵函式,提出了一種基於多智慧體強化學習的解法,以及一套用於評估社群建築佈局的指標,在現實世界場景中的實驗結果表明該方法的有效性。
本研究成果發表於 Knowledge and Information Systems(JCR Q2 國際期刊,致力於發表在知識與先進資訊系統領域熱門話題的前沿研究成果)。
論文標題:
Deep reinforcement learning for community architectural layout generation
論文連結:
https://link.springer.com/article/10.1007/s10115-024-02291-4

Introduction
建築佈局設計在城市設計 [1,2] 中起著重要作用,建築師需要花費大量時間對建築佈局設計進行規劃和調整。許多現有演算法主要側重於室內佈局圖的生成,比如 HouseGAN++ [3] 等,這些演算法受益於豐富的資料集如 RPLAN 和 LIFULL HOME,可以應用計算機視覺領域的生成式方法。
相比之下,社群建築佈局生成是在給定地塊邊界和建築引數的條件下,對建築物進行佈置並生成合理的建築佈局。如圖所示,該任務通常具有較低的自由度,受到建築物形狀、數量、間隔等的限制。此外,用於訓練的社群建築佈局資料集仍然不足。

Rule-based 方法是最直觀的 [4],它們根據領域知識為建築物佈置設定規則。然而,定義這些規則可能非常困難。啟發式搜尋是解決最佳化問題的主要方法之一,Zheng 等人 [5] 探索了模擬退火演算法在生成建築佈局中的應用,呈現了在特定引數下的模擬地塊中的應用結果。
然而啟發式搜尋演算法很難滿足地塊和建築物的硬約束,且大規模地塊的搜尋空間巨大、耗時長。GAN 方法如 Sch-GAN [6] 應用 Pix2Pix [7] 模型根據給定的校園邊界自動生成校園佈局,但依賴於專家手動處理過的資料集,且難以精細約束。
在實踐中,建築師需要對建築物的位置進行多次決策,透過獲取當前決策的反饋資訊來逐步完善建築佈局,直到做出令人滿意的設計。這個過程可以很自然地被建模為強化學習問題。
儘管強化學習在諸多領域取得進展,但在建築佈局生成中面臨兩大挑戰:1)大規模動作空間導致策略學習困難,前期錯誤佈局會限制後續建築排布,難以滿足輸入引數要求;2)需平衡建築師設計中的多因素權衡,單一線性獎勵函式難以有效協調衝突目標。
本文提出方法的主要思路是訓練多智慧體(mutli-agent)來調整建築物的位置,以最佳化佈局設計。我們利用規則初始化地塊的結果來豐富 agent 的狀態。放置在地塊上的建築物由多智慧體來表示,它們會執行動作並調整位置。
獎勵函式是根據建築師在佈局時所考慮的各種因素(如均勻度和對齊度)設計的,並透過課程學習策略從全域性到區域性逐步訓練模型。此外,我們還提出了計算這些因素的定量方法。

Problem Formulation
社群建築佈局任務定義為:給定一個地塊邊界和需要放置的建築列表,包括各型別建築的尺寸和需放置的數量,以及建築的最小橫縱間距,期望輸出所有放置建築的中心點座標。

其中,P_exterior 表示外邊界,所有建築需要放置在外邊界內;P_interior 表示內邊界,用來標明不可排布的區域(如公共綠化等)。

Methodology

方法的框架如圖所示。基於輸入的建築引數,為每個智慧體(agent)初始化位置,agent 根據 DQN 模型輸出的策略,在課程獎勵的引導下,分階段調整動作選擇策略、調整位置,逐步最佳化佈局。
動作空間是離散的,agent 在每個 step 可以上、下、左、右將建築移動 1m 或不執行動作。如果移動出了邊界或不滿足最小間距約束,該動作會被丟棄且返回一個懲罰性獎勵。
獎勵函式被定義為與建築佈局相關的指標的加權組合,包括貼邊度(r_edges)、對齊度(r_align)、均勻度(r_even)和中心度(r_center)。
我們將與建築師討論得出的定性評估方式定量化,計算 r_edges 為建築的邊界框與地塊的相交邊數,r_align 為建築座標重合的佔比,r_even 為建築距離的標準差,r_center 為所有建築的平均中心與地塊中心的重合程度。
獎勵函式被設計為多階段,初期鼓勵探索,獎勵基礎約束滿足(如邊界避障);後期引入密集獎勵,最佳化空間均勻程度,透過加權獎勵驅動佈局收斂。學習策略上使用 DQN 作為 backbone,因其兼顧了生成效率和效果。
為了提高建築的調整效率,我們計算每個建築的區域性密度,從區域性密度最低的建築對應的 agent 開始執行動作,儘量避免排列堵塞帶來的大量無效動作。

演算法的核心流程如下圖所示:


Experiments
我們在上海市的 100 個真實地塊 [8] 上對比了各方法的效果,基線模型包括 Rule-based 純規則方法、Simulated annealing(SA)、Single-Agent RL(SARL)使用單 agent 每個 step 向地塊上放置一個建築、Multi-Agent RL(MARL)。
我們使用建築覆蓋率、中心程度、對齊度、均勻度、接受率和加權得到的 reward 作為評估指標。其中建築覆蓋率定義為建築外輪廓的凸包面積與地塊面積之比,接受率為方案滿足輸入約束且合法的比例。

從表中可見,我們的方法綜合表現最佳。其中單 agent 方法由於放置建築時可能會與已有建築產生衝突,從而導致無效操作,損失了方案的接受率。
以下為在三個真實地塊上將我們的方法和 baseline 生成的建築佈局視覺化。基於規則的方法雖區域性排列均勻但整體覆蓋率低,模擬退火演算法排列不夠規整,單智慧體強化學習因逐個嘗試放置導致建築數量與輸入不符。相比之下,我們的方法在保證均勻性的同時最大化覆蓋率,實現視覺平衡。


參考文獻

1. Zheng, Y., Lin, Y., Zhao, L., Wu, T., Jin, D., & Li, Y. (2023). Spatial planning of urban communities via deep reinforcement learning. Nature Computational Science, 3(9), 748-762.
2. Sun, Y., & Dogan, T. (2023). Generative methods for Urban design and rapid solution space exploration. Environment and Planning B: Urban Analytics and City Science, 50(6), 1577-1590.
3. Nauata N, Hosseini S, Chang K-H, Chu H, Cheng C-Y, Furukawa Y (2021) House-gan++: Generative adversarial layout refinement networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
4. Schneider S, Fischer J-R, König R (2011) Rethinking automated layout design: developing a creative evolutionary design method for the layout problems in architecture and urban design. In: Design computing and cognition’10. Springer, pp 367–386
5. Zheng H, Ren Y (2020) Architectural layout design through simulated annealing algorithm. In: Proceedings of the 25th international conference on computer-aided architectural design research in Asia (CAADRIA)
6. Liu Y, Luo Y, Deng Q, Zhou, X (2021) Exploration of campus layout based on generative adversarial network. In: Proceedings of the 2020 DigitalFUTURES, the 2nd international conference on computational design and robotic fabrication (CDRF 2020), Singapore
7. Isola, P., Zhu, J. Y., Zhou, T., & Efros, A. A. (2017). Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1125-1134).
8. Chen, X., Xiong, Y., Wang, S., Wang, H., Sheng, T., Zhang, Y., & Ye, Y. (2023, October). ReCo: A dataset for residential community layout planning. In Proceedings of the 31st ACM International Conference on Multimedia (pp. 397-405).
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
