
新智元報道
新智元報道
編輯:peter東 英智
【新智元導讀】如何將一句簡單的文字描述變成物理穩定的樂高模型?LegoGPT透過物理感知技術,確保98.8%的設計穩如磐石。
輸入一段文字,AI就能設計出可實際搭建的樂高?
突破傳統3D建模侷限
作者介紹
來自CMU的研究人員提出的LegoGPT徹底改變了遊戲規則。

只需輸入「金屬紫色電吉他」,AI就能生成一個不僅外形逼真,還能在現實中穩穩站立的樂高模型!
不同於傳統3D建模工具生成的,LegoGPT透過微調Meta的LLaMA模型,結合47,000個穩定結構資料集,確保98.8%的設計符合物理定律。
LegoGPT是第一個能夠將文字輸入轉換為物理穩定的樂高設計的AI模型。
目前,資料集、程式碼和模型均已開源。

論文地址:https://www.arxiv.org/abs/2505.05469
專案地址:https://avalovelace1.github.io/LegoGPT/
不同於那些會為了迎合你輸入的請求而生成奇怪(且不穩定)設計的 AI 生成器,LegoGPT的設計遵循物理定律,這意味著。
LegoGPT不僅設計了與文字描述(提示詞)相匹配的樂高模型,還確保它們可以在現實世界中逐塊搭建,無論是人類測試者透過手工搭建,還是藉助機器人輔助構建。

搭建高背椅子的樂高過程

圖1:生成的樂高模組,經過帶有力感測器的雙臂機器人系統,根據 AI 生成的指令來拾取和放置積木,最終組成完成的樂高成品
LegoGPT生成的樂高元件,不止包含了具體的結構,還能按照提示詞,包含噴漆機紋理圖案。

圖2:LegoGPT生成的樂高元件

生成帶有提示詞紋理圖案的樂高元件

LegoGPT根據提示詞金屬紫色電吉他,生成的樂高元件是吉他形狀,並且下部為紫色
LegoGPT相比之前生成3D建模的工具,其最大的優勢在於其生成的結構是穩定的。
許多現有的 3D 生成模型專注於建立具有詳細幾何形狀的多樣化物體,但其生成的設計往往無法物理實現。
沒有適當的支撐,設計的一部分可能會坍塌、漂浮或保持斷開狀態。
而使用LegoGPT生成的設計98%的時間是物理穩定的。

LegoGPT怎麼做到給出穩定設計的?
首先,LegoGPT的微調了Meta的一個開源大模型LLaMA-3.2-1B-Instruct,為了訓練模型,團隊構建了一個名為StableText2Lego的新資料集。
其中包含超過47,000個穩定的樂高結構,28000個獨特的3D物件,其中每一個都由OpenAI的GPT-4o生成描述性標題,例如「流線型」「細長的船」或「具有醒目前格柵的經典風格汽車」這樣的描述以及對應的3D樂高元件。

圖3:a)統將 LEGO 設計分割成一系列文字標記,以從下到上的光柵掃描方式排序,b)將磚塊序列與描述配對,以微調 LLaMA-3.2-Instruct-1B。c)在推理時,LegoGPT 透過根據文字提示逐個預測磚塊來增量生成LEGO設計
每個結構都經過了物理分析,以確保它可以在現實世界中建造。
此外,LegoGPT團隊使用了一個獨立的軟體工具來增強積木預測模型,該工具可以使用模擬重力和結構力的數學模型來驗證物理穩定性。

圖4:考慮樂高重力和結構力的物理模型,以預測樂高元件拼接後的穩定性
LegoGPT作為第一個預訓練LLM,該模型不是預測下一個詞,而是逐步預測要新增的下一個積木,從而逐步搭建出一個完整的由樂高組成的世界。
LegoGPT會透過首先生成一系列精確放置的樂高積木來工作。
對於序列中的每個新積木,系統確保它不會與現有積木碰撞,並且能夠適應建築空間。
完成設計後,它使用上述數學模型來驗證模型能夠直立而不倒塌。
如果LegoGPT生成的模型在實際搭建中部分元件倒塌,系統也會識別出第一個不穩定的積木並回溯,移除它以及所有後續積木,然後嘗試不同的方法。
這種具有物理感知的回滾方法被證明是LegoGPT的要點。沒有它,只有24%的設計能夠站立,而使用完整系統時,成功率則有98.8%。

圖5:LegoGPT生成的不穩定元件,在回滾中被去除
樂高不只是一個玩具,LegoGPT的用途,也遠遠不止加速新一代樂高玩具的設計,把樂高店裡的玩具價格打下來。
LegoGPT展示出的技術實力,有著現實用途。
能夠設計出穩定的樂高元件,也就能讓大模型設計出可以3D列印的元件,再由機器人將這些元件拼接成具有現實功能的工具,例如無人機,無人駕駛的船隻及模型車,這些在技術上,是一脈相承的。
LegoGPT中對於物理模型,以及不穩定元件的回滾,使其能夠成為第一個具有極高可靠率,能產生穩定3D結構的預訓練模型。
當然,LegoGPT仍存在一些侷限性。
當前的LegoGPT版本僅在20×20×20的建築空間內工作,並且僅使用八種標準積木型別。
LegoGPT目前支援一組固定的常用樂高積木,在未來工作中,LegoGPT的研究團隊計劃擴充套件積木庫,以包含更廣泛的尺寸和積木型別,例如斜坡和地磚。
研究人員希望擴大他們的訓練資料集,以包含比目前可用的21個類別更多的物件。

Kangle Deng

Kangle Deng是卡內基梅隆大學(CMU)機器人研究所的博士生,由Deva Ramanan和Jun-Yan Zhu的共同指導。 此前,他於2020年獲得北京大學學士學位。
Kangle Deng的研究方向主要為計算機輔助創作,目前的研究工作得到了微軟研究院博士獎學金的支援。
Ruixuan Liu

Ruixuan Liu卡內基梅隆大學(CMU)計算機學院機器人研究所的博士生,導師是智慧控制實驗室的Changliu Liu教授。
他的研究方向為機器人學習/控制、生成式製造以及人機協作。
Ruixuan Liu在卡內基梅隆大學(CMU)獲得了電氣與計算機工程學士學位,輔修機器人技術。
本科期間,他在Sebastian Scherer教授領導的AirLab實驗室工作,工作重點是用於建築結構檢測的感測器融合和三維重建。
參考資料:
https://arxiv.org/html/2505.05469v1
https://arstechnica.com/ai/2025/05/new-ai-model-generates-buildable-lego-creations-from-text-descriptions/
