

被無數人喜愛的樂高(LEGO)也有自己的 GPT AI 模型了,它的名字就叫 LEGOGPT,其由美國卡內基梅隆大學助理教授朱儁彥團隊打造而來。
影片 | 利用 LEGOGPT 做出的 LEGO 風格物件(來源:https://avalovelace1.github.io/LegoGPT/)
據瞭解,這是首個根據文字提示生成物理上穩定的 LEGO 積木模型的成果,也是首次將物理感知約束納入基於文字的 LEGO 生成的成果。
利用 LEGOGPT,研究團隊做出了日式滑動書櫃。
影片 | 用 LEGOGPT 打造的日式滑動書櫃(來源:https://avalovelace1.github.io/LegoGPT/)
也做出了賽博朋克風格的紫色沙發。
影片| 用 LEGOGPT 打造的賽博朋克風格紫色沙發(來源:https://avalovelace1.github.io/LegoGPT/)
以及做出了一把吉他。
影片 | 用 LEGOGPT 打造的一把吉他(來源:https://avalovelace1.github.io/LegoGPT/)
LEGOGPT 既能設計出與文字描述相匹配的 LEGO 結構,還能確保這些結構在現實世界中可以透過手工或機器人輔助實現逐塊搭建。
不同於以往人們嘗試的 LEGO 自主建模,LEGOGPT 能夠生成構建 LEGO 作品的詳細步驟說明,並且這些作品不會散架。
LEGOGPT 的工作原理是首先生成一序列位置精確的 LEGO 積木,對於序列中的每一塊新積木,系統都會確保它不會與現有的積木發生碰撞,並且能夠放入搭建空間之內。完成設計之後,LEGOGPT 會使用數學模型來驗證積木能否直立而不倒塌。
如果積木會在現實世界中倒塌,系統會識別出第一塊不穩定的積木並加以回溯,進而將它和所有後續積木移除,然後再嘗試不同的方法。這種“基於物理的回溯”方法至關重要,沒有它的時候只有 24% 的設計能保持站立,而有它的時候保持站立的比例高達 98.8%。
為了證明本次設計在現實生活中的可行性,研究人員讓機器臂組裝了由 AI 建立的 LEGO 模型。他們使用一個帶有力感測器的雙機器人手臂系統,根據 AI 生成的指令來拾取和放置 LEGO 積木。
影片 | 由 LEGOGPT 生成的 LEGO 結構能在現實世界中實現逐塊搭建(來源:https://avalovelace1.github.io/LegoGPT/)
參加實驗的真人測試者也以手動方式構建了一些積木,這表明 AI 能夠生成真正可構建的模型。
該團隊在論文中指出:“我們的實驗表明,LEGOGPT 能夠生成穩定、多樣且美觀的 LEGO 設計,這些設計與輸入的文字提示高度一致。”其還證明本次方法優於已有的大模型骨幹模型,也優於幾種最新的“文字到 3D”的生成方法。
在打造 LEGOGPT 的過程中,研究團隊構建了一個大規模、物理穩定的 LEGO 設計資料集,並提供了與之相關的說明文字。同時,他們還訓練了一個自迴歸大模型,透過預測下一個 token 來預測下一塊要新增的積木。
為了提高設計的穩定性,他們在自迴歸推理過程中採用有效性檢查和物理感知回退機制,利用物理定律和拼裝約束來剔除不可行的 token 預測。
目前,該團隊已經公佈了資料集 StableText2Lego,其中包含超過 47,000 個 LEGO 結構,這些結構由超過 28,000 個獨特的 3D 物件組成,並附有詳細的說明文字。同時,程式碼和模型已在 GitHub 上釋出(https://avalovelace1.github.io/LegoGPT/)。
另據悉,除了朱儁彥是論文作者之外,相關論文中也有多位華人作者。

圖 | 朱儁彥(來源:https://www.cs.cmu.edu/~junyanz/)

圖 | 論文作者中包含多名華人作者(來源:arXiv)

能由真人或機器人實現逐塊拼裝
眾所周知,LEGO 已被廣泛用於娛樂、教育和藝術創作。由於所有標準組件均可被隨時獲取,因此它也可以作為一個可復現的研究基準。
由於手動設計需要耗費較大精力,故曾有人透過開發自動化演算法來簡化流程並生成了不錯的結果。然而,此前方法主要基於給定的 3D 物件來建立 LEGO 設計,或者僅僅關注於單一的物件類別。
基於此,該團隊希望開發一種能夠直接根據文字提示生成 LEGO 設計、同時在設計上兼具物理穩定性和可搭建性的方法。
因此,他們認為需要訓練一個生成模型,並讓該模型能夠生成以下設計方案:首先,要具備物理穩定性,即基於 LEGO 基板構建出來的結構完整性強、無懸空或坍塌。其次,要具備可搭建性,即可以和標準 LEGO 積木相容,並能由真人或機器人實現逐塊拼裝。
LEGOGPT 的核心思想是將原本用於下一個 token 預測的自迴歸大模型重新用於下一個積木預測。研究團隊將 LEGO 設計問題表述為自迴歸文字生成任務,其中下一塊積木的尺寸和擺放位置以簡單的文字格式指定。
為了確保生成的結構既穩定又可構建,他們在訓練過程和推理過程中都施加了考慮物理特性的拼裝約束。
在自迴歸推理過程中,研究團隊透過有效性檢查和物理感知回退來確保可行性,以便確保最終的 token 符合物理定律和拼裝約束。
實驗表明,所生成的設計既穩定又多樣,並且具有視覺吸引力,同時符合輸入的文字提示。這種方法同時優於採用和不採用上下文學習的預訓練大模型,也優於此前基於網格 3D 生成的方法。

(來源:arXiv)

大規模 LEGO 資料集:包含 47,000 多種 LEGO 結構
研究人員在論文中表示,一般來說這類工作包含三個步驟:第一步,使用文字到影像模型生成影像。第二步,將影像轉換為體素。第三步,在不考慮物理約束的情況下,使用啟發式方法建立物理 LEGO 積木模型。相比之下,在無需中間影像或體素表示的情況下,本次方法也能執行文字到 LEGO 積木的任務。
由於訓練現代自迴歸模型需要大規模的資料集,為此研究團隊推出了 StableText2Lego,這是一個全新的大規模 LEGO 資料集,包含 47,000 多種 LEGO 結構,涵蓋 ShapeNetCore 資料集中 21 個常見物體類別的 28,000 多個獨特 3D 物體。
研究中,他們選擇具有多樣性和獨特性的 3D 物體類別,同時排除那些類似長方體的物體。每個結構都配有一組文字描述和一個穩定性評分,該評分能夠衡量結構的物理穩定性和可建造性。

圖 | 資料集的構建過程(來源:arXiv)
為了獲取每個結構的說明文字,研究團隊從 24 個不同的視角渲染 LEGO 玩具,並將其組合成一張多視角影像。然後,他們讓 GPT-4o 為這些渲染圖生成 5 種不同詳細程度的描述。
據瞭解,預訓練大模型在序列建模和自然語言理解方面表現十分出色,因此他們選擇了這類大模型。利用大模型能夠針對序列進行建模和理解文字的能力,研究團隊針對預訓練大模型進行了微調,以便用於 LEGO 生成任務。
而為了提高設計的穩定性和可構建性,他們在推理過程中採用了逐塊拒絕取樣和物理感知回退的方法。

(來源:arXiv)
與此同時,他們使用 LLaMA-3.2-1BInstruct 作為基礎模型。該模型經過微調之後,能夠針對指令提示給出連貫的答案,因此十分適用於基於文字的 LEGO 設計生成。同時,這一基礎模型還能透過上下文學習生成類似 LEGO 的設計。
雖然本次研究的主要關注點是生成 LEGO 形狀,但是在創意型 LEGO 設計中,顏色和紋理也發揮著至關重要的作用。因此,他們專門提出一種新方法,該方法既能讓單個積木擁有細緻 UV 紋理,也能讓單個積木擁有統一的顏色。

兼具 UV 紋理和靚麗顏色
實驗中,研究人員使用 LLaMAMesh、LGM、XCube 和 Hunyuan3D-2 來從每個提示生成網格,然後透過“LEGO 化”將這些網格轉換為 LEGO 格式。

(來源:arXiv)
此外,他們將本次方法與預訓練模型進行比較,並將這些模型以零樣本和少樣本的方式加以評估。對於少樣本評估,研究團隊為模型提供了 5 個穩定的 LEGO 設計示例以及說明文字,並計算了所生成設計方案中的“穩定有效結構”所佔的比例。
同時,對於每個有效結構,研究團隊都計算了其平均積木塊穩定性和最小積木塊穩定性得分。如下表所示,本次方法在這些指標上優於此前已有的基線方法。

(來源:arXiv)
在消融研究中,研究團隊展示了拒絕取樣和物理感知回退的重要性。如下圖所示,拒絕取樣消除了無效的積木,比如能夠消除那些發生了碰撞的積木。而回退則有助於確保最終生成的積木具備物理穩定性。

(來源:arXiv)
如前所述,他們還使用機器人組裝了這些由 AI 模型生成的 LEGO 設計。具體來說,機器人利用操縱策略和非同步多智慧體規劃器來操縱 LEGO 積木並構建結構。而且這些由 AI 模型生成的 LEGO 結構還可以進行人工組裝,因此它們在物理上確實是有效的。

圖 | 使用雙機器人臂系統進行自動組裝的過程(來源:arXiv)
下圖則展示了 LEGO 模型的 UV 紋理化和均勻著色結果,這證明本次方法能夠在保留底層幾何形狀的同時生成多種風格。

(來源:arXiv)
儘管本次方法優於已有方法,但是仍然存在一些侷限性。
首先,由於計算資源有限研究團隊尚未探索最大的 3D 資料集,即本次方法僅限於在 21 個類別的 20×20×20 網格內生成設計。未來,他們將在更大、更多樣化的資料集上擴大模型訓練規模,以便提高對於分佈外文字提示的泛化能力。
其次,本次成果目前僅僅支援一組固定的常用 LEGO 積木,未來他們計劃擴充套件積木庫,以便包含更廣泛的尺寸和積木型別,從而實現更復雜更多樣化的 LEGO 設計。
參考資料:
https://arxiv.org/pdf/2505.05469
https://www.cs.cmu.edu/~junyanz/
https://avapun.com/
https://www.linkedin.com/in/avapun/?originalSubdomain=in
https://avalovelace1.github.io/LegoGPT/
排版:初嘉實


