CVPR2025滿分論文!港科大提出CraftsMan:3D生成新框架

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心
香港科技大學譚平教授團隊在 CVPR 2025 發表兩項三維生成技術框架,核心程式碼全部開源,助力三維生成技術的開放與進步。其中 Craftman3D 獲得三個評委一致滿分,並被全球多家知名企業如全球最大的多人線上遊戲創作平臺 Roblox, 騰訊混元 Hunyuan3D-2,XR 實驗室的 XR-3DGen 和海外初創公司 CSM 的 3D 創作平臺等重量級專案的引用與認可。
本文中 Craftman3D 的共同一作李威宇、劉嘉瑞和閻鴻禹均為香港科技大學博士研究生。Dora 的第一作者為香港科技大學博士陳銳。均為香港科技大學譚平教授組的在讀博士生。
三維內容的建立對於遊戲、影視、AR/VR 乃至具身智慧的環境模擬中具備關鍵作用。不過,傳統三維建模方式要求建模者掌握大量專業知識,且需投入大量人工操作,這使得建模過程極為耗時,極具挑戰性,對於非專業使用者而言更是如此。過高的時間與人力成本,已然成為限制這些領域發展的主要瓶頸。近年來,基於 AI 的三維內容生成技術逐步改變了這一局面。藉助自動化生成技術,三維內容建立的門檻大幅降低,讓更廣泛的使用者群體能夠高效地構建三維數字內容。
當前原生三維生成模型主要由兩部分構成:一是 3D-VAE(3D Variational Auto Encoder)變分自編碼器,它透過 Encoder 網路將三維模型壓縮編碼至潛在空間(latent space),並透過 Decoder 網路解碼重構出三維模型;二是基於 3D-VAE 構建的潛在擴散模型(latent diffusion model)用於處理文字或影像輸入的三維模型生成。三維生成大模型所呈現的細節上限,在很大程度上取決於 3D-VAE 對三維幾何的編碼與重建能力。為提升三維模型編解碼過程中的幾何細節豐富度,香港科技大學譚平團隊聯合字節跳動豆包大模型團隊與光影煥像團隊,共同提出了 Dora 模型來改進三維原生 VAE。
在 3D-VAE 模型的基礎上,香港科技大學與光影煥像團隊進一步提出了 Craftsman3D 演算法方案,該方案借鑑了傳統建模流程,能夠快速生成高質量的 3D 模型,以進一步生成滿足設計師對高質量三維模型的生成要求。此方法在 CVPR 中獲得審稿人一致滿分評價,它融合了原生 3D 大模型以及即時幾何細節最佳化兩大部分:首先由原生三維大模型生成初始模型,隨後透過即時可互動幾何細化操作,短短幾十秒內即可生成具備高質量幾何細節的三維模型。
  • Dora 開原始碼:https://github.com/Seed3D/Dora/
  • Dora 專案主頁:https://aruichen.github.io/Dora/
本文提出的 Dora-VAE,創新性地將顯著邊緣取樣演算法與雙交叉注意力機制相結合,極大地提升了三維變分自編碼器(3D-VAE)的重建質量與壓縮效能。在訓練階段,該方法能夠精準識別出具有較高几何複雜性的區域,並對其優先處理,從而有效改善了對精細幾何特徵的保留情況,讓變分自編碼器能夠著重關注那些傳統均勻取樣方式容易忽視的關鍵幾何細節。在實現高質量重建的同時,相較於當前 SOTA 方法(Xcube),Dora-VAE 在 3D 形狀壓縮率方面實現了超過 8 倍的提升 。
當前,三維變分自編碼器的執行機制是:透過在三維網格表面進行點取樣來完成形狀編碼,而後利用解碼器對原始三維網格進行重建。經過深入且細緻的研究,研究人員察覺現有方法普遍採用均勻取樣(uniform sampling)策略,從而導致重建效能受限。為了驗證這一發現,研究人員選取了具有複雜幾何細節的鍵盤(如下圖 (a) 所示)作為實驗物件,對其進行點雲取樣,並將不同取樣策略在多種取樣密度下的點雲分佈情況進行了視覺化呈現(如下圖 (b)(c) 所示)。實驗結果清晰地顯示:即便提升了取樣率,採用均勻取樣方式(如下圖 (b) 所示)依舊無法有效地保留鍵盤按鍵等銳利特徵(sharp feature)。這一簡潔直觀的實驗有力地證實了,均勻取樣在本質上對幾何細節的捕捉能力形成了制約,而這種制約進一步對變分自編碼器的重建精度以及所訓練擴散模型的生成質量產生了不良影響。
受重要性取樣理念的啟發,研究人員設計了顯著邊緣取樣(Sharp Edge Sampling, SES)演算法,該演算法能夠基於幾何顯著性實現自適應點取樣。具體而言,SES 演算法首先識別網格中具有顯著二面角的邊緣(這些邊緣所在區域往往對應高几何複雜度區域),並沿顯著區域進行點取樣。與此同時,為了保證三維模型表面的覆蓋完整性,研究人員依舊會進行表面均勻點取樣。因此,最終生成的取樣點雲

由表面均勻取樣點

與顯著區域取樣點

聯合構成:

顯著邊緣檢測(Salient Edges Detection)
給定一個三維網格,研究人員透過計算相鄰面間的二面角獲得顯著邊緣集合

。對於每條由相鄰面

共享的邊

研究人員透過下式計算其二面角

其中

分別表示面

的法向量。顯著邊緣集合

包含所有二面角超過預設閾值

的邊:

,令

表示顯著邊緣的數量。

顯著點取樣(Salient Points Sampling)
針對每條顯著邊緣

研究人員將其兩個頂點

納入顯著頂點集合

,相連邊緣產生的重複頂點僅保留一份:

。令

表示該集合中唯一幾何頂點的數量。給定顯著區域目標點數

,當顯著頂點過多時,透過最遠點取樣法 (Farthest Point Sampling, FPS) 進行頂點下采樣;當顯著頂點不足,透過對顯著邊緣增加取樣來補充資料,從而得到顯著區域取樣點

基於 SES 演算法,研究人員提出 Dora-VAE,在保持緊湊潛在表徵的同時實現了高保真度的三維重建。為充分利用 SES 取樣獲得的富含細節的點雲資料,研究人員設計了雙交叉注意力編碼架構,該架構在特徵編碼過程中能有效融合顯著區域與均勻區域的特徵表達。具體而言,研究人員沿用 3DShape2VecSet 的做法,首先分別對均勻取樣點雲

和顯著區域取樣點雲

進行最遠點下采樣:

其中

分別表示來自均勻取樣點雲

和顯著區域取樣點雲

的下采樣點雲數量。研究人員隨後分別計算均勻點與顯著點的交叉注意力特徵:

最終點雲特徵 C 透過融合雙向注意力計算結果獲得:

遵循 3DShape2VecSet,研究人員利用特徵 透過自注意力模組預測佔據區域

,整個模型

透過最小化均方誤差損失進行最佳化:

研究人員透過三個指標評估重建質量:使用 1M 取樣點對比輸入網格與不同 3D VAEs 解碼結果的差異,包括:1) F-score;2) 倒角距離 (CD);3) 尖銳法線誤差 (SNE)。為公平比較,研究人員同時給出潛在編碼長度 (LCL)。結果表明,Dora-VAE 在 Dora-bench 中所有的指標都達到了最佳。
  • Craftman3d開原始碼:https://github.com/wyysf-98/CraftsMan3D/
  • Craftman3d專案主頁:https://craftsman3d.github.io/
在訓練 3D-VAE 的基礎上,CraftsMan3D 透過汲取傳統建模流程的經驗,精心設計了兩階段的技術方案:第一階段使用原生三維大模型進行初始模型生成。演算法先使用 multi-view image diffusion 進行多檢視生成,然後將多檢視輸入到 3D-DiT 擴散模型中來生成拓撲規則的幾何和紋理。第二階段為幾何細化階段,團隊使用法向圖超分的方案實現高質量法向估計,然後透過可微渲染實現法線圖引導的幾何細節最佳化。
階段一:基於 DiT 的原生三維大模型
團隊提出了將三維擴散模型與多檢視擴散模型相結合的原生三維生成方案。具體來說,演算法使用 3D-VAE 將幾何壓縮到潛在空間,然後使用 3D-DiT 擴散模型在潛在空間進行生成。對於單個參考影像或文字提示輸入,首先將其輸入到多檢視擴散模型中以獲得多檢視影像作為三維擴散模型的輸入,然後使用三維擴散模型從中學習生成三維幾何圖形。
團隊設計了完善的資料篩選 – 幾何水密化 – 渲染等資料處理流程,形成了強大的資料處理平臺以支撐原生三維大模型的訓練資料。
階段二:高質量幾何細節最佳化
受限於 3D 大模型常用的隱式表達方案和 VAE 的壓縮特性,原生三維生成的物體往往難以具備很高頻的幾何細節。因此,論文提出了第二階段互動式幾何細節最佳化,透過法相貼圖生成和反向 “烘焙” 最佳化的方式捕捉高頻的幾何細節,從而產生高質量的三維資產。
具體來說,該部分透過基於表面法線貼圖的擴散模型來實現法線圖細節增強,並透過顯式三角網格最佳化增加三維幾何細節。團隊在原版 stable diffusion 的基礎上使用法線資料集微調,並藉助 tile 外掛實現法相貼圖的超解析度生成。透過這種方式模型既擁有幾何細節生成能力,還保留了原有的泛化能力。進一步基於法線貼圖最佳化直接最佳化三維網格頂點,只需 10 秒,即可在使用者繪製的區域新增幾何細節,並完全保持其他區域的幾何形狀。
該技術還支援趣味擴充套件功能:以人物照片為輸入,可生成與輸入影像面部特徵匹配的 3D 模型,實現 3D 資產快速換臉。
使用Craftman3D三維生成技術方案,普通使用者無需複雜操作即可快速搭建出精美的三維模型和場景。無論是遊戲開發、影視製作還是建築室內設計、具身感知虛擬場景,各類創意都能輕鬆實現。如下圖所示,場景中的所有物體均由 Craftman3D 自動生成。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章