
作者 | 趙明華
7 月 3 日凌晨,Meta 正式公佈了一款文生 3D 模型——Meta 3D Gen,在文生 3D 賽道上掀起一陣熱潮。
據悉,3D Gen 可以在一分鐘內根據使用者輸入的文字提示詞,快速構建出包括 3D 模型、紋理貼圖、材質等在內的全方位 3D 資產。GenAI 團隊稱,這一速度相較於當前市場上的同類產品,實現了 3 至 10 倍的提升,極大地縮短了創作週期。

不僅如此,Meta 3D Gen 在追求速度的同時,也可以保證生成內容的質量。相比於以往具有同等速度的模型,3D Gen 在模型的視覺保真度、生成的 3D 網格質量、材料的質量和控制方面,都能夠有更好的表現。

Meta 3D Gen 結合了 Meta 的兩個現有模型:用於生成 3D 網格素材的 AssetGen 和用於精細紋理化的 TextureGen。透過結合這兩個模型的優勢,3DGen 可同時以三種方式表示三維物體:檢視空間、體積空間和 UV(或紋理)空間。在 Meta 的一則報告中提到,與單階段模型相比,這兩項技術的整合實現了 68% 的勝率。
在生成過程中 3D Gen 採用的是兩階段的方法:第一階段使用 AssetGen,第二階段使用 TextureGen。
-
第一階段:文字到影像
這一階段的目標是,從文字生成有著色和陰影的影像,從四個標準視角,生成這些角度的 4 張檢視。
3D Gen 會跟據使用者提供的文字提示,建立初始三維資產,生成帶有紋理和 PBR 材質貼圖的 3D 網格。這一階段的推理時間約為 30 秒。
-
第二階段:影像到 3D
在這一階段,3D Gen 會根據第一階段生成的 3D 素材和最初的文字提示詞,對第一階段的素材進行紋理細化或者重新著色,生成更加高質量的紋理和 PBR 圖(PBR,基於物理的渲染,是計算機圖學中的著色方法)。
第二階段的推理時間約為 20 秒。
為了評估 3D Gen 的效果,Meta 邀請了專業創作者和普通人參與到研究中,對提示詞忠誠度視覺質量進行評估。
在兩個階段中,3DGen 在該引數上均超越了所有行業基準,而第三方文字轉 3D (T23D) 生成器則成為最強大的競爭對手。研究發現,3D 經驗較少的註釋者(annotatiors)對哪怕是微小的紋理和幾何偽影也不太敏感,他們更喜歡紋理更清晰、更生動、更逼真、更細緻的資源。在所有類別中,professional 3D 藝術家都表示更喜歡 3D Gen。


在數字藝術、遊戲設計、影視製作等領域,3D 動畫一直扮演著重要角色。傳統 3D 動畫製作過程繁瑣複雜,需要專業技能和大量時間,GenAI+3D 技術的出現,有望改變這一現狀。
參考連結:https://arxiv.org/abs/2407.02599
論文地址:
https://scontent-eze1-1.xx.fbcdn.net/v/t39.2365-6/449707112_509645168082163_2193712134508658234_n.pdf?_nc_cat=111&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=5bSbn3KaluAQ7kNvgGRfSwR&_nc_ht=scontent-eze1-1.xx&oh=00_AYC1nbp-YTq0P7189qTiXg4WAhfjVogkCEwMnJR5XJrw4Q&oe=668A5091

AICon 全球人工智慧開發與應用大會,為資深工程師、產品經理、資料分析師等專業人群搭建深度交流平臺。聚焦大模型訓練與推理、AI Agent、RAG 技術、多模態等前沿議題,匯聚 AI 和大模型超全落地場景與最佳實踐,期望幫助與會者在大模型時代把握先機,實現技術與業務的雙重飛躍。
在主題演講環節,我們已經邀請到了「蔚來創始人 李斌」,分享基於蔚來汽車 10 年來創新創業過程中的思考和實踐,聚焦 SmartEV 和 AI 結合的關鍵問題和解決之道。大會火熱報名中,7 月 31 日前可以享受 9 折優惠,單張門票節省 480 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
