打破“成本質量效率”不可能三角,3D生成式AI加速解決VR內容困境

文/VR陀螺 WiZ
繼文字、影像之後,生成式 AI 又打算在 3D 建模領域創造新的奇蹟。
早些時候,由澳大利亞國立大學、牛津大學和北京智源人工智慧研究院的科研人員開發的 3D-GPT 系統著實是火了一把,雖然這並非是成功問世的第一個“文生 3D”人工智慧系統,但頂著“GPT”的名號還是讓其備受矚目,以至於專案還未正式公佈程式碼就已在 Github 上攬獲 605 顆星。
圖源:github
無門檻生成 3D 世界的時代,這次難道真的要來了?
 操著建模的心,幹著寫程式碼的事 
在研究團隊公佈的論文中,3D-GPT 被描述為“可以簡單地根據使用者提供的文字描述生成各種各樣的 3D 模型和場景”。
簡單來說,3D-GPT 主要完成的是從輸入文字中提取資訊並生成建模指令這一關鍵一步,而後續的建模過程則主要交給 Blender 等建模軟體。
與文生圖所依賴的獨立模型不同,3D-GPT 依靠的仍然是大型語言模型(LLM)的多模態和推理能力,將 3D 建模任務分解為三個子任務:任務排程、概念化、建模,並分別交由框架的不同部分進行處理。
圖源:3D-GPT
在開始進行第一步前,研究人員還需要為 LLM 做一些事前準備。原因在於 3D-GPT 區別於傳統的生成式 AI 概念,由於尋找專門的 3D 預訓練資料過於困難,3D-GPT 選擇讓 LLM 直接建立 3D 內容。
而這也為實現精確建模帶來了挑戰,因此,研究人員選擇利用一個基於 Python-Blender,並配置了豐富生成函式庫的過程生成器 Infinigen,透過為函式庫中的每一個函式打上包括函式說明文件、可讀程式碼、引數資訊、說明示例等關鍵提示,使 LLM 能夠利用 Infinigen 提供的具體函式,沿著任務排程代理-概念化代理-建模代理三步驟按部就班地進行基於語言指令的精確 3D 生成。
其中任務排程代理是識別輸入文字資訊的關鍵一步,利用使用者指令查詢內建函式文件,並隨後選擇匹配的函式進行執行。
而概念化代理則負責對文字描述進行推理,補充缺失的細節。當輸入文字中缺少某些建模的關鍵資訊時,概念化代理往往會選擇一切從簡,直接套用引數文件中的預設值,或者複製提示示例中的引數,這在一定程度上會降低生成結果的多樣性並複雜化引數推斷過程,使得 3D-GPT 有時會顯得不夠智慧。
最後,在引數資訊準備就緒後,建模代理提供了帶有推斷引數的 Python 函式呼叫,透過 API 控制 3D 建模軟體 Blender 來進行物體變形、材質調整、網格編輯、物理模擬等多種操作,並最終生成 3D 結果。
精細準確的花朵建模(圖源:3D-GPT)
透過一系列案例,論文最終得出的結論是,LLMs 在推理、規劃和程式 3D 建模工具使用方面具有出色潛力。LLM 加持下的 3D-GPT 不僅支援連續的指令輸入,可以在已經生成的內容上進行持續編輯和修改,同時這些修改行為還可以具體到某一單獨元素,這使得 3D-GPT 不僅能完成對單個模型的細節豐富,在大場景生成上也表現不俗。
3D-GPT 一鍵生成大場景(圖源:3D-GPT)
但同時,論文最後也點出了 3D-GPT 的不足之處:首先是框架缺乏精確曲線控制和複雜陰影設計的高階能力,導致如樹枝建模、樹葉紋理顏色混合等工作仍然存在不足;其次是框架的有效性過於依賴程式生成演算法的質量和可用性,而演算法的侷限會導致 3D-GPT 在毛髮建模上受到限制;最後是框架在處理多模態指令時的挑戰,包括音訊和影像輸入在內的資訊在處理過程中可能出現丟失。
總的來看,3D-GPT 仍處在概念真正落地前的修補完善階段,雖然離重塑 3D 建模格局還存在不小的距離,但目前僅有的效果就已十分驚豔。
 3D 建模 
 AIGC 的下一個兵家必爭之地 
3D-GPT 並非是“文生 3D”技術的獨苗,事實上,自人工智慧下沉內容製作市場時起,對於生成式 AI 構建虛擬世界的嘗試就從未停止過。
谷歌、OpenAI、英偉達等人工智慧、網際網路科技企業更早出發,跑得也更遠。
谷歌在 2022 年 9 月公佈大模型“DreamFusion”,成為最早一批實現“文生 3D 模型”的生成式 AI 模型。DreamFusion 由數十億影像-文字對的擴散模型驅動,只需 2D 資料訓練就可以在任意角度、任意光照條件、任意三維環境中基於給定的文字提示生成模型。
圖源:DreamFusion
從模型效果上看,DreamFusion 生成的 3D 素材已經十分逼真,在細節上吊打幾個初版的扎克伯格 Horizon Worlds 小人形象,但從建模效率來看,動輒以小時為單位的建模速度可以與人類建模師打得有來有回,在 AI 混戰中卻是處於下風。畢竟隔壁 OpenAI 已經做到了單個 GPU 秒出 3D 影像。
去年 12 月,OpenAI 釋出了 Point-E 模型,該模型可使用文字到影像的擴散模型生成一個單一的合成檢視,再使用擴散模型生成三維點雲。之後僅僅過了 6 個月,OpenAI 又推出了升級版的 Shap-E 模型,該模型可以直接生成隱函式的引數來渲染紋理網格和神經輻射場,收斂速度更快。
Point-E 生成三維點雲(圖源:OpenAI)
兩個 AI 模型都以以超快速建模為特色,相比競品模型 DreamFusion 提速了幾百倍。建模效率是真的高,但代價卻是建模質量的犧牲。從最終生成的 3D 模型質量來看,如果說 DreamFusion 已經完全可以勝任 VR 虛擬場景中的 3D 元素建模工作的話,那 Point-E 和 Shap-E 目前大概只能用於一些質量要求不高但數量需求大的場合,被戲稱為“還處在找不到工作的建模師水平”。
Point-E 將點雲轉換為網格(圖源:OpenAI)
或許是知道在 3D 領域需要外援相助,此後 OpenAI 又於 2023 年 8 月收購了 Global Illumination 團隊,後者是一家利用 AI 構建創新工具、基礎設施和數字體驗的公司,曾開發出一款類似於《我的世界》的開源沙盒多人線上角色扮演遊“Biomes”。這也被部分網友解讀為是 OpenAI 計劃持續深入 3D 領域的一個訊號,Point-E 和 Shap-E 的打怪升級之路還在繼續。
頭部企業打得火熱,後面跟著的則是一批研發實力同樣不俗的競爭者。後起之秀 Stability AI、Kaedim、Auctoria、Luma 以及國內的光影煥像等初創企業則有衝擊市場之勢,都在該領域取得了實質進展。
人工智慧初創企業 Stability AI 在 2022 年推出的文生圖大模型 Stable Diffusion 原本致力於 2D 影像生成,但近期也悄悄進行了迭代升級,向著 3D 內容建立的方向進發。
其新增的 AI 工具“Stable 3D”可以透過選擇一張影像或插圖,或者編寫一段文字 prompt,在幾分鐘內生成一個草稿質量的 3D 模型。而除了上傳現有影像或插圖外,使用者還可以用自然語言描述他們想要建立的 3D 樣式,完成文字資訊到 3D 模型的轉換。
Stable 3D 是在 Stable Diffusion 和世界上最大的開源 3D 資料集之一的 Objaverse-XL 資料集的基礎上構建的,生成的 3D 模型可以在 Blender、Maya 等建模軟體和虛擬引擎、Unity 等遊戲引擎中進一步編輯使用。
圖源:Stability AI
根據 Stability AI 的說法,Stable 3D 的加入使得設計工作者將能以低廉的成本完成每天建立數千個 3D 物件的任務。
可以看到,精準高效是生成式 AI 的永恆追求,動輒數天乃至數週的的 3D 建模工作時長如今已被極限壓縮至分秒級別,以 VR/AR 為代表的 3D 內容生產又找到了降本增效的捷徑。
但與所有飽受詬病的 AI 工具類似,Stable 3D 們同樣受到了來自版權保護的靈魂拷問。
今年早些時候,Stability AI 剛剛遭受一起侵權指控,幾位藝術家聯合起訴 Stability AI 在“沒有通知或補償的情況下使用他們數百萬張影像作品用於訓練 Stable Diffusion”。
在尚有前科的情況下,Stability 並未透露使用了哪些資料來訓練 Stable 3D,該工具的使用者最終可能會在大資料模型的隱瞞下將未授權的資料納入他們的專案中,這也為其最終的商用埋下了不小的隱患。
只不過在可能導致的法律問題之外,AIGC 的加入加速了基於虛擬場景的 VR 內容生產效率,對於深陷內容不足困境的 VR 行業來說無疑是期盼已久的救命稻草。
 AIGC+VR 
 拖後腿的虛擬內容生產模式是時候加速了 
2022 年來,全球 VR/AR 市場呈現出 AR 進,VR 退的局面。據陀螺研究院統計,2022 年全球 VR 頭顯出貨量 1014 萬臺,較 2021 年下滑了 8.65%。2023 年二季度全球 VR 銷量僅為 144 萬臺,同比下降 37%,環比下降 21%。
面對 VR 出貨增長疲軟的現象,許多業內人士將原因之一歸結到為 VR 應用場景和內容跟不上硬體的腳步。
對比 VR 和 AR 技術可以發現,從場景上看,AR 更強調現實場景,透過 OST 技術下的虛擬資訊疊加顯示提供拓展體驗,最終形態更為輕便。而 VR 則要營造沉浸式的場景氛圍,需要大量的硬體軟體支援。
圖源:PICO
因此,AR 在實際應用中更具有便捷性,在工業、醫療、教育等領域的應用廣泛,市場需求巨大,大眾接受程度高。而回看 VR,雖然現有的 VR 產品在硬體層面總體已經能夠滿足基本場景使用需求,但總是慢一步的內容生態建設卻還未創造出能讓 VR 頭顯融入日常的應用,VR 目前並沒有能夠改變生產生活、日常服務等的相關內容。
唯一可堪一戰的應用場景目前來看還只有 VR 遊戲。在 VR 行業直接面向消費者的虛擬現實內容中,遊戲憑藉著其強互動性優勢天然適配 VR 的內容生態。根據遊戲市場調研機構 Newzoo 釋出的 VR 遊戲市場報告來看,2022 年全球 VR 遊戲收入預計超過 18 億美元,並將在 2024 年實現規模比 2021 年翻倍。
其中,VR 遊戲在頭顯應用生態中佔據著不可撼動的地位,約 72%的受調查者將遊戲作為他們使用 VR 最主要的三個用途之一,39%的使用者表示他們購買 VR 硬體主要是體驗 VR 遊戲。因此在元宇宙帶來的 VR 場景中,VR 遊戲理所當然地充當著開拓內容消費市場的先行者。
只是這唯一的先行者也存在著產能嚴重不足的問題。以國內市場為例,截至 2023 年 9 月 23 日,國內 VR 內容頭部 PICO Store 的內容數量已增長至 536 款,其中約 70%為遊戲,數量在 370 款左右,這裡面以海外引入作品居多,國內作品佔比較低。
圖源:PICO
國內 VR 內容生態不完善,VR 開發者、VR 內容數量相對較少,大部分內容靠海外引進,頭部企業尚未完全發力,VR 內容在創作和推廣方面面臨著不小的挑戰。
而生成式 AI 的出現有望打破這一困境。
目前市面上主流 VR 內容的生產方式主要有 3D 建模式和全景採集式兩種。其中 3D 建模式內容沉浸感強但製作成本高,各個領域的 3D 內容需要大量人工進行製作,而且對製作人員的門檻要求相對較高,產能較低,這是制約相關行業發展的一大瓶頸。
AI+VR 的組合則可以在一定程度上實現 3D 內容製作的自動化,替代部分重複勞動,有助於進一步豐富 VR 虛擬內容並提升研發效率。
從過去一年來的行業動向來看,AIGC 在文字、圖片、音樂等內容生成領域已經體現出了強大的生產能力,與 AI 生成文字、影像和影片相比,AI 生成 3D 內容當前還處於初級階段。但隨著 AI 模型的發展與算力的提升,AI 有望帶來 3D 內容生成領域的變革。
變革的第一站同樣很有可能出現在遊戲領域。從虛擬內容型別來看,目前主要的 VR/AR 內容有三種:一是基於現實場景的全景照片/影片,二是基於虛擬場景的遊戲/體驗,三是基於混合場景的互動應用。由於生成式 AI 在虛擬場景、虛擬人物建模方面的優勢,場景遊戲/體驗將成為文生 3D 能夠預見最重要的應用方向。
不久前,騰訊 AI Lab 就在 2023 遊戲開發者大會上釋出了自研的 3D 遊戲場景自動生成方案。該方案透過 AIGC 技術,在城市佈局生成、建築外觀生成、室內對映生成等方向幫助開發者在極短的時間內打造出高擬真、多樣化的虛擬城市場景,大幅提升遊戲開發效率。
此外,如果將文生 3D 模型嵌入遊戲 UGC 生態,那麼 UGC 創作門檻將大大降低,玩家也可以在遊戲中一句話生成自己的虛擬世界。而有了遊戲領域的成功案例帶頭,VR 在教育、醫療、工業、旅遊等領域的虛擬場景的構建和更迭速度也將能夠更快完成。
圖源:3D-GPT
總的來看,從 DreamFusion 再到 3D-GPT,以文生 3D 為代表的的生成式 AI 的誕生可以被視作 3D 場景製作加速、VR 內容迎來大爆發的又一個新拐點。當然,目前的文生 3D 技術還遠遠達不到商用的階段,但就像 ChatGPT 一樣,誰也想不到人工智慧顛覆內容生產形式的一天來得這麼快,同樣的,文生 3D 技術實現規模化應用未必就不會發生在這一兩年。
這對於 VR 行業來說算得上是個及時的訊息,虛擬內容廠商們這次或許真的找到了能用更低成本撬動整個行業繁榮的新機會。
第一時間瞭解XR資訊  
  關注VR陀螺官網(vrtuoluo.cn)
VR陀螺的聯絡方式:
商務合作 | 投稿 :
六六(微訊號 13138755620)
尋求免費曝光:
六六(微訊號 13138755620)
投稿郵箱:[email protected]

推薦閱讀


相關文章