最低僅需5GB視訊記憶體,最快0.5秒生成,騰訊混元開源多款3D生成模型

3 月 18 日和 19 日,騰訊混元在其開源日宣佈開源 5 款全新 3D 生成模型,這些模型均基於 Hunyuan 3D 2.0 技術打造。
此次開源的多款模型涵蓋了 Turbo 系列模型、多檢視版本模型以及輕量級 mini 模型。截至目前,Hunyuan 3D 2.0 家族已有 6 款模型。
此外,該公司自研的 3D AI 創作引擎也同步升級。騰訊混元 3D AI 創作引擎於今年 1 月釋出,本次升級後的引擎帶來了四大功能,包括多檢視輸入、模型智慧減面、基於物理的渲染(PBR,Physically Based Rendering)材質升級和多格式相容。這些功能不僅提升了生成效率,也為 C 端創作者提供了更強大的工具。
圖丨騰訊混元 Hunyuan 3D 2.0 家族已有 6 款模型(來源:騰訊混元)
  • Turbo 系列模型:得益於騰訊混元的 3D 生成加速框架 Flash VDM,實現了數十倍的生成速度提升,能夠將高精度模型的生成的時間壓縮至秒級,大幅度提升了 3D 模型的生成時間。
  • 多檢視版本模型 Hunyuan3D-2mv:支援多檢視輸入資訊(1 到 4 張圖片額外輸入),能夠更精準地捕捉細節,生成更加符合原畫師、設計師使用者對高質量 3D 資產的預期。
  • 輕量級模型 Hunyuan3D-2mini:透過架構最佳化與執行效率提升,大幅度降低了算力需求,為移動端和低算力裝置提供了高效解決方案。
與 1 月份開源版本相比,其引數量從 11 億下降到 6 億,並且具有更高的隱空間壓縮率,從而能夠大幅降低了 GPU 視訊記憶體的佔用。
騰訊混元 3D AI 創作引擎於今年 1 月釋出,本次升級後的 3D AI 創作引擎帶來四大功能,包括:多檢視輸入、模型智慧減面、PBR 材質升級和多格式相容。
在多檢視輸入方面,操作非常簡單:上傳幾張標準視角的圖片後,就能得到快速生成的高質量 3D 模型,這大幅降低了遊戲製作、3D 使用者生成內容創作等場景的製作成本。
引擎的 3D 智慧減面功能能夠為模型“瘦身”。它能夠根據需求自動生成幾百到數千個三角面,最佳化幾何邊緣的平滑度,從而在減少面片數量的同時,最大限度地保留模型的細節表現。
在質感方面表現方面,透過 PBR 提供了更加真實的顏色以及材質表達,適用於遊戲開發、影視製作等高要求場景。
圖丨左圖:普通圖片,右圖:生成 PBR 模型(來源:騰訊混元)
此外,其還實現了多格式相容,除了支援 OBJ、GLB、FBX 等多種格式輸出以外,還可輸出 STL、USDZ 及 MP4 等主流格式,相容 3D 列印工具,可滿足模型快速預覽和移動端即時互動需求。
(來源:騰訊混元)
Flash VDM 加速技術是 Turbo 系列模型實現高效能的關鍵。在該技術加持下,最低只需要 5GB 的視訊記憶體就可以部署 mini 等模型,可以在任何消費級顯示卡上進行部署,並且執行時間可以降低到 1 秒以內。
在顯示卡支援方面,最低支援 4050、3050、2060、1070 及以上的顯示卡。此外,該技術還可以在 Mac 上的 M1 等晶片上進行部署,並且支援在 MacOS、Windows 和 Linux 三大作業系統上執行,甚至還可以直接在 CPU 上進行部署。
動圖丨 Hunyuan3D-2mini(左)和 Hunyuan3D-2 生成速度對比明顯,其中 mini 模型在點選操作後很快生成(來源:騰訊混元)
那麼,這項技術解決了什麼問題呢?目前,業界常用的 3D 生成模型範式是基於 Vecset 的擴散模型(VDM,Vecset Diffusion Model)。儘管這類模型能夠生成比較高的質量,但通常速度會比較慢。
一個明顯的對比是:Hunyuan3D-2 生成 3A 級別的資產,需要半分鐘左右;使用 Flash VDM 技術之後,其生成一個 3D 模型的時間提速到 1 秒鐘。值得關注的是,如果將其應用到更輕量的 mini 模型上,甚至可以做到 0.5 秒內生成。
圖丨推理階段時間佔比(來源:騰訊混元)
人工智慧生成內容(AIGC,Artificial Intelligence Generated Content)領域目前主流的方案分為兩個步驟:先進行壓縮,再進行從無到有的生成。
簡單來理解,3D 模型生成就像搭積木,先將雜亂無章的東西壓縮成積木模組(VAE 的解碼過程),再將這些積木堆成一個完整的 3D 模型(DIT 的生成過程)。這兩個階段是 AIGC 的通用流程,3D 生成模型也不例外。
然而,這兩個階段都需要加速。從上圖中可以看到,生成模型的推理時間佔比為 23.94%,而 VAE 解碼的時間佔比高達 75.88% 。因此,要想將生成時間從幾分鐘縮短到一兩秒,必須對這兩個階段同步進行加速。
騰訊混元團隊在解碼過程中透過智慧化地大幅減少採樣數量,以及減少每個取樣的計算量,實現了速度的大幅度提升(與 Hunyuan3D-2 模型相比):加速版模型的迭代步數為 5 步,而未加速版為 50 步。
(來源:騰訊混元)
此外,騰訊混元團隊還進行了使用者調查,透過眾包平臺對加速版模型(Turbo 模型)和未加速模型(Hunyuan3D-2)進行了評測。結果顯示,87.3% 的使用者認為加速版和未加速版的效果上沒有明顯差異。
當加速版的迭代步數從 5 步增加到 8 步時,認為兩者效果差不多的使用者比例提高到 90% 左右,這說明大多數使用者難以區分加速版和未加速版的生成效果。
圖丨使用者調查對比(來源:騰訊混元)
3D 生成模型技術近年來蓬勃發展。實際上,隨著手工建模的時間已經從一週、幾天縮短到幾分鐘甚至秒級的速度,為什麼還要追求更快的速度呢?
其背後反應的是市場對生成模型高質量和高可控性的需求,更快的速度也意味著可以形成良性、迅速的反饋機制。
另一方面,儘管在文字、影像、影片領域,生成的大多是單個物件,但在 3D 領域會涉及到成千上萬的 3D 資產的生成(例如城市、場景等),因此效率對更大規模的生成能力是一種強有力的技術保障。
目前,騰訊混元 3D 生成模型在多種場景應用,例如使用者生成內容、商品素材合成、遊戲 3D 資產生成等。
總體來說,隨著騰訊混元系列模型的釋出和開源,我們看到了 3D 生成技術在廣泛場景中的應用潛力,無論是專業工作室還是 C 端創作者,都能根據自身硬體條件選擇合適的模型進行更高效的創作。
對於目前 3D AIGC 的生成速度較慢,互動場景速度受限來說,全新的高質量、高速模型有利於推動互動式 3D 創作工具的發展,併為社群和使用者提供了二次開發的基礎。
儘管騰訊混元 3D 模型在實用性和靈活性方面表現出色,可滿足不同場景下對 3D 模型細節的嚴苛要求,但也需要認識到,在創意和細節程度方面,人工建模仍然具有不可替代的優勢。
正如他們在開源日直播中所表達的那樣,“一花獨放不是春,百花齊放春滿園”,只有透過技術的不斷迭代與生態的共建,才能推動 3D 生成技術的全面發展。DeepTech 將持續關注其後續更新,期待帶來更多實用功能和效能最佳化。
參考資料:
https://mp.weixin.qq.com/s/-9pKh5yO3FVOCE_qaIDY-g
https://3d.hunyuan.tencent.com/
https://huggingface.co/spaces/tencent/Hunyuan3D-2mv
https://github.com/Tencent/Hunyuan3D-2
運營/排版:何晨龍


相關文章