2025 開年,DeepSeek-R1 的成功在全球掀起了一股開源風潮,上個月的開源周更是毫無保留地將自己的多項核心技術開放給了全球開發者。這種「完整技術棧」式的開源震撼了整個行業。
毫無疑問,開源正成為國內外大模型廠商的「戰略共識」。從文字到視覺,從對話到推理,開源生態的繁榮正推動大模型技術快速迭代。在這一波生成式 AI 浪潮中,MiniMax、月之暗面等公司紛紛從應用層迴歸模型層,聚焦底層架構創新,而非僅依賴上層應用變現。這一趨勢表明,模型本身的能力突破,而非單純的產品包裝,正成為行業競爭的核心。
在 3D 生成這一尚未被完全定義的領域,VAST 正以開源先鋒的姿態重新劃定行業標準。這家專注於 3D 生成賽道的公司,正透過自主研發打造面向三維內容創作的開源基礎設施。
3 月 28 日,專注於構建通用 3D 大模型的 VAST 一口氣開源了兩個 3D 生成專案 ——TripoSG 和 TripoSF。前者是一款基礎 3D 生成模型,在影像到 3D 生成任務上遠超所有閉源模型;後者則是 VAST 新一代三維基礎模型 TripoSF 能在所有閉源模型中同樣取得 SOTA 的基礎元件,用於高解析度的三維重建和生成任務。
VAST 宣佈,即日起,TripoSG 15 億引數小模型(非 MoE 版本、在 2048 token 的潛空間上執行)的權重、推理程式碼和互動式演示 Demo 將透過 GitHub 和 Hugging Face 統統提供給 AI 社群。

-
Homepage:https://yg256li.github.io/TripoSG-Page/
-
論文 ArXiv:https://arxiv.org/abs/2502.06608
-
GitHub 程式碼:https://github.com/VAST-AI-Research/TripoSG
-
Hugging Face 模型權重:https://huggingface.co/VAST-AI/TripoSG
-
Hugging Face 演示:https://huggingface.co/spaces/VAST-AI/TripoSG
同時,TripoSF VAE 的預訓練模型及相關的推理程式碼也同步開源。

-
Homepage:https://xianglonghe.github.io/TripoSF/
-
論文 ArXiv:https://arxiv.org/abs/2503.21732
-
GitHub 程式碼:https://github.com/VAST-AI-Research/TripoSF
-
Hugging Face 模型權重:https://huggingface.co/VAST-AI/TripoSF
這意味著,整個 3D AI 社群多了 SOTA 級基礎模型,這將大大降低入門門檻和創作門檻,讓開發者、創作者用上強大的 3D 生產力工具,並加速視覺特效(VFX)、遊戲開發、具身智慧、產品設計等 3D 場景的深度應用。
當然,VAST 的開源「野心」不止於此!
接下來一直到 4 月 18 日,他們還將繼續開源另外一系列 3D 生成專案,涵蓋了三維部件補全模型、通用三維模型繫結生成模型、三維幾何精細化模型以及 SIGGRAPH Asia 2024 RTL 收錄的互動式草圖生三維模型。
再加上此前開源的單張影像生成 3D 場景模型 MIDI 以及多視角影像生成模型 MV-Adapter,從通用大模型到元件補全、骨骼繫結模型、再到 3D 模型的超解析度等技術,一套從基礎到細節的完整 3D AI 生成體系即將完全展示給全球社群。
-
MIDI 程式碼:https://github.com/VAST-AI-Research/MIDI-3D
-
MV-Adapter 程式碼:https://github.com/huanngzh/MV-Adapter
VAST 的 3D「開源月」乾貨滿滿,又一次讓開源社群充滿了期待。
TripoSG:MoE Transformer
開啟高保真 3D 生成新正規化
這兩天,沉寂許久的 AI 生圖再次火了起來。
谷歌和 OpenAI 先後上線嘮嗑 P 圖功能,社交平臺上網友們瘋狂整活,就連老闆奧特曼的 X 頭像都用 AI 換成了日漫風格。
AI 影片圈更是「跑馬圈地」,各家模型隔三差五就上新一波。
同樣地,3D 生成領域的進化速度也是突飛猛進,但是高質量 3D 內容的自動化生成仍面臨諸多技術瓶頸,比如資料獲取、幾何表示複雜性和模型規模化等。
為了破解這些難題,VAST 創造性地將大規模文字、影像和影片合成領域的成功正規化引入 3D 領域,推出並開源了基礎 3D 生成模型 TripoSG。
與以往模型相比,TripoSG 在質量、細節和保真度上實現了重大突破,能夠直接從單張輸入影像生成細節驚豔的 3D 網格模型,並且生成效果達到了業界最佳水平。

那麼,該模型背後又藏著哪些技術亮點呢?
首先,TripoSG 率先將基於校正流 (Rectified Flow, RF) 的 Transformer 架構應用於 3D 形狀生成。相較於傳統的擴散模型,RF 提供了從噪聲到資料之間更簡潔的線性路徑建模,有助於實現更穩定、高效的訓練。結合 Transformer 架構已被驗證的可擴充套件性和卓越效能,構成了 TripoSG 的強大核心。其最大的研究模型引數量達到 40 億,可生成由 4096 個 Latent Token 表示的形狀,從而實現超乎尋常的細節表現力。
其次在模型架構上,TripoSG 基於 Transformer 基礎,融合了包括跳躍連線在內的關鍵增強設計,以改善跨層特徵融合。獨立的交叉注意力機制能夠高效地注入全域性(CLIP)和區域性(DINOv2)影像特徵,確保輸入影像與輸出 3D 形狀之間的精準對齊。
為了高效擴充套件模型規模,他們在 Transformer 模組中集成了混合專家模型層。這一策略允許在幾乎不增加推理計算成本的前提下顯著提升模型容量,並重點應用於網路中更深、更關鍵的層級。
對於 3D 生成來說,潛空間表示的質量至關重要。它不僅是生成模型的「骨架」,更是決定生成結果是否真實、高效、可控的核心。
為此,VAST 團隊開發了一種高效的變分自編碼器 (VAE),採用符號距離函式 (Signed Distance Functions, SDFs) 進行幾何表示,相較於此前常用的體素佔用柵格具有更高的精度。
更為關鍵的是,TripoSG 還引入了一種混合監督訓練策略,將標準的 SDF 損失與表面法線引導 (surface normal guidance) 和 程函方程損失 (eikonal loss) 相結合,促使 VAE 學習到更準確、細節更豐富的幾何表示,有效避免了其他方法中常見的瑕疵,為後續的流模型提供了質量更高的潛空間。此外,基於 Transformer 的 VAE 架構也展現出強大的解析度泛化能力,無需重新訓練即可處理更高解析度的輸入。
大模型訓練需要大規模、高質量的資料集,但直接使用來自 Objaverse 等公共資料來源的原始資料由於資料質量、多樣性等原因會導致模型效能欠佳,於是 VAST 團隊開發了一套完善的資料構建與治理流水線,包括質量評分、資料篩選、修復與增強、SDF 資料生產等環節。透過這一精細化流程,TripoSG 構建了一個包含 200 萬高質量「影像 – SDF」訓練樣本對的資料集。消融實驗也證明,在此高質量資料集上訓練的模型效能顯著優於在更大規模、但未經過濾的原始資料集上訓練的模型。
在這一系列技術加持下,TripoSG 在 3D 內容自動化生成領域取得了顯著的進展。
據 Normal-FID 等量化指標評估,以及基於大型多模態模型的定性評估顯示,TripoSG 無論是在生成速度和質量上,還是對大規模 3D 資料的高效利用和處理上,都比先前的 SOTA 方法更具優越性。
而 TripoSG 的開源更是為 3D 生成領域注入了一劑強心針,其意義不僅在於技術上的突破,更在於為整個行業開闢了新的發展方向。
TripoSF:閉源 3D 生成新 SOTA
並開源基礎元件與演算法
此前閉源 SOTA VAST 推出的 Tripo2.5 已確立行業標杆,而新一代 TripoSF 不僅以閉源 3D 生成新 SOTA 的姿態突破效能極限,更開源基礎元件與演算法推動生態發展。

在 3D 生成領域,高解析度、任意拓撲的三維重建是一大難題,面臨著模型生成精度、拓撲最佳化、即時渲染和計算資源等多方面的挑戰。
一方面,當遇到不規則形狀或者涉及多個交叉點、分支、孔洞、表面變化等複雜拓撲結構的重建時,依賴網格、體素或者點雲表示的三維重建方法往往力不從心;另一方面,高解析度建模則不僅要求捕捉全域性形狀,更需要在細節層次上處理紋理、表面細節、微觀結構等。
然而,當前主流 3D 表示方法,比如隱式場(SDF/Occupancy)、顯式網格、點雲,要麼對於細節的捕捉效果較差,並難以實現對高面數、複雜拓撲結構的直接重建;要麼在高解析度下即時渲染時產生巨大的記憶體開銷。這就導致業界很少有模型能夠生成媲美專業三維數字雕刻建模軟體 ZBrush 所創作出的的高精細、高複雜度作品。
為了克服這些侷限性,VAST 推出了新一代三維基礎模型 TripoSF,其核心是引入一種全新的表示方法 —— SparseFlex,實現了基於渲染監督的高解析度(最高可達 1024³)、任意拓撲結構的可微分網格重建,為行業帶來全新解決方案。



SparseFlex 相較於以往方法有哪些新穎之處呢?VAST 稱,SparseFlex 在借鑑英偉達 Flexicubes(可微分提取帶尖銳特徵的網格)優勢的基礎上,更進一步引入了稀疏體素結構。與傳統的、覆蓋整個空間的稠密網格不同,稀疏體素結構僅在必要的位置(即物體表面附近的區域)儲存和計算體素資料,避免了儲存空間浪費。
具體來講,SparseFlex 表達的設計帶來了三大顯著優勢,一是記憶體佔用大大降低,使得 TripoSF 可以在 1024³ 的高解析度下進行訓練和推理;二是原生支援任意拓撲,不僅透過省略空白區域的體素來自然地表示布料、葉片等開放表面,還能有效地捕捉內部結構;三是得益於 SparseFlex 的可微分屬性,TripoSF 可以使用渲染損失進行端到端訓練,從而避免了水密化等資料轉換造成的細節退化。

除了核心的 SparseFlex 表示方法,TripoSF 同樣在模型訓練、重建與編解碼上展現出了技術先進性。
為了實現高解析度下 TripoSF 的高效訓練,VAST 開發了一種「視錐體感知的分割槽體素訓練」(Frustum-Aware Sectional Voxel Training)策略。該策略借鑑了即時渲染中的「視錐體剔除」思想,在每次訓練迭代中,僅啟用和處理位於相機視錐體內的 SparseFlex 體素。
如此一來,一方面減少了渲染負擔,進一步降低訓練所需的記憶體和算力,使得 1024³ 解析度的訓練成為可能;另一方面,首次實現僅透過渲染監督重建模型的內部精細結構,減少了對高成本資料的依賴,並能在動態和複雜環境中實現更高適應性。
而在 SparseFlex 表示和高效訓練策略的基礎上,VAST 進一步構建了 TripoSF 變分自編碼器(VAE)。從輸入、編碼、解碼到輸出,TripoSF VAE 形成了一整套完善高效的處理流程,成為 TripoSF 重建和生成體驗向前邁出一大步的重要基礎,並率先開源。
其中在輸入時處理從三維網格取樣得到的點雲資料,然後使用稀疏 Transformer 將輸入的幾何對映為緊湊的隱空間編碼,接著從隱編碼重建高解析度的 SparseFlex 引數並採用自剪枝上取樣模組來保持稀疏性並精確定義邊界(開放表面的效果尤為顯著),最後生成 SparseFlex 引數以提取高質量的三維網格。
效果顯而易見,在與所有閉源模型的直接較量中,TripoSF 的質量達到了 SOTA。在多個標準基準測試中,TripoSF 實現了約 82% 的倒角距離(Chamfer Distance)降低和約 88% 的 F-score 提升,在精細細節、開放表面以及內部幾何結構的捕捉上做到了行業領先。

VAST 表示,作為 TripoSF 開源專案的第一階段,TripoSF VAE 為完整的 3D 生成系統提供了核心的編解碼能力。另外,VAST 還基於 VAE 隱空間構建了 Rectified Flow Transformer 生成模型,以高效生成高保真的三維模型。滿血版 TripoSF 生成模型將在 Tripo3.0 版本中亮相。
此次,TripoSF VAE 以及核心 SparseFlex 表示的開源,將使更多研究人員和開發者體驗到其為高解析度三維重建帶來的效能增益,並基於它探索更多的應用可能性。這讓我們更加期待 TripoSF 下一階段的開源,屆時 VAST 會為社群帶來更多前沿 3D 技術。
結語
VAST 兩大模型的開源只是個開始,這樣一波技術更新,會為 3D 開源社群注入新的活力。
影片生成之後,人們都在期待 AI 帶來的 3D 創作能力。在國內外社群,越來越多的設計師正在嘗試把 3D 生成模型引入自己的工作流,改進遊戲、影片、工業設計等領域的生產形態。由於 AI 生成的內容越來越精細、準確,很多一直以來面臨的挑戰迎刃而解。在 2024 年初與 Stability.ai 一起合作開源 TripoSR 時,VAST 曾定義 3D 生成技術當時第一次達到了 Midjourney V3 的成熟度,並判斷 2025 年 3D 生成會達到 Midjourney V5 的水平,如今可見技術向前邁進的速度著實比預計的更快。
以 AI 技術發展的角度來看,3D 生成還是「世界模型」的基座,更強大的 3D 生成技術,將會拓展 AI 的前沿。
可以預見,在 VAST 這一波開源之後,3D 大模型或許很快達到實用化和商業化的程度,並催生出更多新場景的落地應用。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]