CVPR2025高分論文|單圖秒變3D真人!IDOL技術開啟數字分身新時代

在虛擬現實、遊戲以及 3D 內容創作領域,從單張影像重建高保真且可動畫的全身 3D 人體一直是一個極具挑戰性的問題:人體多樣性、姿勢複雜性、資料稀缺性等等。
終於,近期由來自南京大學、中科院、清華大學、騰訊等機構的聯合研究團隊,提出一個名為 IDOL 的全新解決方案,高分拿下 2025 CVPR。專案主頁目前訪問次數已超 2500+ 次,且是可商用的 MIT 開源協議,備受業界矚目。
圖 1 IDOL 速覽
為什麼 IDOL 這麼受歡迎?因為它為單圖 3D 人體重建問題提供了一種全新的高效解決方案。該模型不僅能夠在單 GPU 上以秒級速度生成高解析度的逼真 3D 人體,還具備即時渲染、直接動畫化與編輯的能力,為 VR/AR、虛擬數字人以及相關領域的應用提供了全新思路。
  • 論文標題:IDOL: Instant Photorealistic 3D Human Creation from a Single Image
  • 論文地址:https://arxiv.org/pdf/2412.14963
  • 專案主頁:https://yiyuzhuang.github.io/IDOL
  • 該工作已開源:https://github.com/yiyuzhuang/IDOL(開源協議為 MIT,可商用)
IDOL demo video
單圖重建人體,為什麼這麼難?
從單幅影像重建高質量且可驅動的人體模型是一項極具挑戰性的任務。這一挑戰主要源於人體姿態和衣物拓撲外觀的多樣性,以及缺乏大規模高質量的訓練資料。
當前解決這一問題的方案通常面臨以下困難:
  • 最佳化時間長:基於擴散模型的最佳化過程耗時較長,通常需要數分鐘甚至數小時。
  • 依賴準確的 SMPL 引數估計:採用引數化人體模型作為拓撲先驗,依賴精確的 SMPL-X 引數估計,且迭代最佳化時間較長。
  • 泛化性不足:處理大姿態、大側面視角以及寬鬆衣物等挑戰性樣本時,泛化能力不足。
  • 缺乏真實感:重建結果常常出現卡通化或過飽和的現象,且對不可見區域的補充往往不夠自然。
  • 動畫化困難:許多重建方法未充分考慮後續的驅動需求,需額外的骨骼繫結(rigging)處理。且表達方式的限制使其難以泛化到新姿態。
  • 編輯能力受限:生成的 3D 模型往往難以直接進行外觀修改,需要額外的 UV 展開等處理。
IDOL 為什麼有效?
作者提出了一種高效且可擴充套件的重建框架,透過訓練一個簡單的前饋模型(IDOL),實現了即時且可泛化的真實感 3D 人體重建。
大規模資料集 HuGe100K
作者透過微調構建了一個能夠生成高視點一致性的多視點影像生成網路(MVChamp),並建立了 HuGe100K 資料集——一個以人為中心的大規模生成資料集。
該資料集包含超過 240 萬張高解析度(896×640)的人體多檢視影像,共計 100K 個(10 萬組)樣本。每組影像透過一個可控姿勢的影像到多視角生成模型生成,共包含 24 個視角幀。
資料集涵蓋了多樣化的個體特徵(包括不同年齡、性別、體型、服飾和場景)為模型訓練提供了充足的樣本,從而顯著提升了模型在各種複雜條件下的重建能力。
圖 2 構建 HuGe100K 資料集的路線圖
前饋式 Transformer 重建模型 IDOL
基於此資料集,我們訓練了一個預訓練的編碼器和一個基於 Transformer 的骨幹網路,能夠在 1 秒內實現快速重建。
該模型能夠直接從單張輸入影像中預測出人體在統一空間下的 3D 高斯表示。透過將人體姿勢、體型、服裝幾何結構與紋理進行解耦,模型不僅能生成高保真 3D 人體,還能實現無需後處理的直接動畫化,為後續的形狀與紋理編輯提供了便利。
圖 3 IDOL 的技術路線圖
方法流程與技術細節,如圖 3:
1. 資料集構建流程
  • 文字提示與影像生成:利用先進的文字到影像生成模型(如 Flux),設計描述性提示語,確保在「區域、服飾、體型、年齡、性別」等維度上實現均衡取樣,從而生成 10 萬張高質量全身人體影像(經過人工篩選,保留 90K 張合成影像,並融合 10K 張真實影像)。
  • 多視角影像生成:基於生成的全身影像,透過訓練多視角影片生成模型(MVChamp),再結合 SMPL-X 人體模板進行姿態擬合,獲得 24 個均勻分佈的視角影像,確保資料在 3D 一致性上的準確性。
2. 模型架構
  • 高解析度編碼器:採用預訓練的人體基礎模型 Sapiens,對 1024×1024 高解析度影像進行特徵提取,保留影像中的細粒度資訊。
  • UV 對齊 Transformer:透過學習的 UV Token 與影像特徵進行融合,將不規則的輸入影像對映到規則的 2D UV 空間中,此空間由 SMPL-X 模型定義,能夠提供豐富的幾何和語義先驗。
  • UV 解碼器:將融合後的特徵重構成 3D 高斯屬性圖(包括位置偏移、旋轉、尺度、顏色及不透明度),從而得到用於重建人體的高斯表示。
  • 動畫與渲染:利用線性混合蒙皮(LBS)技術,根據預定義的關節運動,對高斯表示進行前向變換,實現人體在不同姿態下的動畫化。
3. 訓練目標與損失函式
  • 模型採用多視角影像監督,利用均方誤差(MSE)和基於 VGG 網路的感知損失共同最佳化。這樣的組合既保證了重建影像在畫素級別的準確性,又能提高整體的感知質量,使生成的人體紋理更為自然、細膩。
本方法的優勢:高效與即時性
IDOL 模型經過最佳化後,在單個 GPU 上僅需不到 1 秒即可重建 1K 解析度的逼真 3D 人體,極大地提升了實用性和應用場景的廣泛性。該方法具有以下優勢:
  • 1 秒內完成高質量 3D 角色重建;
  • 統一的 UV 表達與大規模資料集支撐,泛化性強;
  • 可驅動性,無需額外綁骨;
  • 支援形變與紋理編輯;
  • 基於 3DGS 的表達,支援即時渲染。
定量看 IDOL 怎麼樣?
IDOL 與其他方法的對比
IDOL 相較傳統 3D 建模方法實現多重突破:自研 10 萬級多視角資料集 HuGe100K(傳統方法僅依賴少量掃描資料),顯著提升模型泛化能力;
創新性融合 SMPL-X 人體拓撲與 UV 展開的高斯濺射屬性(替代傳統體素/隱式場),實現解剖學精準建模;
1 秒級即時重建(傳統需數小時)且支援線性蒙皮自動驅動動畫(無需手動 RIGGING),更具備形變、換裝等靈活編輯特性。
表 1 IDOL 與傳統方法對比一覽
HuGe100K 與其他資料集的對比
透過對模型中各關鍵元件(如 Sapiens 編碼器、HuGe100K 資料集)的逐一剔除測試,驗證了各模組對整體效能的重要貢獻,證明了資料集規模與高解析度特徵提取對高質量重建不可或缺。
與現有資料集相比,HUGE100K 以 100K 個體數量(遠超同類最高 4500 個 ID)和超 2.4M 幀數的規模,成為目前全球最大、多樣性最豐富的 3D 人體資料集。
  • 多樣性突破:覆蓋 10 萬級體型與姿態,解決模型泛化瓶頸;
  • 動態建模:百萬級多視角幀包含多樣化姿態;
  • 準確動作標註:整合準確的 SMPL-X 引數,無縫適配主流 3D 工具鏈。為單圖重建、數字人驅動提供工業化級資料引擎,填補了高多樣性、大規模動態人體資料的空白。
表 2 HuGe 100K 資料集與其他資料集對比
重建質量對比
IDOL 在與現有方法(如基於迭代最佳化的 GTA、SIFU 等)對比中,IDOL 在 MSE、PSNR 和 LPIPS 等指標上均取得顯著優勢,證明了其在重建精度和細節保留上的優越性。
表 3 對比實驗及消融實驗指標
實驗驗證了 IDOL 在不同場景和姿態下均能生成細節豐富、紋理一致的 3D 人體。
無論是複雜服飾、特殊角度拍攝,還是不同體型的人體重建,IDOL 均表現出極好的泛化能力和魯棒性。
圖 4 IDOL 與其他方法效果對比
IDOL 未來能做什麼?
IDOL 方法不僅在技術上取得了顯著突破,其應用前景也十分廣闊。其開源協議 MIT 自由可商用,歡迎大家隨意搭建到自己的應用中。
利用 IDOL 生成的 3D 人體,使用者可以直接進行形狀和紋理編輯,例如調整服裝圖案或改變體型引數。同時,結合動畫技術,該模型還可以實現影片中的身份替換等應用,展現出極高的實用價值。
虛擬現實與增強現實:
即時生成真實感 3D 人體模型為 VR/AR 應用提供了新的互動方式,可以實現即時虛擬形象替換、數字孿生等創新應用場景。
數字娛樂與遊戲開發:
透過單圖重建,遊戲開發者可以快速生成高質量角色模型,大幅降低建模成本,加速內容創作流程,從而推動數字娛樂產業的發展。
虛擬試衣與時尚產業:
在電商和虛擬試衣領域,利用 IDOL 技術可以實現使用者上傳單張照片後即刻生成 3D 人體模型,為消費者提供個性化試衣、定製服務,提升使用者體驗。
這篇論文透過創新性的單圖重建思路,實現了從單張 2D 影像瞬時生成高質量 3D 人體模型的目標。其核心在於將影片模型先驗、人體先驗、隱式表示與可微渲染技術緊密結合,構建了一個端到端可微分的最佳化框架。重構了傳統單目人體重建的管線(圖片→3D→綁骨→驅動),極大的提高了泛化性實用性
實驗結果證明,IDOL 在重建精度、紋理細節和即時性方面均表現出色,展現了廣泛的應用前景。
未來,隨著技術的不斷演進和資料規模的進一步擴大,該方法有望在 VR/AR、遊戲、時尚等領域引領一場 3D 數字內容創作的革新,為實際應用提供更加高效、真實的解決方案。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章