CVPR2025|NeuralLightRig:單圖秒變專業影棚,幾何/材質/光影全搞定!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

Neural LightRig團隊 投稿量子位 | 公眾號 QbitAI
如何從一張普通的單幅影像準確估計物體的三維法線和材質屬性,是計算機視覺與圖形學領域長期關注的難題。
這種單圖逆渲染任務存在嚴重的不確定性,傳統方法通常需要多角度或多光源的拍攝條件,難以在日常場景中普遍應用。 
近日,由香港中文大學、上海人工智慧實驗室及南洋理工大學的研究團隊聯合研發的論文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。
其成果已被計算機視覺頂級會議CVPR 2025正式接收。

核心立意

Neural LightRig創新性地提出利用影像擴散模型(如Stable Diffusion)的強大先驗資訊,生成虛擬的多光照影像,從而有效解決單圖估計法線和PBR材質過程中存在的不確定性問題。
研究團隊首次提出透過微調預訓練的影像擴散模型,生成不同光照條件下的一致性多光照影像序列,這種方法有效減少了單圖估計過程中的內在不確定性。
混合條件策略:透過通道級別的影像拼接與參考注意力機制的結合,引入輸入影像的先驗資訊,有效保證了生成影像的顏色和紋理細節的一致性。
雙階段微調策略:首先僅微調擴散模型的初始卷積層及注意力層,以穩定早期訓練;隨後以較低學習率微調整個模型,進一步提升模型生成多光照影像的質量。

2. 基於U-Net的大型G-buffer重建模型

利用擴散模型生成的多光照影像作為輔助資訊,團隊設計了一個基於U-Net架構的迴歸模型,以實現對物體表面法線和PBR材質屬性(包括反照率、粗糙度、金屬性)的高效精確估計。
顯式光照條件輸入:透過對光源位置進行球面座標編碼,使模型能顯式地關聯不同光照方向下的影像變化,更有效地預測物體表面屬性。
最佳化目標設計:採用餘弦相似度損失和均方誤差(MSE)聯合最佳化法線估計,材質估計則採用簡單而有效的均方誤差損失。
資料增強策略:針對擴散模型生成影像與真實渲染影像之間的領域差異,提出隨機降質、亮度調整、光照方向擾動和資料混合策略,以提高模型的泛化能力與穩定性。

實驗表現

在自主構建的大規模資料集LightProp上的實驗結果表明,Neural LightRig在各項指標上全面超越現有先進方法:
  • 法線估計:平均角度誤差顯著降低至6.413°,大幅提高估計精度(詳見論文表1和圖5);
  • 材質估計與新光照下渲染效果:實現了對反照率、粗糙度和金屬性等材質屬性的精準估計,並能夠生成逼真的單圖重光照效果(詳見論文表2與圖6圖7)。

此外,該方法在真實世界影像中的泛化表現突出,展現出良好的實際應用潛力,適用於增強現實(AR)、虛擬現實(VR)和數字內容創作等廣泛領域。
法線估計

材質估計

新光照渲染

開源與資源為促進研究與應用,研究團隊已公開了相關資源,歡迎社群同行積極使用和探索:程式碼開源地址:https://github.com/ZexinHe/Neural-LightRig
資料集開源地址:https://huggingface.co/datasets/zxhezexin/NLR-LightProp-Objaverse-Renderings
預訓練模型地址:https://huggingface.co/zxhezexin/neural-lightrig-mld-and-recon
論文連結:https://arxiv.org/abs/2412.09593專案主頁:https://projects.zxhezexin.com/neural-lightrig/
何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章