RenderFormer:神經網路如何重塑3D渲染?

(本文閱讀時間:11分鐘)
編者按:在計算機圖形學發展數十年之後,渲染技術正迎來一次由人工智慧驅動的革新。傳統的渲染方法依賴複雜的幾何建模和物理光學公式,而神經網路渲染(neural rendering)則嘗試以學習的方式建模光線傳播過程。近期,微軟亞洲研究院提出的 RenderFormer 模型首次展示了全新的圖形渲染能力,可在不依賴傳統光線追蹤或光柵化的前提下,僅透過神經網路就能實現支援任意場景輸入且具備全域性光照效果的3D渲染。RenderFormer 為構建渲染領域的基礎模型邁出了關鍵一步,也為神經渲染與生成模型等方向的融合提供了新的可能。
3D渲染(3D rendering)是將三維模型轉換為二維影像的過程,是計算機圖形學中的核心環節之一,廣泛應用於遊戲、影視、虛擬現實、建築視覺化等場景。過去幾十年,這一過程通常採用基於物理的建模方法,包括光線追蹤和光柵化技術,其本質是利用數學公式和人工經驗建模真實世界的物理過程。隨著人工智慧技術的進步,尤其是神經網路模型的發展,科研人員逐漸開始將神經網路用於渲染過程,並衍生出神經網路渲染(neural rendering)這一全新的研究領域。
神經網路渲染融合了機器學習與計算機圖形學,利用深度神經網路對場景進行建模與渲染,能夠高效擬合複雜的光線傳輸過程,無需理解和處理底層的物理光學邏輯,並可以很好地與其他人工智慧模組結合進行端到端訓練,協同最佳化特定任務表現。然而,當前大多數方法仍依賴影像輸入,缺乏對原始幾何和物理材質資訊的支援,且往往需要為每個新場景重新訓練模型,難以實現跨場景泛用化,限制了其在更廣泛應用中的發展。

RenderFormer:一體化神經渲染架構
若要構建一個渲染領域的基礎模型(foundation model for rendering),需要模型具備以下特性:
  • 支援最標準的傳統圖形學的場景描述,以三角形網格和定義在三角形網格上的材質資訊來表達場景;
  • 支援完整的渲染效果,即支援全域性光照(global illumination);
  • 不依賴任何傳統的圖形學渲染計算,也就是說,不需要光線追蹤(ray-tracing)也不需要光柵化(rasterization),完全透過神經網路進行端到端的影像合成。
基於此,微軟亞洲研究院的研究員們提出了一個通用的神經網路渲染模型 RenderFormer。該模型第一次證明了機器學習可以學習並實現一個泛用性的計算機圖形學渲染管線,無需顯式的光線追蹤或光柵化過程,就能實現支援任意場景輸且具備全域性光照效果的 3D 渲染。該成果已被 SIGGRAPH 2025 接收,並在 GitHub 上開源。
RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination
論文連結:
https://arxiv.org/abs/2505.21925
GitHub 連結:
https://microsoft.github.io/renderformer/

圖1:RenderFormer 基本架構
RenderFormer 的基本架構如圖1所示。整個場景輸入都是由在三維空間中的三角形網格(triangle token)進行表達,其中每個三角形都包含其三維空間位置、法線方向以及物理光學材質屬性(如漫反射顏色、高光顏色和粗糙度等)。場景中的光照也透過三角形來表達,每個三角形都有一個自發光屬性,對應光源的自發光屬性代表了這個光源的發光強度。
對視角輸入資訊(ray bundle token)的描述透過視線對映圖(ray map)實現。具體而言,當用一張2D影像儲存渲染輸出時,每個畫素都對應了一束從相機出發的視線,該視線資訊對應於三維空間中的一條射線,可以表徵輸出畫素。為了提高表達的效率,研究員們將圖片劃分為不同的矩形塊,並將一個矩形塊中的所有光線用一個視線束(ray bundle)來表達。
在此基礎上,RenderFormer 最終會輸出一組和視角輸入一一對應的 token 輸出,該輸出 token 可被解碼成對應的影像畫素,並完成渲染。

雙分支架構:視角無關與視角相關的協同建模
RenderFormer 的網路架構分為視角無關和視角相關兩個部分,研究員們針對性地設計了 view independent Transformer 和 view dependent Transformer。其中,view independent Transformer 僅處理三角形之間的視角無關的資訊,比如渲染中三角形之間的可見性(體現為陰影等效果)以及漫反射的光線傳輸。根據這些性質相關的計算,view independent Transformer 在設計中利用了三角形之間的注意力機制。
對於視角相關的資訊,比如哪些三角形應該出現在繪製的畫素上,或者視角相關的材質效果,如高光反射等,需要同時考慮視角資訊以及場景資訊。因此,view independent Transformer 利用 triangle token 和 ray bundle token 之間的交叉注意力機制,實現了這種視角相關的渲染計算。
與此同時,很多渲染演算法也需要進行影像域的計算。例如反走樣(anti-aliasing)演算法和影像域的反射(screen space reflection)等效果,都是在影像的畫素之間進行的,為了有效進行相關計算,研究員們在 view independent Transformer 中也引入了 ray bundle token 之間的自注意力機制。
為了驗證該架構的設計,研究員們進行了深入的消融實驗和視覺化分析。比較不同配置的消融實驗,證明了不同元件以及不同注意力機制對最終訓練的網路效能的影響。

表1:消融實驗,分析不同元件以及不同注意力機制對最終訓練的網路效能的影響。
不僅如此,為了更好地視覺化分析兩個階段的網路設計是否達到了預期目標,研究員們還進行了如下嘗試:
  • 針對已經訓練好的 view independent Transformer 另外訓練了一個解碼器,嘗試直接解碼出編碼在每個三角形上的漫反射渲染結果。下圖展示了幾個直接解碼過的結果,可以看到,RenderFormer 能夠成功地從 view independent Transformer 的輸出解碼出帶有粗略陰影的漫反射渲染結果,說明 view independent Transformer 可以獨立完成大部分的視角無關的渲染計算。

圖2:直接從 view independent Transformer 解碼出的視角無關的渲染效果,如漫反射光影以及粗略的陰影等效果。
  • 針對 view dependent Transformer,研究員們可視化了 triangle token 和 ray bundle token 之間的注意力輸出。如下圖所示,標註在茶壺上的一個畫素與其直接對應的茶壺形體上的三角形,具有最強的注意力輸出。同時,由於高光反射,該畫素還反射了側面一個牆面上的顏色,因此,該畫素和它所反射的牆面區域的三角形也有較強的注意力輸出。此外,隨著茶壺材質的變化,反射的強度逐漸變弱,並涉及到了更廣泛的三角形區域,這一效果在不同材質所對應的注意力輸出中也有所反映。

圖3:對注意力輸出的視覺化結果

RenderFormer的訓練方法與資料構建
為了訓練 RenderFormer,研究員們基於 Objaverse 資料集構建了訓練資料。具體而言,研究員們設計了4種不同的場景模板,在每個模板中隨機放置1-3個三維物體,同時賦予其隨機材質屬性。然後,藉助 Blender 的 Cycles 渲染器,研究員們渲染了大量不同視角和光照條件下的 HDR 影像,作為模型的訓練樣本。其基礎模型的規模為205M引數,並使用 AdamW 最佳化器進行訓練。
研究員們透過分階段訓練,來提升模型的訓練效率:首先在最多包含1536個三角形的256×256渲染解析度下訓練50萬步;而後提升至最多包含4096個三角形的512×512渲染解析度下繼續訓練10萬步。
由於 RenderFormer 支援任意三角形描述的場景輸入,所以研究員們在多個真實且複雜的三維場景中對其進行了測試。下圖展示了部分 RenderFormer 的渲染結果,可以看到 RenderFormer 能夠準確繪製出複雜的陰影、漫反射和鏡面反射效果。

圖4:RenderFormer 輸出的不同 3D 場景的渲染結果
得益於對視角變化和動態場景的精準建模,RenderFormer 也具備生成連續影片的能力。只需將動畫形式的場景資訊逐幀輸入並渲染,再將渲染的結果幀以影片形式播放,就可以得到一個自然連貫的動畫影片。
RenderFormer 渲染的 3D 動畫序列

展望未來:神經渲染的潛能與挑戰
RenderFormer 為神經網路渲染領域帶來了全新的視角。它首次證明了,無需依賴顯式的光線追蹤或光柵化過程,機器學習模型也可以學習並實現一個泛用性的計算機圖形學渲染管線,而且還能支援任意場景的輸入,逼真實現全域性光照效果。
當然,面向真正泛化的神經網路渲染,目前仍有很多亟待探索的方向。例如:如何進一步擴充套件場景的泛用性,支援更大規模的場景、更多的三角形輸入、更復雜的材質屬性,以及環境光照效果等。此外,由於 Transformer 架構本身具備良好的可拓展性和相容性,如何將 RenderFormer 和其他機器學習模型相結合也是非常值得研究的方向,比如與影片生成模型、影像生成模型,乃至具身智慧、世界模型等結合。
研究員們將持續在該領域深耕,期待 RenderFormer 及其相關技術可以在更多領域展現出廣闊的應用前景與研究價值。
微軟亞洲研究院新書《無界》上市
當面對集體性的難題時,思想的碰撞與智慧的共鳴顯得尤為重要。微軟亞洲研究院歷時兩年打磨的《無界——透視微軟創新研究之境》一書,正是獻給這個時代的探索指南。
包括周禮棟院長在內的十餘位頂尖科研人員參與了本書的編寫工作,他們從不同角度探討了人工智慧、計算機科學及其交叉領域的最新進展,分享了前沿的展望、觀點以及寶貴的科研經驗。
本書已獲得十餘位全球頂尖學者的推薦,其中包括圖靈獎得主、院士、知名高校領導、在各自領域享有盛譽的學者,以及微軟亞洲研究院的傑出院友。
現在,《無界——透視微軟創新研究之境》已全平臺火爆開售!首批讀者將獲得限量版微軟50週年書籤,書籤上的文章作者親筆簽名將隨機呈現,盲盒式驚喜等你開啟!
立即點選下方連結,開啟你的專屬閱讀之旅!
你也許還想看:


相關文章