
基於神經輻射場方法的場景表徵與渲染無疑是近兩年來視覺計算領域的熱點工作之一,吸引了大量的相關研究。近期提出的視覺神經場概念,可以很好地概括目前相關領域的一些進展,併為我們提供了一個更加清晰的研究視角。本文將介紹神經場方法的基本概念,以神經輻射場作為一個具體的例子,介紹神經場的主要流程,並簡單地展示一些相關的應用。
合成具有真實感的影像是計算機圖形學的核心話題,也是幾十年來相關研究的焦點。近期流行的神經渲染方法結合了經典的圖形學和機器學習的方法,使得產生具有真實感的影像變得更為便捷。其中基於神經輻射場方法的場景表徵與渲染無疑是近兩年來視覺計算領域的熱點工作之一,吸引了大量的相關研究。我們的公眾號曾有多篇文章介紹該領域的相關工作。由於目前該領域發展的非常快,在三維重建、新視角合成影像、三維形狀生成、人體數字建模任務以及機器人姿態估計等任務上都湧現了很多新的工作,亟待對現有的進展進行總結。
近期陸續出現了一些綜述性的文章以及一種新的視角,可以將相關方法歸納為視覺神經場(Neural Fields)方法。在該視角下,我們能夠更加清晰地看到一個更為廣闊的視覺相關的研究進展。本文的主要目的是介紹神經場方法,並從該視角下考察近期的視覺計算領域的一些進展。本文將先介紹神經場方法的基本概念,並以神經輻射場作為一個具體的例子,介紹神經場方法的主要流程。之後,為了進一步激發讀者的興趣,將展示一些相關的應用。最後是我們對該方法的一個小結。感興趣的讀者可以進一步參考相關綜述[1,2]。

首先從物理角度來看場的概念:可以認為場是彌散於時間和空間的一種物理量,例如溫度場、密度場、輻射場、磁場、引力場等。從數學的角度上說,場可以定義為時間與空間上的連續函式 。因此場隨著空間以及時間的變化而得到不同的值。且當函式 的維度 等於1時為標量場,大於1時為向量場,同理也可以定義張量場。如果問題不含時間 ,則函式可表示為 。需要注意的是,場的概念可以拓寬,這裡的 可以不僅僅指代具體的空間,若是抽象空間中的座標量,也可以看成 的分量。
由於神經網路可以擬合任意連續函式,因此可以用神經網路來擬合上述的函式 ,得到,其中 為神經網路的權重引數。注意這裡函式 的索引依賴的是連續的空間以及時間 ,而不像常見的離散的影像索引(給出離散數字索引得到影像的某個畫素)。另外,神經場常被稱為基於座標的神經網路(coordinate-based neural network)。神經場函式是連續自適應的,可以隨著引數的數量來調整網路的複雜度。因此神經場函式將比傳統離散方法具有更大的適應性,不再受制於離散取樣上的諸多限制。注意這裡的術語——神經場(Neural Fields)的使用,其概念限於上述的定義,有別於大腦相關的神經場研究[3]。
以上描述未免有些抽象,讓我們重新回顧一個具體的例子——神經輻射場(NeRF: Neural Radiance Fields)。神經輻射場可以從不同視角拍攝的圖片學習出一個三維的表徵,並渲染出新視角下的二維圖片。從函式擬合角度上來看,神經網路擬合的是如下函式:
其中 即為神經網路的權重引數, 是空間座標, 為相機角度, 為RGB顏色, 為不透明度。如果從資料流的角度上來看,輸入的是不同視角下的多張圖片,NeRF學習的是三維表徵 ,並透過渲染得到新視角下的圖片。感興趣的讀者可以進一步參考之前的公眾號[神經渲染最新進展與演算法(二):NeRF及其演化]

而關於神經場的訓練過程,也可以先考察NeRF的訓練過程。NeRF用神經網路得到隱式表徵 後,沿觀察方向對隱式表徵進行三維容積取樣,投影到觀測方向後產生渲染影像,損失函式由投影影像與實際資料的差得到,最後使用反向傳播訓練神經輻射場。如下圖:


如上圖,可以分為五個步驟,1)座標取樣過程(Coordinate Sampling):從座標空間中取樣資料點;2)神經網路(Neural network)過程:神經網路對取樣點進行推理;3)域重建(Reconstruction Domain)過程:重建神經場的表徵過程,4)前向可微對映(Differentiable Forward Map)過程;以及5)域感知過程:由觀測資料與前向隱射資料構成監督訓練過程。從資料流的角度來看,即從座標空間中進行取樣資料點,輸入到神經網路中得到場的表徵(例如輻射場),再透過前向對映將場的表徵投影到可觀測狀態下,最後與實際觀測資料做差構成損失函式。
那麼作為對神經輻射場的拓展,神經場方法與以往的方法相比,帶來了哪些新的思路呢?我們將在這裡簡單介紹一些相關的應用。
首先是超解析度任務。文獻[5]提出了一種實現高解析度的方法,與傳統離散地儲存、處理圖片的方式不同,作者提出了利用神經場的方式學習出了影像的連續表示,從而可以使得影像達到以任意解析度(可以在實際影像上實現30倍以上的高解析度)。

其次來看看人體數字化相關的任務。目前工業界動畫、遊戲中使用的靜態三維數字人體主要透過3D網格模型進行構建,多數由美術師使用三維建模軟體手工製作,因此費時費力。基於神經場方法為此帶來了新的可能。文獻[6]對基於NeRF方法提出了一種從單眼影片影像重建數字人體的新方法。

同樣也可以學習出人體頭部的神經場,從而可以對整個頭部的幾何、紋理、表情甚至是頭髮進行數字建模。

文獻[8]提出了使用神經符號距離函式(可以看成一種神經場)來編碼三維模型,從而實現可多層次細節捕捉的自適應。如下圖:

同樣可以將神經場方法應用於影片的編輯上,文獻[9]提出了一種將輸入影片分解為一組分層二維地圖集的方法,對影片中的每個畫素,估計其在每個地圖集中對應的二維座標,且設計的地圖集具有語義性,從而有助於在保持時間一致性的情況下,對地圖集進行簡單直觀的編輯,下圖是作者的可編輯展示效果:

另外神經場的應用並不侷限於視覺任務中,可以看到其在機器人領域上應用。例如文獻[10]提出了使用神經場來預測連桿最近距離從而完成避免機械臂自碰撞的任務,如下圖:

深度學習技術為計算機渲染提供了新的機遇。神經輻射場(NeRF)方法的場景表徵與容積渲染方案為基於座標的神經網路方法提供了良好的範例。作為NeRF的拓展,神經場的視角有助於我們看到在三維重建、新視角合成、三維形狀生成、人體數字建模以及機器人姿態估計等任務上的共通點。
神經場的隱式表徵函式是連續自適應的,可以透過控制引數的數量來調整網路的複雜度。因此神經場函式將比傳統離散方法具有更大的適應性,不再受制於離散取樣上的諸多限制。基於這樣的視角,我們看到了在超解析度、人體數字化、三維幾何建模、時序一致的影片編輯、機械臂避障任務上的應用,併為後面的研究描繪了一個研究藍圖。對於神經場方法後續的拓展,需要著重關注的過程應該是如何構建前向可微的對映過程,從而將隱式表徵轉換到可感知的投影資料上。神經場方法可以看作深度學習和物理場方法結合的一種優良正規化,相信在不久的將來,一批基於神經場方法的新型計算方案,將使深度學習發展的工具鏈生態更好地應用於各行各業。
[1] Xie, Yiheng, et al. "Neural Fields in Visual Computing and Beyond." arXiv preprint arXiv:2111.11426 (2021).
[2] Tewari, Ayush, et al. "Advances in neural rendering." arXiv preprint arXiv:2111.05849 (2021).
[3] Coombes, Stephen, et al., eds. Neural fields: theory and applications.Springer, 2014.
[4] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." European conference on computer vision. Springer, Cham, 2020.
[5] Chen, Yinbo, Sifei Liu, and Xiaolong Wang. "Learning continuous image representation with local implicit image function." Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2021.
[6] Peng, Sida, et al. "Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[7] Yenamandra, Tarun, et al. "i3DMM: Deep Implicit 3D Morphable Model of HumanHeads." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[8] Takikawa, Towaki, et al. "Neural geometric level of detail: Real-time rendering with implicit 3D shapes." Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2021.
[9] Kasten, Yoni, et al. "Layered Neural Atlases for Consistent Video Editing." arXiv preprint arXiv:2109.11418 (2021).
[10] Bhardwaj, Mohawk, et al. "STORM: An Integrated Framework for Fast Joint-SpaceModel-Predictive Control for Reactive Manipulation." 5th Annual Conference on Robot Learning. 2021.


壁仞科技研究院作為壁仞科技的前沿研究部門,旨在研究新型智慧計算系統的關鍵技術,重點關注新型架構,先進編譯技術和設計方法學,並將逐漸拓展研究方向,探索未來智慧系統的各種可能。壁仞科技研究院秉持開放的原則,將積極投入各類產學研合作並參與開源社群的建設,為相關領域的技術進步做出自己的貢獻。


關鍵詞
影像
輻射場
深度學習
函式
神經網路