CVPR最佳論文候選:NeRF新突破!用啟發式引導分割去除瞬態干擾物


©作者 | 陳家豪
單位 | 中山大學碩士生
來源 | 機器之心
自被提出以來,神經輻射場(Neural Radiance Fields, NeRF)因其在新視角合成及三維重建中的出色表現而受到極大關注。
雖然大量工作都在嘗試改進 NeRF 的渲染質量或執行速度,但一個現實的問題很少被人提及:如果待建模場景中出現了意想不到的瞬態干擾物,我們應該如何消除它們對 NeRF 造成的影響
本文中,來自中山大學、卡迪夫大學、賓夕法尼亞大學和思謀科技的研究人員對此展開了深入研究,並提出了一種解決該問題的新穎正規化。
透過總結現有方法的優勢缺陷、拓寬已有技術的應用思路,該方法不僅可以在各類場景中準確區分靜瞬態元素、提高 NeRF 的渲染質量,還入圍了 CVPR 2024 最佳論文候選。
論文標題:
NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation
論文地址:
https://arxiv.org/abs/2403.17537
程式碼地址:
https://www.sysu-hcp.net/projects/cv/132.html
讓我們一起來了解下這項工作。

背景介紹

新視角合成是計算機視覺和圖形學的一個重要任務,演算法模型需要利用給定的多視角影像及相機位姿來生成目標位姿對應的影像。NeRF 在該任務上取得了重要突破,但其有效性與靜態場景的假設有關。
具體來說,NeRF 要求待建模場景在拍攝過程中保持靜止、多視角影像內容必須一致。在現實中,我們很難滿足這種要求,例如在戶外拍攝時場景以外的車輛或路人可能會在鏡頭中隨機出現移動,在室內拍攝時某個物體或陰影會不經意間遮擋鏡頭。我們把這類場景以外的表現出運動或不一致的元素稱為瞬態干擾物(Transient Distractors)。如果我們不能消除它們,它們會給 NeRF 的渲染結果帶來偽影。
▲ 瞬態干擾物(黃色方框)的存在會導致大量偽影
目前解決瞬態干擾物問題的方法大致可分為兩種。第一種方法使用語義分割等已有分割模型顯式地得到與干擾物有關的掩膜,然後在訓練 NeRF 時遮蔽對應畫素雖然這類方法可以得到精確的分割結果,但它們並不通用。這是因為我們需要提前得知與干擾物有關的先驗知識(如物體類別、初始掩膜等)、並且模型可以識別這些干擾物。
與第一種方法不同,第二種方法在訓練 NeRF 時使用啟發式演算法隱式地處理瞬態干擾物,不要求先驗知識雖然這類方法更加通用,但它們因設計複雜性和高度不適定性而無法準確分離瞬態干擾物和靜態場景元素。例如,由於瞬態畫素對應的顏色紋理在不同視角下不一致,在訓練 NeRF 時該畫素的預測值和真值之間的顏色殘差往往大於靜態畫素的殘差。
然而,場景中的高頻靜態細節也會因難以擬合而有過大的殘差,因此一些透過設定殘差閾值來去除瞬態干擾物的方法很容易丟失高頻靜態細節。
▲ 現有方法與本文提出的啟發式引導分割(HuGS)之間的比較。當靜態場景被瞬態干擾物干擾時,(a)基於分割的方法依賴先驗知識,會因無法識別意料之外的瞬態物體(例如比薩)而出現相關偽影;(b)基於啟發式的方法更具通用性但不夠準確(例如丟失了高頻靜態桌布紋理);(c)HuGS 結合了它們的優點,能夠精確地分離瞬態干擾物和靜態場景元素,從而顯著改善 NeRF 的結果。
方法概述
基於分割模型的方法準確但不通用、基於啟發式演算法的方法通用但不準確,那麼是否可以把它們結合起來揚長補短、做到既準確又通用呢?
因此,論文作者以「horses for courses」為動機,提出了一種名為啟發式引導分割(Heuristics-Guided Segmentation, HuGS)的新穎正規化。透過巧妙結合手工設計的啟發式演算法和由提示驅動的分割模型,HuGS 可以在沒有額外先驗知識的情況下準確區分場景中的瞬態干擾物和靜態元素。
具體來說,HuGS 首先使用啟發式演算法大致區分多視角影像中的靜瞬態元素並輸出粗糙提示,然後使用粗糙提示引導分割模型生成更加精確的分割掩膜。在訓練 NeRF 時,這些掩膜會被用來遮蔽瞬態畫素、消除瞬態干擾物對 NeRF 的影響。
 HuGS 設計思路
在具體實現上,論文作者選用 Segment Anything Model (SAM) 作為 HuGS 的分割模型SAM 是當前最先進的基於提示驅動的分割模型,可以接受點、框、掩膜等不同型別的提示輸入並輸出對應的例項分割掩膜。
至於啟發式演算法,作者在深入分析後提出了一種組合啟發式基於 Structure-from-Motion (SfM) 的啟發式被用於捕獲場景的高頻靜態細節,而基於顏色殘差的啟發式被用於捕獲低頻靜態細節。兩種啟發式演算法輸出的粗糙靜態掩膜互不相同,而它們的並集會被用來引導 SAM 得到更加準確的靜態掩膜。透過無縫結合這兩種啟發式演算法,HuGS 在面對不同紋理細節時可以穩健地識別各類靜態元素。
▲ HuGS 流程圖。(a) 給定帶有瞬態干擾物的靜態場景下的無序多視角影像,HuGS 首先獲得兩種啟發式資訊。(b) 基於 SfM 的啟發式演算法透過 SfM 來獲取區分靜態特徵點和瞬態特徵點,然後使用稀疏的靜態特徵點作為提示引導 SAM 生成稠密的靜態掩膜。(c) 基於顏色殘差的啟發式演算法依賴於部分訓練(即只經過數千次迭代訓練)的 NeRF。其預測影像和真實影像之間的顏色殘差可以用於生成另一組靜態掩膜。(d) 兩種不同掩膜的結合最終引導 SAM 生成 (e) 每個影像的準確靜態掩膜。
基於 SfM 的啟發式演算法
SfM 是一種從二維影像重建三維結構的技術在提取影像的二維特徵後,SfM 會對特徵進行匹配和幾何驗證、重建稀疏三維點雲。SfM 在 NeRF 中常被用於估計影像相機位姿,而論文作者發現 SfM 還可以被用來區分場景的靜瞬態元素設某個二維特徵點的匹配數量為與其對應相同三維點雲點的其他二維特徵點數量,那麼來自靜態區域的二維特徵點的匹配數量要大於來自瞬態區域的特徵點匹配數量。
基於該發現,我們可以在匹配數量上設定閾值來過濾得到靜態特徵點,再透過 SAM 將靜態特徵點轉換為靜態掩膜。為了驗證該發現的正確性,論文作者在 Kubric 資料集上進行了統計。正如下圖所示,不同影像區域的特徵點匹配數量有顯著的差異。另一個視覺化結果表明合理的閾值設定可以在去除瞬態特徵點的同時保留靜態特徵點。
▲ 左圖為來自不同影像區域的特徵點在匹配數量上的數量分佈直方圖,其中靜態區域特徵點的匹配數量均勻分佈在 [0,200] 區間內,而瞬態區域特徵點的匹配數量趨近於 0、集中分佈在 [0,10] 區間內。右圖為經過過濾後不同影像區域的剩餘特徵點密度隨閾值變化的曲線圖,其中整張影像與靜態區域的剩餘特徵點密度隨著閾值上升呈線性下降,而瞬態區域的剩餘特徵點密度呈指數下降、並在閾值大於 0.2 後幾乎為 0。
▲ 兩個不同視角影像的剩餘特徵點隨閾值上升而變化的視覺化分佈情況。位於瞬態區域內的剩餘特徵點被逐漸去除,而靜態區域的大部分特徵點仍被保留。
基於顏色殘差的啟發式演算法
雖然基於 SfM 的啟發式在大部分場景中表現良好,但它無法很好地捕獲靜態平滑紋理,這是因為平滑紋理缺乏顯著特徵、難以被 SfM 的特徵提取演算法識別。
為了能夠識別低頻紋理,論文作者引入了基於顏色殘差的啟發式演算法:首先在原始多視角影像上部分訓練 NeRF(即只迭代數千次)、得到欠擬合模型,然後獲取渲染影像和目標影像之間的顏色殘差。正如背景介紹所述,低頻靜態紋理區域的顏色殘差要小於其他型別區域的殘差,因此可以在顏色殘差上設定閾值獲取與低頻靜態紋理相關的粗糙掩膜。透過顏色殘差得到的掩膜可以和透過 SfM 得到的掩膜互補,形成完整結果。
▲ 兩種啟發式演算法的組合,其中(a)為輸入的目標影像,(d)為只迭代五千次的 NeRF 渲染結果。基於 SfM 的啟發式得到的靜態掩膜 (b) 在捕獲高頻靜態細節(如盒子紋理)的同時遺漏了靜態平滑部分(如白色椅背)。基於顏色殘差的啟發式得到的靜態掩膜(e)及其單獨引導 SAM 得到的分割掩膜(f)取得了相反效果。它們的並集(c)在覆蓋所有靜態元素的同時區分了瞬態干擾物(即粉色氣球)。
實驗結果
視覺化結果

這裡展示了 HuGS 在兩個不同真實場景下的視覺化分割過程,以及基線模型 Mip-NeRF 360 在應用靜態掩膜前後的渲染結果比較。在組合啟發式演算法和 SAM 的幫助下,HuGS 可以生成準確的靜態掩膜,而 Mip-NeRF 360 在應用靜態掩膜後消除了大量偽影,RGB 圖和深度圖的渲染質量有明顯提升。
定性 / 定量渲染結果比較
這裡展示了論文方法在三個資料集和兩個基線模型上的實驗結果,以及與現有方法的比較。現有方法要麼無法消除瞬態干擾物帶來的偽影,要麼抹除掉過多的靜態紋理細節。相比之下,論文方法可以在有效消除偽影的同時更好地保留靜態細節。
定性 / 定量分割結果比較
論文作者同樣在 Kubric 資料集上與現有分割演算法進行了比較。實驗結果表明,即使提供了先驗知識,語義分割、影片分割等現有分割模型依然表現不佳,這是因為現有分割模型都沒有針對該任務進行設計。現有基於啟發式的方法雖然可以大致定位瞬態干擾物的位置,但無法得到更加精確的分割結果。與之相比,HuGS 透過結合啟發式演算法和分割模型,在沒有額外先驗知識的情況下準確分離瞬態干擾物和靜態場景元素。
消融實驗結果
論文作者還透過去除不同元件的方式來驗證各元件對 HuGS 造成的影響。結果表明,缺少基於 SfM 的啟發式的模型 (b) 無法很好地重建藍色方框中的低頻靜態紋理,而缺少基於顏色殘差的啟發式的模型 (c) 和 (d) 丟失了黃色方框中的高頻靜態細節。相比之下,完整方法 (f) 的數值指標和視覺化結果最佳。
全文總結
論文提出了一種新穎的啟發式引導分割正規化,有效解決了 NeRF 現實訓練中常見的瞬時干擾問題。透過戰略性地結合手工設計的啟發式和最先進的分割模型的互補優勢,該方法在沒有任何先驗知識的情況下實現了對不同場景中瞬時干擾物的高度準確分割。透過精心設計的啟發式,論文方法能夠穩健地捕捉到高頻和低頻的靜態場景元素。大量實驗證明了該方法的先進性。
關於作者
論文第一作者為中山大學計算機學院研二碩士生陳家豪,研究方向為神經渲染和三維重建,導師為李冠彬教授。該論文是他的第一個工作。論文通訊作者為中山大學計算機學院、人機物智慧融合實驗室李冠彬教授,博士生導師,國家優秀青年基金獲得者。團隊主要研究領域為視覺感知、場景建模、理解與生成。迄今為止累計發表 CCF A 類 / 中科院一區論文 150 餘篇,Google Scholar 引用超過 12000 次,曾獲得吳文俊人工智慧優秀青年獎等榮譽。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章