TC-Light團隊 投稿量子位 | 公眾號 QbitAI
具身這麼火,面向具身場景的生成式渲染器也來了。
中科院自動化所張兆翔教授團隊研發的TC-Light,能夠對具身訓練任務中複雜和劇烈運動的長影片序列進行逼真的光照與紋理重渲染,同時具備良好的時序一致性和低計算成本開銷。
它能夠幫助減少Sim2Real Gap以及實現Real2Real的資料增強,幫助獲得具身智慧訓練所需的海量高質量資料。
論文Demo程式碼均已公開。

研究背景
光線及其與周圍環境的互動共同塑造了人類以及具身智慧體感知數字世界和現實世界的基本方式。
然而,在現實環境中採集不同光照與場景條件下的資料代價高昂,而模擬環境中儘管可以獲得近乎無限的資料,但受限於算力資源,通常需要對光線的多次折射衍射以及紋理精度進行近似和簡化,使得視覺真實性無可避免地受到損失,在視覺層面產生Sim2Real Gap。
而如果能夠藉助生成式模型根據所需的光照條件對現實或模擬環境下采集到的影片資料進行重渲染,不僅夠幫助獲得增加已有真實資料的多樣性,並且能夠彌合計算誤差帶來的CG感,使得從模擬器中能夠得到視覺上高度真實的感測器資料,包括RL-CycleGAN在內的許多工作已經證實,這一策略能夠幫助減少將具身模型遷移到真實環境中所需微調的資料量和訓練量。
儘管這一任務意義重大,但實際解決過程面臨許多挑戰。
用於訓練的影片資料往往伴隨複雜的運動以及前景物體的頻繁進出,同時影片序列有著較長的長度以及較高的解析度,這使得已有的演算法要麼受制於訓練所用影片資料的分佈(如COSMOS-Transfer1,Relighting4D),要麼難以承受巨大的計算開銷(如Light-A-Video, RelightVid),要麼難以保證良好的時序一致性(如VidToMe, RAVE等)。

△圖1 TC-Light效果展示
為了推動這一問題的解決,團隊提出了TC-Light演算法,在提升影片生成模型計算效率的同時,透過one-shot兩階段快速最佳化提升輸出結果的一致性,本演算法在保持重渲染真實性的同時,時序一致性和計算效率方面實現相比於已有演算法的顯著提高。下面對演算法細節進行詳細介紹。
TC-Light演算法介紹
零樣本時序模型擴充套件
TC-Light首先使用影片擴散模型根據文字指令對輸入影片進行初步的重渲染。基於預訓練好的SOTA影像模型IC-Light以及VidToMe架構進行拓展,同時引入Decayed Multi-Axis Denoising模組增強時序一致性。
具體而言,VidToMe在模型的自注意力模組前後分別對來自不同幀的相似token進行聚合和拆分,從而增強時序一致性並減少計算開銷;
如圖2中(a)所示,類似Slicedit,Decayed Multi-Axis Denoising模組將輸入影片分別視作影像(x-y平面)的序列和時空切片(y-t平面)的序列,分別用輸入的文字指令和空文字指令進行去噪,並對兩組噪聲進行整合,從而使用原影片的運動資訊指導去噪過程。
不同於Slicedit,團隊在AIN模組對兩組噪聲的統計特性進行了對齊,同時時空切片部分的噪聲權重隨去噪步數指數下降,從而避免原影片光照和紋理分佈對重渲染結果的過度影響。

△圖2 TC-Light管線示意圖
兩階段時序一致性最佳化策略
儘管透過引入前一小節的模型,影片生成式重渲染結果的一致性得到了有效改善,但輸出結果仍然存在紋理和光照的跳變。
因此進一步引入兩階段的時序一致性最佳化策略,這同時也是TC-Light的核心模組。
在第一階段,如圖2中(b)所示,為每一幀引入Appearance Embedding以調整曝光度,並根據MemFlow從輸入影片估計的光流或模擬器給出的光流最佳化幀間一致性,從而對齊全域性光照。這一階段的最佳化過程非常快速,A100上300幀960×540解析度只需要數十秒的時間即可完成。
在第二階段,進一步對光照和紋理細節進行最佳化。如圖2中(c)所示,這裡首先根據光流以及可能提供的每個畫素在世界系下的位置資訊,快速將影片壓縮為碼本(也即圖中的Unique Video Tensor),即:

其中κ(x,y,t)為影片幀給定畫素依據光流及空間資訊得到的碼本索引,這一基於時空先驗的壓縮方式在原影片上近乎可以保持無損。不同於Vector Quantization僅考慮顏色相似性的做法,這一壓縮方案保證了被聚合的畫素之間的時空關聯性,保證對應同一個碼本值的不同畫素具有相似的時空一致性最佳化目標和梯度。
隨後,以碼本作為最佳化目標,以解碼後的幀間一致性作為主要最佳化目標,並且以TV Loss抑制噪聲,同時以SSIM Loss使得與一階段最佳化結果保持一定程度的結構相似性。
實驗結果表明,這一階段的最佳化能顯著改善時序一致性,同時非常快速,A100上300幀960×540解析度通常只花費2分鐘左右,且由於以壓縮後的碼本作為最佳化目標,不僅避免了以往工作以NeRF或3DGS為載體帶來的10-30分鐘的訓練代價,視訊記憶體開銷上也能得到最佳化。
實驗與分析

△表1 與主流演算法的定量效能比較
其中VidToMe和Slicedit的基模型都換成了IC-Light以進行公平比較。Ours-light指不用Multi-Axis Denoising模組的結果,相當於對VidToMe直接應用兩階段最佳化演算法。
為了驗證演算法在長動態序列的重渲染表現,從CARLA、Waymo、AgiBot-DigitalWorld、DROID等資料集收集了58個序列進行綜合評測,結果如表1所示。可以看到該演算法克服了已有演算法在時序一致性和計算開銷等方面的問題,取得了最佳的綜合性能表現。
圖3的視覺化對比也表明,新演算法在保持內容細節的同時得到了高質量的重渲染效能表現。

△圖3 一致性與生成質量視覺化對比。
TC-Light避免了(a)中像Slicedit和COSMOS-Transfer1那樣不自然的重渲染結果和(b)中展現出的模糊失真,或(c)中像IC-Light和VidToMe那樣的時序不一致性。量化以及video比較可以從project page找到。
最後總結一下,TC-Light作為一種新的生成式渲染器,克服了具身環境下視覺感測器資料重渲染面對的時序一致性和長序列計算開銷兩大挑戰,在效能表現上優於現有技術,不僅為Sim2Real和Real2Real資料擴充套件帶來了新的思路,也為影片編輯領域帶來了新的模型範式。TC-Light的論文和程式碼均已開源,希望能夠相關領域帶來不同的思考和啟發。
專案主頁: https://dekuliutesla.github.io/tclight/論文連結: https://arxiv.org/abs/2506.18904程式碼連結: https://github.com/Linketic/TC-Light
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —

🌟 點亮星標 🌟