單張照片生成360°3D場景，支援靈活視角漫遊｜人大&北師大&位元組

FlexWorld團隊投稿量子位 | 公眾號 QbitAI

從單張影像生成靈活視角3D場景的技術來了，在考古保護、自主導航等直接獲取3D資料成本高昂或不可行的領域具有重要應用價值。

這一任務本質上是高度不適定的：單一的2D影像無法提供足夠的資訊來消除完整3D結構的歧義，尤其是在極端視角（如180°旋轉）下，先前被遮擋或缺失的內容可能會引入顯著的不確定性。

生成模型，特別是擴散模型，為解決這一問題提供了一種潛在的技術路徑。儘管現有方法通常依賴預訓練的生成模型作為新視角合成的先驗，但它們仍面臨顯著挑戰。

例如，基於影像的擴散方法容易累積內容誤差，基於影片的擴散方法則難以處理可能生成的動態內容構建靜態3D場景的影響。最近的研究嘗試透過在影片擴散模型中引入點雲先驗來提升一致性，雖然取得了一定進展，但在可擴充套件性方面仍存在侷限，尤其是在大視角變化下的表現有待提升。

針對上述問題，人大高瓴李崇軒、文繼榮團隊、北師大王一凱團隊與字節跳動的研究員提出了一種新方法FlexWorld，用於從單張影像生成靈活視角的3D場景。

與現有方法不同，FlexWorld透過合成和整合新的3D內容，逐步構建並擴充套件一個持久的3D表示。

該方法包含兩個核心元件：

(1) 一個強大的影片到影片（video-to-video, V2V）擴散模型，用於從粗糙場景渲染的不完整影像生成完整的視角影像；(2) 一個幾何感知的3D場景擴充套件過程，用於提取新的3D內容並將其整合到全域性結構中。研究團隊在精確深度估計的訓練資料上對先進的影片基礎模型進行了微調，使其能夠在大幅度相機變化下生成高質量內容。

基於V2V模型，場景擴充套件過程透過相機軌跡規劃、場景整合和細化步驟，逐步從單張影像構建出支援靈活視角觀察（包括360°旋轉和縮放等）的3D場景生成。

透過大量實驗，研究團隊驗證了FlexWorld在高質量影片和靈活視角3D場景合成方面的效能。FlexWorld在生成大幅度相機變化控制下的影片中展現了出色的視覺質量，同時在生成靈活視角3D場景時保持了較高的空間一致性。為促進學術交流和技術推廣，團隊已開源相關程式碼倉庫與訓練權重，供研究社群進一步探索和應用。

效能展示

支援大幅轉角的影片到影片生成

在多種不同來源的輸入影像和相機軌跡下，FlexWorld 中微調的影片模型可以生成較高質量且3D一致的影片內容。受益於較好的一致性，這些影片可以直接用於3D重建，為後續生成靈活視角的場景提供了較好的視覺內容。

靈活視角的場景生成

根據單張圖片輸入，FlexWorld可以生成靈活視角下的3D場景，這些生成的場景可以在360度旋轉，前進和後退等視角進行探索。這些場景透過多段影片逐漸構築生成，旨在擴展出更大的可探索區域，而非僅關注前方區域。

核心方法

下圖展示了FlexWorld的整體框架。

逐步構建場景

FlexWorld採用多段影片逐步構建出一個具有更大可探索區域的場景。在場景內容不足的區域，FlexWorld渲染出該區域的殘缺場景影片，並透過一個經過微調的影片到影片模型，獲得補完的場景影片。在場景融合階段，影片中的關鍵幀將會被填充置入場景的不足區域，其他幀則會作為場景表示（即3D Gaussian splatting）的參考影像最佳化整體場景表徵。

支援大轉角的影片到影片模型

FlexWorld中包含一個經過微調的影片模型，該模型以影片作為條件，可以從殘缺的輸入影片中捕捉到相機執行軌跡，輸出符合輸入軌跡的完好影片，保持良好的3D一致性。該影片模型選用CogVideoX-5B-I2V作為基座模型，並構造了一系列深度良好的殘缺影片-良好影片訓練對。不同於依賴深度估計模型獲得的訓練對，FlexWorld構建的訓練對來自於同一場景密集重建提供的深度，這種訓練對使模型始終明確應該修復的區域，從而能夠在推理時支援更大轉角的相機運動。

基於影片內容的場景融合

FlexWorld一方面透過高斯最佳化將多段影片內容融合進持久化的3D表徵中，另一方面透過密集立體模型和深度融合策略，將多段影片的關鍵幀直接作為初始三維高斯加入表徵作為初始化，以充分利用深度估計模型提供的先驗和影片內部的一致性。

總結

本文介紹了FlexWorld，這是一個從單張影像生成靈活視角3D場景的框架。它結合了一個微調的影片到影片擴散模型，用於高質量的新視角合成，以及一個漸進的靈活視角3D場景生成過程。透過利用先進的預訓練影片基礎模型和精確的訓練資料，FlexWorld能夠處理大幅度的相機姿態變化，從而實現一致的、支援360°旋轉和前進後退觀察的3D場景生成。大量實驗表明，與現有方法相比，FlexWorld在視角靈活性和視覺質量效能方面表現優異。我們相信FlexWorld具有廣闊的前景，並在虛擬現實內容創作和3D旅遊領域具有重要潛力。

本文由中國人民大學高瓴人工智慧學院李崇軒、文繼榮教授團隊、北京師範大學人工智慧學院王一凱副教授和字節跳動共同完成。共同一作陳路晰和周子晗分別是中國人民大學高瓴人工智慧學院的博士生與碩士生，導師為李崇軒副教授。王一凱副教授、李崇軒副教授為共同通訊作者。

論文連結：https://arxiv.org/abs/2503.13265專案地址：https://ml-gsai.github.io/FlexWorld/程式碼倉庫：https://github.com/ML-GSAI/FlexWorld

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請於工作日發郵件到：

[email protected]

標題註明【投稿】，告訴我們：

你是誰，從哪來，投稿內容

附上論文/專案主頁連結，以及聯絡方式哦

我們會（儘量）及時回覆你