謝賽寧團隊新作:不用提示詞精準實現3D畫面控制

henry 發自 凹非寺量子位 | 公眾號 QbitAI
曾幾何時,用文字生成影像已經變得像用筆作畫一樣稀鬆平常。
但你有沒有想過拖動方向鍵來控制畫面?
像這樣,拖動方向鍵(或用滑鼠拖動滑塊)讓畫面裡的物體左右移動:
還能旋轉角度:

縮放大小:

這一神奇操作就來自於謝賽寧團隊新發布的 Blender Fusion框架,透過結合圖形工具 (Blender) 與擴散模型,讓視覺合成不再僅僅依賴文字提示,實現了精準的畫面控制與靈活操作。

影像合成三步走

BlenderFusion “按鍵生圖” 的核心並不在於模型自身的創新,而在於其對現有技術(分割、深度估計、Blender渲染、擴散模型)的高效組合,打通了一套新的Pipeline 。
這套Pipeline包含三個步驟:先將物體和場景分離 → 再用Blender做3D編輯 → 最後用擴散模型生成高質量合成影像。
接下來看看每一步都是怎麼做的吧!
第一步:以物體為中心的分層。(Object-centric Layering)
第一步是將輸入的影像或影片中的各個物體從原有的場景中分離,並推斷出它們的三維資訊。
具體來說,BlenderFusion利用現有強大的視覺基礎模型進行分割和深度估計:用Segment Anything Model(SAM)分割畫面中的物體,用Depth Pro模型進行深度推斷賦予物體深度。
透過對每一個被分割出的物體進行深度估計,將來自影像或影片的2D輸入投影到3D空間,從而為後續的3D編輯奠定基礎。
這種做法避免了從頭訓練3D重建模型,充分利用了現成的大規模預訓練能力。
第二步:基於Blender的編輯(Blender-grounded Editing)
第二步是將分離出的物體匯入Blender進行各種精細化編輯。在Blender中,既可以對物體進行多種操作(顏色、紋理、區域性編輯、加入新物體等),也可以對相機進行控制(如相機視點和背景變化)。
第三步:生成式合成(Generative Compositing)
雖然透過Blender渲染後的場景在空間結構上高度準確,但外觀、紋理和光照仍然相對粗糙。
因此,在流程的最後一步,Blender Fusion引入了擴散模型(SD v2.1)對結果進行視覺增強。
為此,Blender Fusion提出了雙流擴散合成器(dual-stream diffusion compositor)。
該模型同時接收:原始輸入場景(未編輯)和編輯後的粗渲染影像。透過對比兩者,模型學習在保持全域性外觀一致性的同時,僅在需要編輯的區域進行高保真改動。這樣可以避免傳統擴散模型“重繪全圖”導致的失真,也防止未修改部分的退化。

一些trick

此外,為了提高Blender Fusion的泛化性,論文中還透露了兩項重要的訓練技巧:
源遮擋(Source Masking):在訓練時隨機遮蔽源圖部分,迫使模型學會基於條件資訊恢復完整影像。
模擬物體抖動(Simulated Object Jittering):模擬物體的隨機偏移和擾動,提高對相機和物體的解耦能力。這一組合顯著提升了生成結果的真實感和一致性。

結果演示

Blender Fusion在針對物體和相機操控的視覺生成中取得了不錯的效果。
正如我們在文章開頭的demo中所演示的,透過任意控制方向鍵來控制物體在影像中的位置,畫面保持了較強的一致性與連貫性。
此外,Blender Fusion還能夠在各種複雜的場景編輯中保持空間關係和視覺連貫性,主要包括:
單幅影像處理:靈活地重新排列、複製和變換物體,以及改變相機視角。
多影像場景重組:組合任何影像中的物體以建立全新的場景。
泛化:這些編輯功能成功地推廣到訓練期間未見過的物體和場景。
在AI視覺合成越來越卷的當下,Blender Fusion就像給創作者多了一隻“第三隻手”。
使用者不再被提示詞困住,也不需要反覆試錯就能拼出理想畫面。
從物體分層到三維編輯,再到高保真生成,這套流程不僅讓AI影像合成更“聽話”,也讓玩法更自由。
或許,你的下一次生圖將不再是“遣詞造句”,而是能像搭積木一樣,把每個細節都親手擺到位。
   論文地址:
   https://arxiv.org/abs/2506.17450
   專案頁面:
    https://blenderfusion.github.io/#compositing
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題

掃碼新增小助手,傳送「姓名+公司+職位」申請入群~

進群后,你將直接獲得:
 👉 最新最專業的AI產品資訊及分析 🔍 
 👉不定期發放的熱門產品內測碼 🔥
 👉內部專屬內容與專業討論 👂
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章