速遞|李飛飛WorldLabs推出首個AI系統——生成從圖片到可互動的3D場景

李飛飛創立的 World Labs 推出了首個專案 —— 一個能從單張照片生成類似遊戲 3D 場景的 AI 系統,其獨特性在於支援互動且可以修改。

World Labs 的系統能為場景提供互動效果和動畫,例如更改物體的顏色和動態調整背景燈光。
該系統屬於一個新興的 AI 類別——“世界模型”(World Models),許多此類模型可以模擬遊戲和 3D 環境,但通常存在偽影和一致性問題。
初創公司 Decart 的 Minecraft 模擬世界模型 Oasis 解析度較低,並且容易“忘記”關卡布局。
World Labs 在官方部落格中提到,目前的大多數生成式 AI 工具生成的是 2D 內容,比如影像或影片,而生成 3D 內容則提升了控制力和一致性。這將改變我們製作電影、遊戲、模擬器以及其他物理世界數字表現形式的方式。
World Labs 的系統將圖片轉換為可互動和探索的 3D 場景。使用者可以透過使用箭頭鍵或 WASD 移動,然後單擊並拖動滑鼠來探索這些 AI 生成的場景。

這些場景在瀏覽器中即時渲染,並配備可調的模擬景深效果(DoF)。官網上提供了一個調節景深的滑塊,景深效果越強,背景物體就越模糊。
World Labs 的方法確保了生成的場景在生成後保持不變,並遵循基本的物理規律,具有一定的實體感和深度感。
World Labs 還支援模擬推拉變焦,同時調整攝像機的位置和視野:
World Labs 還提到,大多數生成模型預測的是畫素,而預測 3D 場景則具有許多優勢:
  • 持久的現實感

    一旦生成了一個世界,它會保持穩定。如果你暫時離開視線,然後再回來,場景不會發生變化。這種永續性提供了更連貫的體驗,避免了傳統生成模型中場景不一致的情況。

  • 即時控制

    在生成場景後,使用者可以即時在場景中自由移動。例如,你可以停下來仔細觀察一朵花的細節,或者繞過一個角落,看看背後隱藏了什麼。這種即時互動使場景更具沉浸感和探索性。

  • 正確的幾何結構

    World Labs 生成的世界遵循 3D 幾何的基本物理規則。這些場景具有實體感和深度感,與某些 AI 生成影片的夢幻性質形成對比,更貼近現實體驗。

深度圖是將 3D 場景投影到二維空間的一種方式,它透過畫素的顏色深淺來表達物體的遠近。
例如,離攝像機較近的畫素可能被顯示為亮色,而較遠的畫素則為暗色。這種方式直觀地展示了場景的三維空間結構,為開發者和使用者理解場景的深度和佈局提供了重要工具。
透過這些特性,World Labs 的技術為生成式 AI 3D 場景奠定了堅實基礎,並大幅提升了內容的互動性、真實性和一致性。
最後,World Labs 還展示了一條影片,作者 Brittani Natali 將 World Labs 的技術與 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相結合的工作流程:
✦ 精選內容 ✦

相關文章