一圖一3D世界,影片還可互動,崑崙萬維「空間智慧」開年首秀來了

機器之心報道
作者:杜偉
2025 年普遍被認為是智慧體爆發元年,AI 應用將出現井噴式增長。然而,在大家紛紛將目光投向智慧體的同時,另一個 AI 領域也可能迎來它的「ChatGPT 時刻」。
這個春節,動畫電影《哪吒 2》爆火,不僅登上中國影史票房榜首,還不斷地重新整理全球票房榜單。3D 版本中的山河社稷圖、石磯娘娘變身的石頭山、最後的仙魔大戰…… 這些場景讓我們感受到了極度震撼的 3D 動效。
在 AI 領域,一項正在發展中的新興技術有可能將 3D 動畫的整體質量以及觀眾的沉浸感推向一個全新的高度。它就是「AI 教母」李飛飛看好並押注的空間智慧(Spatial intelligence)。未來有了這項 AI 技術的加持,3D 動畫的表現力有可能得到前所未有的加強。
在這位 AI 領域的頂級科學家看來,無論是人類還是機器,學會如何看待這個世界、如何與世界互動至關重要,而空間智慧在其中將扮演重要角色。她堅信,像語言一樣是 AI 根基之一的空間智慧將成為 AI 下一發展階段的前沿技術方向。去年 12 月初,李飛飛創業團隊 World Labs 的首個產品向我們展示了單張圖生成 3D 世界的驚豔效果。
從二維到三維,AI 要想真正理解與操控 3D 空間,需要解決不少痛點。比如大規模高質量 3D 資料匱乏限制了模型效果和泛化能力,生成的 3D 場景在幾何結構和紋理細節上不夠精細或存在瑕疵、不完整,多視角一致性很難保證;再比如效率問題,處理複雜影像和大規模場景時可能導致算力消耗過大、生成時間過長。
因此,空間智慧真正突破傳統 AI 的二維畫素級視覺理解並不是那麼容易。在國內,一家「All in AGI 和 AIGC」的大模型廠商,向真實世界的幾何與物理規則發起了挑戰,並率先在空間智慧這個新興領域搞出了一個大動作。
2 月 14 日,崑崙萬維正式釋出了 Matrix-Zero 世界模型,邁出了其探索空間智慧的關鍵一步。Matrix-Zero 包括 3D 場景生成大模型和可互動影片大模型,不僅可以將使用者輸入的圖片轉化為可自由探索的真實合理的 3D 場景,而且能夠生成可互動影片。這意味著,Matrix-Zero 是一個功能「加強版」的 3D 物理世界與影片生成器。
隨著 Matrix-Zero 的推出,崑崙萬維在 AIGC 時代的定位又有了新的變化,成為國內第一家同時推出 3D 場景生成、可互動影片生成模型的探索空間智慧企業
崑崙萬維表示,Matrix-Zero 預計將於 4 月份正式上線,屆時使用者便能上手體驗了。
突破二維平面的 3D 虛擬世界原來是這樣子的
從業界已有的工作來看,僅憑任意一張圖片就可以生成遵循基本物理幾何規則的 3D 世界,成為了探索空間智慧的一項關鍵技術進展。透過訓練出的感知、理解和互動能力,AI 想要在三維空間中像人類一樣自由地導航、操作和創造。
從李飛飛 World Labs 首個 3D 世界產品,到谷歌 DeepMind 的第二代世界模型 Genie 2,空間智慧正在努力完成從生成內容到構建世界的進化,這就要求不僅要理解畫素,還要有能力解析空間座標、幾何關係與物理規律,從而實現儘可能真實的立體感和空間深度。
此次,崑崙萬維的 Matrix-Zero 向著這些目標開始了自己的嘗試,形成了領先的技術方案,並最終在 3D 世界生成領域展現出了一些獨有優勢。
一圖一世界,AI 讓 3D 世界一觸即達
根據崑崙萬維的介紹,Matrix-Zero 採用了與李飛飛 World Labs 不同的 3D 技術路線,實現了可自由探索且更加真實合理的 3D 場景生成效果
在由單張靜態圖片轉化成對應 3D 場景的過程中,保持與原圖片的風格一致很重要。在這方面,Matrix-Zero 支援不同風格的圖片輸入,比如寫實風和卡通風(如下寫實小巷和卡通蘑菇),嚴格地「繼承」了圖片原有風格。
Matrix-Zero 還進一步具備了風格轉換能力,在生成 3D 場景時將原圖片絲滑地切換成另一種風格,可玩性相較競品更高,如下示例將原圖的房屋變成了紅瓦白牆。
其次,Matrix-Zero 生成的 3D 場景實現高度的全域性一致性,解決了從單一視角圖片生成廣範圍 3D 場景的前後不一致與空間合理性問題。
從粗糙的幾何結構到細節豐富的場景,Matrix-Zero 利用空間擴散模型和可微渲染技術,在不斷的細節細化中改善全域性一致性,成功創建出了完整且一致的 3D 世界。
從下面兩圖可以看到,Matrix-Zero 透過自由的鏡頭移動(包括前進和 360 度環視),從 3D 場景中渲染生成一致的新檢視,並確保生成的 3D 場景在空間、物體位置和全域性尺度上的合理性。
接下來,Matrix-Zero 向我們展示了它的最大亮點——支援在 3D 場景中任意方向的長距離、大範圍自由探索,使用者的可操作性更豐富、更強。
實現如此程度的自由探索,得益於 Matrix-Zero 生成的 3D 場景很好地解決了連續性、合理擴充套件、環境互動、空間感知與導航等多個技術層面的挑戰。
Matrix-Zero 不僅可以做到絲滑流暢的前進、後退、左右轉、環視等單一移動,還能夠執行更復雜的 360 度俯視(下圖上)以及先前進後右轉等複合移動(下圖下)。
最後,Matrix-Zero 生成的 3D 場景中還能加入動態物體,並實現水流、光照、雲霧等看起來自然且符合物理規律的動態效果
達成這些目標,需要崑崙萬維團隊融合深度學習、圖形學和即時計算等技術。更具體地,只有在物理模擬、光照與材質模擬、物體互動、即時渲染等多個領域的融合,才有可能從靜態圖片中捕捉、預測並最終正確模擬出合理的動態物理行為。
Matrix-Zero 實現了豐富的物理動效,包括光照水流混合效果(下圖上)、雲霧效果(下圖下)、海浪效果等。這對於未來幫助 AI 更好地提升 3D 世界的物理屬性具有積極意義。
以上結果一一看下來,我們可以得出這樣一個初步結論:Matrix-Zero 生成的 3D 場景以及表現出來的亮點,讓國內廠商在空間智慧領域有了匹敵甚至一些層面上超出國外競品的實力,其中大範圍自由探索增強了 AI 的物理推理、空間認知等能力,有望為構建通用世界模型和 AGI 提供強大助力。
可互動影片讓人的參與度更高
Matrix-Zero 的第二個子模型支援可互動的影片生成,其最大的亮點是更關注即時互動和大範圍場景
一方面,Matrix-Zero 泛化能力很強,可以適應不同環境,並能以極高的效率生成流暢、一致和合理的高質量影片。另一方面,Matrix-Zero 超出了已有影片生成的能力範疇,極大地強化了影片內容的可操作性,讓使用者能夠自由地調整視角、操控場景元素,並即時影響影片內容,更符合他們的需求和預期。可以說,人在影片生成中的參與度更高了。
從下面生成的城市和沙漠兩個環境的影片來看,Matrix-Zero 的可互動性展現得一覽無遺。使用者可以透過任意的鍵盤或滑鼠移動來控制方向,包括前後左右移動和自由視角移動。這樣一來,使用者能以極高的自由度來探索影片內容,並使它們更滿足自己的意圖。
這種強互動性還將進一步最佳化世界模型在虛擬環境中的的適配性,為構建更強、使用者更友好的互動式應用提供驅動力。
從以上一系列 3D 場景和可互動影片的表現來看,在 Matrix-Zero 建立的虛擬世界中,人機互動、自由度和沉浸感均大大加強。可以遇見,未來更強大的崑崙萬維 Matrix-Zero 將在可控遊戲場景構建、具身智慧場景模擬以及 3D 影視鏡頭高效生成中開闢無限的應用可能性。
一模兩用,Matrix-Zero 如何煉成?
當然,Matrix-Zero 的進步,是崑崙萬維在自研 3D 場景生成、基礎影片生成模型以及使用者輸入互動模型上全方位升級的結果。
對於 3D 場景生成,Matrix-Zero 由背後強大的 3D 場景生成大模型驅動,它包含兩個核心模組,分別是場景佈局生成模組和紋理生成模組。作為單張圖生成 3D 世界的兩個核心環節,場景佈局生成和紋理生成決定了 3D 世界的幾何結構和視覺細節,還直接影響空間完整性與互動體驗。
因此,Matrix-Zero 要解決一系列挑戰,包括推測不可見部分的合理性(如深度關係、物體語義)、物理一致性(如材質、空間關係的合理性)以及計算資源最佳化(即高質量 3D 生成的計算開銷),這樣才可能提高 3D 世界生成的真實感和可用性。
Matrix-Zero 的場景佈局生成模組融合了可微渲染和擴散模型技術,創造出與輸入圖片一致的 3D 場景佈局;紋理生成模組在圖片生成和影片生成模型的基礎上進行訓練,可以生成符合場景佈局且運鏡精準控制的影片。兩個模組相輔相成,結合 3D 高斯潑濺(Gaussian Splatting)進行端到端最佳化,就得到了初始 3D 場景。
接下來,為了確保使用者在任何位置、任何角度都能看到合理、一致的場景,3D 場景生成大模型發揮關鍵效用,對場景缺失區域進行幾何和紋理補全,構建出了完整、合理、自然的 3D 世界。
而相較於 3D 場景,Matrix-Zero 可互動影片生成背後採用的技術路線又有所不同。我們瞭解到,該方法以自研的生成式影片模型為基礎,依託大規模開放資料的預訓練模型,並結合了自研使用者輸入互動模型,最終形成了以使用者輸入為核心驅動的空間智慧影片生成方案。有了這些模型的共同參與,高質量、穩定影片的輸出成為可能。
作為影片生成系統的 Matrix-Zero,其包含了兩大元件,分別是核心的基礎影片生成模型以及重要的使用者輸入互動模型。兩者各司其職,為 Matrix-Zero 影片生成不同階段的能力實現保駕護航。
一方面,基礎影片生成模型從初始影片幀生成連貫影片內容,它採用深度學習技術,並結合多種先進的生成模型來確保影片的清晰度、穩定性和邏輯性。生成過程中利用到了以下三項關鍵技術:
  • 一是基於 Transformer 的影片擴散模型。透過引入 Transformer 架構,更好地捕捉到了影片序列中的時序依賴關係,同時幀間一致性的增強可以避免出現畫面跳躍或不連貫,影片整體質量得到提升;
  • 二是潛變數自編碼器(VAE),它負責對資料進行降維處理,從而提高計算效率、降低計算成本並減少了資訊冗餘,加速輸入內容處理和高質量影片輸出;
  • 三是引入時間步長最佳化策略來確保物理合理性。時間步長的調整避免了畫面失真並保證物體合理運動,使影片更加自然流暢。
另一方面,使用者輸入互動模型專門解析使用者輸入資訊以將它們轉化為影片調整訊號,這樣做是為了讓影片內容準確地響應使用者操作,帶來自然、流暢的互動體驗。
具體地,使用者輸入互動模型透過離散運動控制、連續視角控制、3D 場景位置追蹤和滑動視窗最佳化四大模組,實現了更智慧的互動式影片生成。各個模組的功能分別如下:
  • 離散運動控制,用於解析使用者的基本動作指令(前進、跳躍、後退等),將它們轉化為對應的運動軌跡,從而調整物體行為以符合使用者互動需求;
  • 連續視角控制,即時解析、響應滑鼠或其他輸入裝置的連續控制訊號(如視角變化、方向調整等動態操作),並透過調整影片內容來實現平滑、一致的視角變換;
  • 3D 場景位置追蹤,利用 3D 空間定位技術確保不同場景下穩定、自然的視角變換,減少畫面突兀跳轉,讓影片更連貫;
  • 滑動視窗機制,透過引入時間序列中的歷史輸入資訊,系統對使用者下一步操作的預測準確度更高,控制響應的平滑度得到最佳化;互動流暢性也更強,延遲減少,使用者體驗提升。
結語
回顧過去不久的 2024 年,是大語言模型飛速發展的一年。可以看到,從基座模型、即時語音模型、影片模型到社交媒體爆火的推理模型,大模型的生成與理解、自我思考能力在短短一年內實現量級提升。與此同時,空間智慧異軍突起,有實力、有遠見的廠商逐漸開始了佈局。
作為國內領先的人工智慧企業,崑崙萬維在過去每一波 AI 浪潮中始終展現出了前瞻性,從拼引數的百模大戰到卷多模態、卷推理、卷智慧體,其在各個階段的成果產出中完成了「算力基礎設施 – 大模型演算法 – AI 應用」的全產業鏈佈局,並構建起了由 AI 大模型、AI 搜尋、AI 遊戲、AI 音樂、AI 社交、AI 短劇組成的多元 AI 業務矩陣,積極推動商業化落地。
此次 Matrix-Zero 是崑崙萬維在空間智慧領域的又一標誌性成果,此前曾釋出 3D 生成大模型 Sky3DGen,並融合影片大模型推出了 AI 短劇平臺 SkyReels。隨著 Matrix-Zero 的到來,崑崙萬維的空間智慧探索將開啟新篇章,其多元業務矩陣也將進一步得到強化,併為其多模態大模型的應用落地開闢了一條新的賽道。
未來,我們可以期待空間智慧的更多升級,比如模型訓練層面結合視覺、聽覺、觸覺等感官,透過強化學習實現更精確的感知和推理;再比如模型應用層面有望擴充套件到更多行業或融合進現有產品。可以說,無限可能性等待著進一步探索,空間智慧大有可為。
對於像崑崙萬維這樣 All in AGI 的企業來說,更強大的空間智慧將賦予 AI 理解、感知、推理、互動和操作物理世界的能力,成為 AGI 邁向更高智慧水平的核心支柱。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章