MLNLP
社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 新智元
社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
就在剛剛,崑崙萬維正式釋出了一款全新自研的Matrix-Zero世界模型。
Matrix-Zero世界模型包含兩款子模型:崑崙萬維自研的3D場景生成大模型與崑崙萬維自研的可互動影片生成大模型。包括兩部分功能:
-
支援將使用者輸入的圖片轉化為可自由探索的真實合理的3D場景;
-
支援根據使用者輸入即時生成互動影片效果。
至此,崑崙萬維正式成為中國第一家同時推出3D場景生成、可互動影片生成模型的探索空間智慧的企業。


大模型賽道捲了兩年,誰都在觀望,下一個破局的方向在何方。
李飛飛躬身入局,僅3個月就估值10億的World Labs令業內恍然大悟:AI教母瞄準的,就是能進行推理的空間智慧!
各家的重磅佈局說明,做3D場景生成、影片生成模型、空間智慧的必要性,已經迫在眉睫。
誠如英偉達高階計算機科學家Jim Fan所言,「空間智慧,是計算機視覺和實體智慧體的下一個前沿」。
空間智慧,幾大痛點亟待突破
不過仔細看就會發現,目前市面上相關的技術路線,尚存一些痛點未被解決。
比如市面上的一些2D影像或影片生成工具,仍然受制於畫素空間和3D空間的差異,生成結果往往不一致、物理不合理。

由於2D影像或影片僅限於二維,建立複雜的動作和攝像機角度就極有挑戰性,不適合動作場景
而TripoAI、Meshy等3D工具,則更關注單個物體的生成,因而無法生成完整、合理的3D場景。

即使已經走在前面的WorldLabs,也存在不少限制。比如在探索空間上的不足,就會極大地影響遊戲製作和影片渲染。

有沒有一種技術路線,能將上述痛點全部解決?
巧了,看完Matrix-Zero,你會收穫大大的驚喜!
360度無死角生成,還可互動
這次崑崙萬維推出的Matrix-Zero,主要包括3D場景生成和可互動影片生成兩部分。
3D場景生成
首先,它支援將使用者輸入的圖片,轉化為可自由探索的真實合理的3D場景,同時極大避免了一些影片模型或自迴歸方法中極易出現的前後不一致現象。
那麼如何從3D場景渲染出影片的呢?正如下圖所示,在3D場景中放置一個攝像機(橘紅色線框所示),並指定其運動控制。

3D場景中的相機運動軌跡
每一個時刻都可以根據相機位置和朝向將3D場景渲染為圖片,將這些圖片拼接即可得到影片。
最後,我們就能夠得到3D場景渲染出的影片。

渲染影片效果
這樣,不僅影片內容非常符合使用者意圖,還能拓展在虛擬環境、互動式應用和沉浸式體驗中的應用場景,可以用在3D遊戲場景中快速可控建模,以及在具身智慧中快速搭建模擬場景。


另外,Matrix-Zero可以支援在場景中進行任意方向長距離、大範圍的探索,這就為電影、短劇場景鏡頭生成,提供更多可能。
在這些場景中,你可以先環視再前進、前進後右轉、360度俯視、180度回頭等等,各種操作只有你想不到,沒有它做不到。


而且,無論你輸入的是卡通或寫實風格的圖片,都能生成合理的3D場景。



Matrix-Zero還支援風格遷移,我們可以把一張寫實圖片轉化為卡通風格,或者乾脆把房屋變為紅瓦白牆。


最後,Matrix-Zero生成3D的場景中的動態物體,也絕對令人驚喜。
無論是光照、海浪、雲霧、水流,動態都極度符合真實世界的物理規律,因而可以由之構建真正的世界模型。


為何Matrix-Zero的3D場景生成能有如此驚豔的效果?
這都要歸功於崑崙萬維自研的3D場景生成大模型。
它包含了兩個核心模組,場景佈局生成模組和紋理生成模組。
前者能借助可微渲染和擴散模型技術,創造出和輸入圖片一致的3D場景佈局;後者則是在圖片生成模型和影片生成模型基礎上訓練的,能實現符合場景佈局的紋理材質生成。
而使用者在場景中運動時,3D場景生成大模型就會不斷對場景缺失區域進行幾何和紋理的補全,因此使用者無論在任何位置、任何角度,都能看到合理、一致的場景。
可互動影片生成
AI影片模型不斷推陳出新,但真正能讓創作者「身臨其境」地參與生成過程的AI,卻是鳳毛麟角。
Matrix-Zero,正是打破這一僵局的革命性產品。
無論是在虛擬環境、互動應用,還是沉浸式場景中,它都能以驚人的效率輸出高質量影片。
更重要的是,生成的影片始終保持流暢連貫,符合情境邏輯。
在案例中,它展現出令人驚歎的自由度,以及更加真實的3D場景生成。
當你在鍵盤上點選方向鍵,或是移動滑鼠,AI會立即響應你的指令,生成與你意圖完美契合的畫面。
好比這張街景圖生成的影片畫面,你可以前後左右移動,隨心所欲地調整視角,就像在真實世界中探索一樣。


還有這張科幻風圖片的互動,瞬間給人一種錯覺:這不就是Martix中的世界麼。


團隊的方法建立在自研的生成式影片模型之上,依託大規模開放資料的預訓練模型,同時結合了自主研發的使用者輸入互動模型。
最終,實現了一種以使用者指令輸入為核心驅動的空間智慧影片生成方案。
這就保證了在開放影片領域生成能力的同時,進一步增強了對影片內容中視角移動的精確控制,從而更符合使用者的互動需求和預期。
具體來說,Matrix-Zero包括基礎影片生成模型和使用者輸入互動模型兩個核心部分。
Matrix-Zero 主要由兩個核心部分組成:一個是影片生成模型,另一個是使用者互動模型。
前者是整個系統的核心,相當於一位「元帥」。而後者,則是一位「軍師」。
元帥負責根據初始影片幀生成連貫的影片內容,軍師則負責解析使用者輸入資訊,轉化為影片調整訊號。這樣,Matrix-Zero就既能生成清晰、穩定、有邏輯的影片,還能準確響應,讓互動更直觀流暢。
具體來說,影片生成模型包含以下關鍵技術:
-
透過基於Transformer架構的擴散模型,增強影片序列的時序依賴性和幀間連貫性,有效避免畫面跳躍問題。
-
透過VAE進行資料降維,在提升計算效率的同時減少資訊冗餘。
-
透過時間步長最佳化策略保證生成影片的物理合理性和時序穩定性,確保畫面流暢自然。
而使用者互動模型則包含四個核心部分:
-
「離散運動控制模組」負責處理基本運動指令如前進、跳躍等;
-
「連續視角控制模組」用於即時處理視角變化等連續控制訊號;
-
「3D場景位置追蹤模組」透過空間定位技術確保視角轉換的穩定性;
-
「滑動視窗機制」利用歷史輸入預測使用者操作,最佳化控制響應。
總之,以上特性讓Matrix-Zero真正成為一款足夠實用性的產品,在電影、短劇、遊戲、具身智慧等領域有廣泛的應用空間。
遊戲開發者和影視劇從業者等相關人員,可以用它實現明顯的降本增效。
比如,遊戲開發者可以用它輕鬆實現3D遊戲場景搭建。

《黑神話:悟空》中的場景令人心潮澎湃
影視劇從業者,則可以輕鬆生成電影/短劇中的鏡頭。為了一個鏡頭動輒燒上百萬甚至上千萬美元經費的情況,從此可以徹底告別。

《阿凡達:水之道》是史上經費最高的電影之一,整部電影的預算為4.6億美元左右,但單個VFX的成本可能就達到每秒數百萬美元
由此顯露的產品領先性也體現出,崑崙萬維在科研、產品、應用上具備足夠的前瞻性,已經形成了閉環的產業鏈。
空間智慧,AI下一個里程碑
何謂空間智慧?
在「AI教母」李飛飛看來,空間智慧不僅僅是讓AI看見世界,還要讓AI理解三維世界,並具備與之互動的能力。
ImageNet所代表,只是對「智慧」一半的理解,另一半還存在於物理世界中。
回顧AI發展歷程,我們見證了其從文字到2D影像、影片的跨越。
以往的一些經驗也告訴我們一個深刻的道理:高維度的理解和生成,絕非低維度模型所能企及。
不論是LLM還是多模態語言模型(MLLM),其底層架構仍侷限於一維的表徵。
這種一維表示在處理語言方面得心應手,但當處理影像、影片等其他模態資料時,本質上不過是將多維資訊「壓縮」進一維序列中,就不會可避免地造成資訊損失。

NeurIPS 2024上,李飛飛提到最領先的多模態模型在HourVideo基準上依舊與人類有很大差距
就像文字難以完整描繪出影像的細節,2D模型在處理3D世界時也面臨著嚴峻的挑戰。
舉個栗子,當前AI生成的影片中,在涉及物體/人物大幅度移動變化的情景下,往往難以保持一致性。
這恰恰暴露出這些低維度的模型,對3D世界理解的侷限性。
當然,空間智慧也絕不止於簡單的3D生成,如果僅依靠維度scaling是遠遠不夠的。
我們還需要做的是,在大模型訓練過程中,還需要將3D世界的幾何和物理規則系統植入,從而讓AI擁有對這個世界的推理、理解、生成能力。
空間智慧這一願景,在2024年底已見雛形。
除了李飛飛World Labs、谷歌Genie 2,在國內,一些團隊也做了類似的研究,比如中科院等團隊的SceneX、智源研究院的See3D等等。
與他們不同的是,崑崙萬維走正出自己獨一份的空間智慧路線。
從生成的影片中不難看出,Matrix-Zero自由探索的範圍任意大,任意廣。而且,可以直接互動輸出影片,在穩定一致性方面做到業界領先。
那麼,能做到中國第一家自研,第一家釋出空間智慧大模型的上市公司,具備了怎樣的優勢?
全矩陣佈局,All in AGI
2020年,GPT-3橫空出世後,崑崙萬維做出了一個重要的決定——全面佈局大模型。
兩年後,AIGC全系列演算法與模型「崑崙天工」首次亮相,其能力覆蓋了影像、音樂、文字等多模態內容的生成能力。
2023年,自研雙千億級「天工1.0」大模型推出,正式奠定了國產大模型崛起之路。
多模態大模型Skywork-MM在MME基準中,1.0拿下了綜合排名第一的成績。他們還開源了百億級大語言模型天工Skywork-13。
同年,基於「天工」大模型,這家公司打造了一系列顛覆性AI產品。
-
8月,國內首款AI搜尋——天工AI搜尋誕生
-
12月,領先的AI Agent開發平臺天工SkyAgents釋出
到了2024年2月,基座大模型迎來了最大升級,採用MoE架構「天工2.0」在處理複雜任務更強、響應速度更快、訓練推理效率更高。
緊接著4月,「天工3.0」震撼釋出,採用4000億引數MoE架構,效能較上一代飛昇,數學程式碼飆升超30%。
與此同時,AI音樂生成大模型「天工SkyMusic」開啟公測,向情感AGI又邁進一步。
8月,整合影片大模型與3D大模型的AI短劇平臺SkyReels釋出。
今年1月,天工大模型4.0 o1版/4o版正式上線天工網頁端和APP,免費無限用,效能直接對標OpenAI。
截至目前,崑崙萬維已自研出「五大模型」體系:文字大模型、多模態大模型、3D大模型、影片大模型和音樂大模型。
與此同時,在2024年AIGC應用使用者規模TOP榜中,崑崙萬維旗下天工AI強勢入圍。

這種全方位的技術佈局,為其在AI領域持續創新提供了堅實的基礎。
2023年,崑崙萬維曾立下豪言壯志:All in AGI和AIGC,並將其作為未來十年的戰略方向。
五大模型體系,正在為這個終極目標不斷鋪路。
從多模態到空間智慧進階之路
從行業發展的角度來看,多模態大模型正經歷這一場深刻的變革。
多模態技術已經從早期的簡單圖文理解,逐步演進至複雜的跨模態推理和生成。
在其未來發展中,我們可以預見在多模態領域幾個關鍵的突破方向。
首先是多模態融合進一步深化,未來的模型將不再滿足於簡單多模態並列,而是要實現真正模態間的深度理解和轉換。
比如,模型不僅要「看懂」一段影片,還要能準確理解影片中運動規律,並將這種理解應用到其他場景中。
其次,新一代模型架構需要能夠同時整合空間、時間、物理等多維度資訊,這種整合不是簡單的疊加,而是要在更深層次上實現知識互通和遷移。
而空間智慧的到來,將推動模型在多個維度上的升級同時展開。
未來,空間智慧模型的落地場景將更加豐富多樣。
在教育領域,它可以創造沉浸式學習體驗,讓抽象的知識變得直觀可感;在工業領域,它能更精準控制機器人和自動化生產;在創意領域,它甚至可以革新內容創作的方式,帶來前所未有的視覺體驗。

AI寫詩十四行詩很有趣,用AI輔助心臟手術則是顛覆性的變革
從更宏觀角度來看,空間智慧代表了AI向著更高維度認知能力進化的方向。
在這場AI進化的馬拉松中,崑崙萬維展現出了罕見的戰略定力和技術魄力。據悉,Matrix-Zero世界模型將於4月份上線。
從ALL in AGI的宏大願景,到空間智慧的前瞻佈局,這家公司正用實際行動詮釋著技術創新的深層內涵。
技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
關於我們
