你好,我是郭震
Sora震撼上線,大模型繼續狂飆。
透過公佈的一些短影片,來看Sora的影片生成效果。
為了更加容易在公眾號展示,把影片尺寸壓縮為原來的1/3,大家可以看看效果:





以上5個Sora生成影片,因Sora是閉源的,具體的技術細節,無從得知,只能透過公佈的技術框架,瞭解到:
Sora 可能基於GPT-4 多模態版本為基礎模型,引入擴充套件模型(如擴散模型或基於時序卷積網路的生成模組),以支援影片幀的生成與序列化,透過 Transformer 的時間嵌入機制對影片幀間的時序關係進行建模。

文字到影片的生成透過一個聯合的嵌入空間實現,將文字和影片的語義統一對齊。初步生成低解析度的影片幀序列,使用超解析度網路提升影片幀質量(如 Real-ESRGAN 模組)。
可能採用擴散去噪模型進行多幀生成的平滑最佳化,保證連續性。

更多影片生成的技術細節,
我們不妨從上週釋出的騰訊版Sora
來一探究竟,騰訊開源了影片生成的程式碼,部署在下面兩個平臺:

同時也釋出了技術report:

還能透過PC線上免費體驗:

騰訊影片模型稱為HunyuanVideo,簡稱混元影片模型。
根據官方介紹,模型擁有130億引數,是目前開源領域內參數規模最大的文字生成影片模型。
先看騰訊版Sora生成的幾個影片,同樣為了相容公眾號文章,影片尺寸壓縮為1/3:





因影片已被壓縮,拋開清晰度,你能發現:Sora生成的5條影片,騰訊混元生成的這5條影片,有什麼區別嗎?
衡量文生影片好壞,最重要的三個核心指標是什麼?如下所示:

最重要的指標,物理一致性,也就是影片動作是否符合真實物理世界,如重力效果;
第二,場景一致性,幀間是否連續,如佈局、光線;
第三,影片是否準確傳達了輸入文字的核心語義。
下面我親自實踐下,騰訊混元影片模型效果,進入網站,輸入這些文字:
中國古代盛唐的江南豫章美景:落霞與孤鶩齊飛,秋水共長天一色

然後點選右下角的按鈕,就進入影片生成階段:

步驟可以說是非常簡單,做到了一句話生成影片。提示預計5分鐘,實際大概2分鐘左右就出來下面影片:

為了展示在公眾號裡,同樣尺寸壓縮為1/3後展示:

根據騰訊混元影片模型技術Report,混元計算資源遠遠小於閉源的Sora模型:

騰訊混元影片模型,目前在開源裡面得分最高:

混元模型架構如下:

模型在時空壓縮的潛在空間中訓練,該空間透過因果3D VAE壓縮。
文字提示透過大語言模型編碼,並作為條件使用。
以高斯噪聲和條件為輸入,模型生成輸出潛變數,並透過3D VAE解碼器解碼為影像或影片。
3D VAE壓縮元件是核心技術之一,其架構如下所示:

上圖中間小塊,即為壓縮後隱式表達。
另一個核心是文字編碼元件:如下圖右側所示,騰訊提出了預訓練多模態編碼方法:

下面詳細介紹了MLLM優勢,包括:對齊能力強,圖片細節處理和複雜推理強,指令跟隨能力更強:

訓練階段,模型不基於預訓練,而是完全從零開始訓。損失函式另外引入了感知損失和對抗損失。訓練策略是課程學習策略,從低到高解析度:

推理階段主要challenge,單GPU記憶體會爆。處理方法:採用時空平鋪策略,將輸入影片在空間和時間維度上分割成重疊的平鋪塊。每個平鋪塊分別進行編碼/解碼,輸出結果再拼接在一起:

關於混元影片模型的scaling laws,會在接下來研究:

論文給出了更多生成影片圖形展示:


更多有趣的應用,姿勢跟隨對齊:

多姿勢和表情對齊:

總結
騰訊混元影片模型,技術創新還是蠻多的,並且程式碼開源了,這會活躍社群,技術貢獻會被進一步放大,期望越來越好!
想要下載混元39頁論文的,在下面我的公眾號後臺回覆:混元
我的AI技術團隊,正在招募志同道合的小夥伴,歡迎加入:

如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,這樣以後就不會錯過我的AI教程。謝謝你看我的文章,我們下篇再見!