
(本文閱讀時間:10分鐘)
近年來人工智慧技術的飛速發展,不斷推動著“文字-影片”生成(Text-to-Video,T2V)技術的邊界。T2V 技術的持續最佳化與創新,為人們提供了豐富、便捷的影片內容創作體驗。相關的研究成果在娛樂、教育以及多媒體交流等多個領域都有著廣泛的應用前景。
傳統的 T2V 系統受限於資料和計算資源的缺乏,難以高效生成具有豐富動態和時間一致性的長影片。在長影片生成任務中,保持影片內容的連貫性和動態性,同時提高生成效率,成為了該領域亟待解決的問題。
對此,微軟亞洲研究院的研究員們嘗試將自迴歸(AR)模型與擴散模型(DiT)技術相結合,構建了 ARLON 框架。透過潛在向量量化變分自編碼器(VQ-VAE)技術,ARLON 能夠將 T2V 任務中的高維輸入特徵有效地壓縮、量化,從而在保持資訊密度的同時,降低模型的學習複雜性。只需文字提示,ARLON 即可合成具有豐富動態和時間連貫性的高質量影片。

圖1:ARLON 的推理框架
隨後,研究員們又進一步優化了 ARLON 框架,透過引入適應性語義注入模組和不確定性取樣策略,顯著提升了模型對噪聲的魯棒性,並提高了影片生成的效率。其中,適應性語義注入模組利用門控自適應歸一化機制,將粗略的語義資訊有效地注入到影片生成過程中。而不確定性取樣策略則模擬了 AR 預測中的方差,透過從原始粗略潛在特徵的分佈中取樣噪聲,增強模型對不同輸入條件的適應能力。
ARLON 在影片的穩健性、自然度和動態一致性方面顯著超過了以往的影片生成模型。即便是面對複雜度較高或場景重複性強等極具挑戰性的內容,ARLON 也能一致地合成高質量影片。在 VBench 影片生成基準測試中,ARLON 超越了現有的基線模型,並在多個評估指標上取得了突破性進展。ARLON 框架的成功不僅展示了結合不同模型優勢解決複雜問題的巨大潛力,而且為未來長影片生成技術的發展提供了新的方向。
ARLON 論文:
https://arxiv.org/abs/2410.20502
ARLON 專案頁面:
http://aka.ms/arlon

ARLON 框架由三個主要元件組成:潛在 VQ-VAE 壓縮、自迴歸建模和語義感知條件生成。給定一個文字提示,自迴歸模型會預測粗略的視覺潛在標記,這些標記是由 3D VAE 編碼器和基於目標影片的潛在 VQ-VAE 編碼器構建的。預測的視覺潛在標記包含了粗略的空間資訊和一致的語義資訊。基於這些標記,潛在 VQ-VAE 解碼器會生成連續的潛在特徵,並作為語義條件透過語義注入模組,引入 DiT 模型。
ARLON 框架的三個元件:
潛在 VQ-VAE 壓縮(Latent VQ-VAE Compression)是 ARLON 框架中的關鍵步驟,用於將高維輸入特徵對映到緊湊且離散的潛在空間。這一過程透過以下數學表示式實現:

其中,X∈R^(T×H×W×C) 表示輸入特徵,E_"latent" 是由 3D 卷積神經網路塊和殘差注意力塊組成的編碼器,V∈R^(T/r×H/o×W/o×h) 是編碼後的潛在嵌入。每個嵌入向量 v∈R^h 會被量化到最近的碼本 C∈R^(K×m) 中的條目 c∈R^m,形成離散的潛在嵌入 (Q):

解碼過程則是給定影片標記的索引,利用碼本 (C) 檢索相應的條目 (c),然後使用潛在 VQ-VAE 解碼器重建影片嵌入 (F):

自迴歸建模(Autoregressive Modeling)利用因果 Transformer 解碼器作為語言模型,將文字條件 (Y) 和視覺標記的索引 (Q) 結合成為模型的輸入,以自迴歸的方式生成影片內容。這一過程可以用以下機率模型描述:

其中,Q_"AR"=[q_1,q_2,…,q_N] 是視覺標記索引的序列,N 是序列長度,Θ_"AR" 表示模型引數。模型的目標是最大化給定文字條件 (Y) 下的視覺標記索引序列 Q_"AR" 的機率。
在語義感知條件生成(Semantic-aware Condition Generation)階段,ARLON 框架利用影片 VAE 和潛在 VQ-VAE 將影片壓縮到粗略的潛在空間中,並將 AR 模型預測的標記作為訓練擴散模型的語義條件。這一過程可以用以下公式表示:

其中, x 是輸入影片,E_"video" 是影片編碼器,E_"latent" 是潛在 VQ-VAE 編碼器,D_"latent" 是潛在 VQ-VAE 解碼器, F 是重建的潛在特徵,用作語義條件。
語義注入是將粗略的語義資訊注入到影片生成過程中,以引導擴散過程。這一過程涉及以下步驟:

其中,X_i 是輸入潛在變數,F ̂_i 是經過不確定性取樣處理的條件潛在變數,α_i,β_i,γ_i 是透過 MLP 網路生成的比例、偏移和門控引數,"Fusion" 函式將條件資訊注入到原始潛在變數中。

圖2:ARLON 的整體框架
為了減輕 AR 推理過程中不可避免引入的噪聲,研究員們在訓練階段採用了兩種策略來提高模型對噪聲的魯棒性:
-
粗略視覺潛在標記:使用兩種不同壓縮比的潛在 VQ-VAE 來增強擴散過程對噪聲AR預測結果的容忍度。
-
不確定性取樣:為了模擬 AR 預測的方差,引入不確定性取樣模組。該機制從原始粗略潛在特徵 (F_i) 的分佈中生成噪聲,而不是嚴格依賴於原始的粗略潛在特徵:其中,μ_i 和 σ_i 分別是噪聲的均值和標準差,F‾_i=(F_i-μ_i)/σ_i 是標準化的特徵,σ ̂_i 和 μ ̂_i 是從目標特徵均值和方差分佈中取樣的噪聲向量。

實驗結果表明 ARLON 模型在長影片生成領域達到了目前最先進的效能,並且在推理效率和生成質量上都有顯著的提升。
研究員們對 ARLON 模型與其他開源的文字到長影片生成模型,在動態度、審美質量、成像質量、主題一致性、背景一致性和運動平滑度等指標上進行了評估。結果顯示,ARLON 在多個評估指標上表現優異,特別是在動態度和審美質量方面的效能表現尤為突出。

表1:ARLON 與其他長影片生成方法在效能上的比較結果
定性結果展示了 ARLON 生成的影片在保持動態和一致性方面的優勢。例如,與生成靜態或幾乎無運動影片的模型相比,ARLON 在動態運動、高水平的時間一致性及自然流暢性之間取得了更好的平衡,生成的影片不僅展現了動態運動,還保持了高度的主體一致性和自然流暢性。

圖3:ARLON 與其他長影片方法的定性比較

圖4:ARLON 根據文案 "Misty mountains at sunrise, with the sun casting a warm glow…… " 生成的短影片(2s)

圖5:多個模型根據文案 "In a mesmerizing underwater world, schools of tropical fish, including angelfish, clownfish, and tangs, dart gracefully through the water……" 生成的影片對比
ARLON 透過使用 AR 預測的潛在特徵作為有效的初始化,顯著加快了 DiT 模型的去噪過程。與需要30步去噪的基線模型相比,ARLON 在5到10步內就達到了相似的效能。

圖6:不同去噪步驟下的影片質量比較
ARLON 還能處理使用漸進式文字提示的長影片生成,這意味著模型能夠根據一系列逐步變化的文字提示生成影片,並且在提示轉換時能夠保持影片內容的連貫性。

圖7:ARLON 與其他模型在漸進式文字長影片生成方面的對比

圖8:ARLON 根據漸進式多文字文案 "A majestic dormant volcano rises in the center …."—> "An erupting volcano dominates the scene ……" 生成的影片
注:ARLON 是一個純粹的研究專案。ARLON 可以合成保持場景動態的長影片,但其相似度和自然度仍取決於影片提示的長度、質量、背景以及其他因素。該模型可能在誤用方面存在潛在風險,例如偽造影片內容或冒充特定場景。在影片生成研究中,如果該模型需要推廣到現實世界中未見過的場景,應確保與場景相關方達成其同意使用影片內容的協議,同時配備合成影片檢測模型。如果您發現 ARLON 被濫用、非法使用或侵犯了您或他人的權利,可以在微軟的濫用報告入口網站(https://msrc.microsoft.com/report/)進行舉報。
你也許還想看:
