大家好,今天繼續聊聊科技圈發生的那些事。
一、MagicTime
MagicTime 是一款由北大團隊開發的新框架,用於生成可變時間延時影片( Metamorphic Videos )。簡單一點來說,就是可以基於文字提示,展示物體變化的過程,並生成我們熟知的延時攝影影片。
我們先來看一個例子:

這張動圖上展示了一塊冰融化成水的過程。看到這裡,可能還是有些許疑惑:這個模型和看過的一大堆模型比,到底特殊在哪?這不就是很正常的 T2V 生成嗎?
那麼,我們將 MagicTime 生成的影片,和一般模型生成的影片進行一個比較:


transitioning from a tightly closed bud to a fully bloomed state(從緊閉的花蕾過渡到完全綻放的狀態)
這下,我們能很清晰的看到,MagicTime 生成的影片“活”起來了。這也是開發團隊研究的主要工作,通常來說,生成變化過程的影片對於模型來說是很困難的,因為模型不僅需要根據文字生成正確的資訊,還需要跟隨時間,展示出變化的過程。對於現有的模型來說,在生成這樣的影片時,它們往往無法很好的遵循現實世界的物理規律,比如 Sora 的演示影片中憑空出現的小狗。

而 MagicTime 的開發團隊透過自主設計的 MagicAdapter 方案,可以解耦空間和時間訓練,從而編碼更多的物理知識,使影像更符合現實。基於傳統的 T2V 模型,MagicTime 在預訓練 T2V 的基礎上進行轉換,從而生成我們看到的延時影片。

團隊還將 MagicTime 整合到了先前介紹過的北大 Open-Sora-Plan 中,在同一標註框架中使用額外的變質景觀延時影片進行擴充套件,以獲得 ChronoMagic-Landscape 資料集。然後利用該資料集對 Open-Sora-Plan 進行微調,得到 MagicTime-DiT 模型。在專案的主頁上,也對模型生成效果進行了部分展示。

順提一嘴,開發團隊似乎對《我的世界》這款遊戲情有獨鍾,專案已生成的 demo 中,有很大一部分都是展示 Minecraft 中的建築過程。相信不少遊玩過這款遊戲的玩家都和我一樣,在看到演示 demo 是自己喜歡的遊戲畫面時,都會忍不住往下翻翻吧。
專案地址:
https://github.com/PKU-YuanGroup/MagicTime
二、StreamingT2V
StreamingT2V 是一款自迴歸方法 T2V 模型。我們先看看這個專案的介紹:根據文字生成一致、動態和可擴充套件的長影片。
相較於它的競爭對手們,StreamingT2V 最大的優勢就在於——長。
一般來說,目前的 T2V 模型都是生成一個較短的影片,比如 16 幀或是 24 幀,這樣的影片長度,通常都能以一個 gif 圖的形式呈現在我們面前,甚至不需要用到什麼影片播放器。而如果透過這樣的短影片生成模型強行生成一個長影片,或許質量就不怎麼樣了。StreamingT2V 上來就提供了一個 1200 幀的影片,長達兩分鐘。

這樣的優異表現,是如何實現的呢?團隊設定了一個名為條件注意模組(CAM)的短期記憶塊,它透過注意機制將當前生成的影片與從上一個影片塊中提取的特徵聯絡起來,從而實現一致的影片塊轉換;相應的,也有一個名為外觀儲存模組的長期記憶塊,從第一個影片塊中提取高階場景和物體特徵進行記憶,並在後續不斷進行比對,確認一致;另外,團隊還利用隨機混合方法,在長影片中應用影片增強器,這樣就不會出現幾個影片塊之間不一致的情況。

種種說法似乎都指向了一個關鍵點,在影片生成過程中不斷與先前已生成的部分進行比較,短時比較上一個影片塊,長時比較最初始的影片塊。
在專案的階段圖中可以看到,團隊將工作流程分為了三個階段:
-
Initialize Stage 初始化 -
Streaming T2V Stage T2V生成 -
Streaming Refinement Stage 最佳化階段
在初始化階段,團隊利用一個 T2V 模型生成影片的開頭部分,也就是上文有提到的第一個影片塊,然後在 Streaming T2V 階段,運用自迴歸,不斷生成後續的幀,這也是為什麼 StreamingT2V 可以生成無限長的影片。最後,對已生成的影片進行質量最佳化。

專案已經開源,感興趣的小夥伴可以關注看看。
專案地址:
https://github.com/picsart-ai-research/streamingt2v
三、APISR
看看這個畫質,難道是精靈寶可夢要出重製版了嗎?

事實上,這是 APISR 的傑作。這是一款開源的動漫影像超解析度重建工具。專門面向動漫畫面進行視覺效果提升。
在這裡,我們可以看到:
-
嶄新出廠的綾波麗

-
換了新帽子的大雄

團隊發現,傳統的動漫超解析度重建中重複使用了很多手繪幀,這似乎是非必要的。因此團隊提出了一個動漫影像收集管道,從影片源中選擇壓縮率最低、資訊量最大的幀。在此基礎上,團隊提出了 API 資料集。

模型提出了面向預測的壓縮模組,以模擬單一影像輸入的多種壓縮降級。運用影片壓縮演算法,壓縮了單幀的輸入。然後合成壓縮偽影,也就是影片畫面中可能會模糊的部分,模型會學習壓縮偽影的各種恢復方式,然後對其進行修復,最後實現整個畫面的超解析度重建。這個方法針對手繪幀的動漫畫面,可以有非常棒的修復表現。

在二次元動漫解析度重建這個賽道上,APISR 確實取得了很不錯的表現。專案團隊準備了線上體驗的網址。可以自行體驗一下。
線上體驗地址:
https://imgsli.com/
專案地址:
https://github.com/kiteretsu77/apisr
好了,本期的內容就是這麼多,我們下期再見!
關鍵詞
影像
階段
長影片
資料集
文字