快手開源I2V-Adapter,即插即用、輕量級模組讓靜態影像秒變動態影片

作者 | 快手大模型團隊
快手開源影像生成影片技術 I2V-Adapter。I2V-Adapter 是基於 Stable Diffusion 的文生影片擴散模型的輕量級適配模組。該模組能夠在不需要改變現有文字到影片生成(T2V)模型原始結構和預訓練引數的情況下,將靜態影像轉換成動態影片。  
研究背景
電影,從黑白默片的古樸典雅到特效大片的視覺盛宴,是人類藝術史上不可或缺的一環。然而,其誕生之初,竟源於一場關於馬匹奔跑時四蹄離地狀態的打賭。1872 年,斯坦福與科恩的這場打賭,讓攝影師穆布里奇利用 24 架照相機捕捉了馬匹奔跑的連續瞬間,進而透過連續放映這些照片,賦予了靜態影像生命,開創了電影藝術的先河。
如今,在計算機視覺領域,靜態影像到動態影片(I2V)任務同樣面臨著巨大的挑戰。其核心在於如何從單一的靜態影像中提煉出動態的時間維度資訊,並確保所生成的影片在真實性和視覺連貫性上達到高度一致。為了實現這一目標,當前的 I2V 方法大多依賴於複雜的模型架構和龐大的訓練資料集。例如 Stable Video Diffusion(SVD),通常採用的策略是擴充套件文字到影片生成(T2V)模型的輸入層維度,透過在擴充套件的維度上輸入參考影像來注入影像資訊。然而,這種方法需要對模型架構進行修改,導致整個模型需要重新訓練,帶來了巨大的計算和時間成本。Stable Video Diffusion 模型需要訓練 1.5 億個引數,累計訓練迭代次數高達 33 萬次,並消耗了 1000 萬的資料量。更為複雜的是,由於重訓練涉及到了控制影像空間排布的空間模組和風格化元件,如 ControlNet 和 DreamBooth 等,不再適配該模型,限制了其應用範圍和效率
研究方案
基礎模型
相較於影像生成,影片生成的獨特挑戰在於建模影片幀間的時序連貫性。現有大多數方案都基於預訓練的文字生成影片(T2I)擴散模型(例如 Stable Diffusion 1.5 和 SDXL)加入時序模組對影片中的時序資訊進行建模。例如 AnimateDiff,一個為定製化 T2V 任務而設計的模型,它透過引入與 T2I 模型解耦的時序模組建模了時序資訊並且保留了原始 T2I 模型的能力,能夠結合定製化 T2I 模型生成流暢的影片。於是,研究者認為,預訓練時序模組可以作為通用時序表徵,並應用於其他影片生成場景,例如 I2V 生成,且無需任何微調。
I2V-Adapter 正式開源
為了突破這一技術瓶頸,快手 AI 團隊在最新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》中,提出了一種適用於基於 Stable Diffusion 的文生影片擴散模型的輕量級適配模組(即 I2V-Adapter),該模組能夠在不需要改變現有文字到影片生成(T2V)模型原始結構和預訓練引數的情況下,將靜態影像轉換成動態影片。這一成果不僅展示了 I2V 技術的巨大潛力,也為該領域的研究提供了新的思路。目前該論文已被 SIGGRAPH 2024 接受,專案也已開源。
GitHub 地址:
https://github.com/KwaiVGI/I2V-Adapter
論文地址:
https://arxiv.org/abs/2312.16693
I2V 任務相對於 T2V 的一大主要難點在於保持輸入影像的 ID 資訊,現有方案為解決這一問題,往往需要改變模型的結構與引數,訓練代價大且相容性較差。
I2V-Adapter 提出將輸入影像作為影片首幀與噪聲並行輸入給網路,在模型的空間模組(Spatial Block)中的自注意力層(Self Attention),所有幀都會額外查詢一次首幀資訊,即 key,value 特徵都來自於不加噪的首幀,輸出結果與原始模型的自注意力結構相加。此模組中的輸出對映矩陣使用零初始化以實現 T2V 初始化,並且只訓練輸出對映矩陣與 query 對映矩陣以實現高效的訓練效率。為了進一步加強模型對輸入影像語義資訊的理解,研究論文還在交叉注意力層(Cross Attention)中引入了一種 Content-Adapter(本文使用的是預訓練的 IP-Adapter)注入影像的語義特徵。
Frame Similarity Prior
為了進一步增強生成結果的穩定性,I2V-Adapter 提出了幀間相似性先驗(Frame Similarity Prior),用於在生成影片的穩定性和運動強度之間取得平衡。其關鍵假設是,在相對較低的高斯噪聲水平上,一段影片的不同幀之間足夠接近,如下圖所示:
因此,可以把加噪後的輸入影像作為後續幀的先驗輸入。為了排除高頻資訊的誤導,研究者還使用了高斯模糊運算元(GaussianBlur)和隨機掩碼混合輸入。具體運算由下式給出:
實際效果
快手 AI 團隊為了全面評估生成影片的質量,設定了四種定量指標,包括 DoverVQA(美學評分)、CLIPTemp(首幀一致性)、FlowScore(運動幅度)以及 WarppingError(運動誤差)。這些指標從不同維度對生成的影片進行了全方位的評價。在最近的研究中,I2V-Adapter 模型在各項指標上均展現出了卓越的效能。如表 1 所示,I2V-Adapter 在美學評分上獲得了最高分,顯示出其生成的影片在視覺美學上具有出色的表現。同時,在首幀一致性方面,I2V-Adapter 同樣表現出色,遠超其他對比方案。值得一提的是,I2V-Adapter 生成的影片不僅運動幅度最大,而且運動誤差相對較低。這意味著該模型在生成高度動態影片的同時,還能精準地保持時序運動的準確性。
Image Animation(左為輸入,右為輸出):
w/ Personalized T2Is(左為輸入,右為輸出)
w/ ControlNet(左為輸入,右為輸出)
業務應用
I2V-Adapter 展現了其卓越的多功能性,不僅適用於廣泛的 I2V 任務場景,還能與定製化的 T2I 模型結合,實現獨具特色的風格化 I2V 任務。更值得一提是,它還能與 ControlNet 相容,為使用者帶來高度可控的 I2V 體驗。
快手與聯發科技深化合作,
共同推進影片生成技術的革新
影片生成技術如今已不僅僅侷限於 App 應用層面,它在端側同樣取得了令人矚目的成就。近日,快手與全球領先的半導體公司聯發科技達成技術合作,共同探索並推進影片生成技術的革新。透過此次合作,快手將其先進的 AI 模型 I2V Adapter 與聯發科技的 Dimensity 平臺強大的 AI 計算能力結合,實現將靜態照片轉化為生動影片。使用者只需簡單挑選照片,平臺便能智慧識別照片中的人物和場景,透過深度分析精準捕捉關鍵幀,並據此生成自然流暢、栩栩如生的影片效果。
此外,該平臺還支援個性化定製,提供了豐富多樣的動畫風格、精選的背景音樂和個性化的文字新增功能,讓使用者能夠自由發揮創意,打造出獨一無二的影片作品。無論是記錄生活點滴,還是展現個人風採,這一平臺都能滿足使用者的多樣化需求,讓影片生成變得更加簡單、有趣和個性化。
展望未來
I2V-Adapter 以其獨特的即插即用特性,為影像到影片生成任務帶來了革命性的輕量級擴散模型模組。它巧妙地保留了原始文生影片模型的結構與引數不變,僅透過引入額外設計的注意力機制,使得生成的影片幀能夠與使用者輸入的影像影片首幀互動,從而產生時序連貫且與首幀一致的影片。令人矚目的是,透過定量實驗驗證,I2V-Adapter 在僅訓練 1% 的引數量和使用 18% 的資料量的情況下,便達到了與 SVD 相媲美的影像到影片生成能力。此外,其靈活的解耦設計賦予了該方案出色的相容性,使得 DreamBooth、Lora 與 ControlNet 等模組能夠無縫整合,為使用者提供高度定製化和可控的影像到影片生成體驗。
內容推薦
新應用時代,融合AI技術的應用開發變得更加複雜。在6月14日至15日的ArchSummit全球架構師峰會上,來自位元組、百度和騰訊雲等知名企業的資深架構師分享了他們如何運用AI模型及技術管理手段,解決實際問題。「AI前線」精選了大會上聚焦AI模型及其應用開發的系列PPT,關注「AI前線」,回覆關鍵詞「應用開發」免費獲取。
 活動推薦
InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會,匯聚頂尖企業專家,深入端側 AI、大模型訓練、安全實踐、RAG 應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。

相關文章