只需6G視訊記憶體,就能本地跑的AI影片演算法,開源了!

Stable Diffusion 都用過吧?
大名鼎鼎的 ControlNet,可以控制圖片生成的外掛,應該也不陌生?

而它的作者 lllyasviel,現在又開源了一個 AI 影片生成演算法 FramePack
可以根據圖片,生成對應的影片,這是動起來的水母:
上傳一張圖片,然後設定提示詞:
The girl dances gracefully, with clear movements, full of charm.
就能得到這樣的影片:
我們再一起看下 FramePack 生成 AI 影片的其它效果:
  • 5秒長的古畫影片
  • 2分鐘長的賽博朋克2077宇宙
  • 1分鐘長的花樣舞蹈
猜猜要生成上面的影片需要使用多少算力?
過去,答案往往是需要多張A100一起工作。
而現在,使用新發布的 FramePack,只需要一個帶有 6GB GPU 記憶體的 RTX 3060 筆記本,就可以在本地流暢地生成。

FramePack一經發布,在外網上也是收穫了一波好評。

接下來,讓我們一起了解一下 FramePack 究竟是如何做到的。
專案地址:
https://lllyasviel.github.io/frame_pack_gitpage/
程式碼地址:
https://github.com/lllyasviel/FramePack

FramePack的原理及核心優勢

FramePack 是由斯坦福大學的 Lvmin Zhang 和 Maneesh Agrawala 聯合釋出的一種 next-frame(next-frame-section)預測神經網路結構,可以逐步生成影片。

順便提一嘴,Lvmin Zhang 就是大名鼎鼎的ControlNet 的作者張呂敏。
FramePack 將輸入上下文壓縮為恆定長度,並且根據幀的重要性實現不同的壓縮模式。

這樣的操作顯著降低了對 GPU 視訊記憶體的要求,從而實現了與圖片擴散模型相似的計算消耗。
為了緩解“漂移”現象,FramePack 提出了三種反漂移取樣方法。
btw 漂移是指在下一幀預測模型中出現的視覺質量會隨著影片長度的增加而下降的問題。

實驗發現第三種取樣方法可以將使用者的輸入視為高質量的第一幀,並不斷最佳化生成以接近使用者幀,從而可以獲得整體高質量的影片。
這就意味著在不顯著犧牲品質的情況下,FramePack 可以生成更長時間的影片。
並且使用者能夠即時檢視每一幀生成後的畫面,方便進行預覽和調整。
所以如果你要生成一段120s 長的影片,在看到畫面覺得不滿意就可以停止重試,而不需要等到整個影片完成後,節約了使用者時間。
接著,我們一起看看 FramePack 最突出的效能優勢。
  • 極小的硬體需求:可以僅僅使用筆記型電腦 6GB GPU 記憶體,驅動 13B 模型以 30 FPS 生成上千幀影片。目前已經測試的顯示卡系列包括 Nvidia GPU 中的 RTX 30XX、40XX、50XX 系列,支援 fp16 和 bf16。可在Windows及Linux作業系統上使用。
  • 微調高速:在單個 8xA100/H100 節點上以 64 的批次大小微調 100B 影片模型,用於個人/實驗室實驗。
  • 生成速度快:個人版 RTX 4090 的生成速度為2.5秒/幀,使用 teacache 最佳化後可以達到1.5秒/幀。
FramePack 的安裝和使用非常便捷。

快速安裝與使用FramePack

Windows 系統使用者直接點選下面的連結,會自動開始下載。
https://github.com/lllyasviel/FramePack/releases
下載後,對檔案進行解壓縮。
先執行 update.bat 進行更新,然後使用 run.bat 執行。

對於 Linux 系統使用者,建議使用獨立的 Python 3.10。
安裝使用的命令如下:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -r requirements.txt
然後使用下面的命令啟動GUI:
python demo_gradio.py
安裝好後就可以親自上手試試。

GUI 左側用來上傳影像和輸入 prompt。右側是生成的影片。你也能在看到下一部分的預覽以及各個部分的進度條
值得注意的是因為這是一個 next-frame-section 預測模型,所以影片的生成時間會越來越長。
並且初始進度可能比後期擴散慢,因為裝置可能需要一些預熱。

寫在最後

FramePack 的出現非常重要,不僅是對技術本身的突破,而是在大幅度降低本地 AI 影片創作硬體需求的情況下,讓 AI 影片生成技術變得更加更加容易上手玩,讓更多人可以享受到 AI 影片創作的樂趣。

·················END·················


相關文章