又火一個驚豔的AI專案,已開源!

大家好,今天繼續聊聊科技圈發生的那些事。

一、V-Express

V-Express 是一個在參考影像、音訊和 V-Kps 影像序列的控制下生成一個會說話的頭像影片的開源專案。
V-Express 能夠從單張影像生成帶有音訊的肖像影片,透過平衡不同的控制訊號(如音訊、姿勢和影像)來實現自然的嘴部和麵部動作同步。例如,將一張靜態照片轉換成對話影片。
專案框架
類似的專案我們也分享過很多了,不過,每個專案都有其出色之處。V-Express 研究的重點在於,對於一般的影片生成來說,控制訊號的強度各異,如文字、音訊、影像參考、姿勢、深度圖等。在這些訊號中,較弱的條件(如音訊訊號)往往難以發揮作用,因為它們容易被較強的條件(如姿勢和原始影像)干擾。這就直接導致了生成效果不佳。V-Express 透過一系列漸進的丟棄操作來平衡不同控制訊號,很好的解決了這個問題。
這個專案的部署也是類似的。安裝 Python 環境下所需依賴(專案主頁中已列出),然後克隆專案到本地,就可以體驗開發團隊提供的demo了。
作者團隊還提到,在會說話的人臉生成任務中,當目標影片與參考角色不是同一個人時,選擇與參考人臉姿勢更相似的目標影片將能獲得更好的效果。此外,模型目前在英語上表現較好,其他語言尚未進行詳細測試。
專案地址:
https://github.com/tencent-ailab/V-Express

二、automatic

這個專案的簡介是,穩定擴散和其他基於擴散的生成影像模型的高階實現。不過從簡來說,automatic 就是一個升級版的 Stable Diffusion。
相信 Stable Diffusion 大家已經很瞭解了,那麼對於 automatic(也可以稱作 SD.Next ),我們就來簡單說說相對於原版 SD,做出了哪些升級。
SD.Next 支援 Diffusers 和 Original 兩種主要後端:
  • Diffusers:基於Huggingface Diffusers實現,支援所有列出的模型,新安裝預設使用此後端。
  • Original:基於LDM參考實現並由A1111顯著擴充套件,相容大多數現有功能和擴充套件,支援SD 1.x和SD 2.x模型,其他模型型別需要使用Diffusers後端。
SD.Next 支援非常多種類的模型。簡單數了一下,大概是20-30種模型可供支援。而有關使用平臺,SD.Next 支援nVidia GPU、AMD GPU、Intel Arc GPU、相容DirectX的所有GPU、相容OpenVINO的所有裝置、Apple M1/M2、ONNX/Olive等。也就是說,只要你是一臺正經裝置,基本上都能跑通。另外,專案還設定了更好看的使用者介面,支援主題切換。
那麼,簡單來說說專案的部署吧。專案檔案中有一個非常詳細的 Step by Step 安裝教程,在這裡我們簡單進行一個概括。
  1. 安裝 Git,根據自己的系統進行安裝即可。
  2. 安裝 Python 環境
  3. 從 GitHub 克隆專案,進入專案的目錄
最後,執行適用於您作業系統的啟動器來啟動Web介面:
  • Windows: webui.bat –debug 或 .\webui.ps1 –debug
  • Linux: ./webui.sh –debug
  • Mac: ./webui.sh –debug
怎麼樣,是不是很簡單?感興趣的小夥伴,可以動手試試了!
專案地址:
https://github.com/vladmandic/automatic
最後,再來看看B站的新影片吧!
這一期的影片,分享了一個換臉專案 FaceFusion,我們將其製作成了一鍵啟動懶人包,可以透過網盤下載,本地直接部署。
如果本地算力不足,可以使用雲平臺進行計算,我們也準備了一鍵映象,GPU這邊選擇4090就可以跑了,價效比最高。
潞晨雲:
https://cloud.luchentech.com
順提一嘴,本期影片點贊過三萬,我們將手把手教大家訓練一個 DFM 模型,比起市面上免費的 DFM 模型來說,效果肯定是好上加好的!還請大家多多支援!
影片連結:
https://www.bilibili.com/video/BV1Nw4m1S7Q4/
好了,本期的內容就是這麼多,我們下期再見!

相關文章