該死,這糟糕的心動感,AI殺瘋了!

大家好,今天繼續聊聊科技圈發生的那些事。

一、Champ

三維引數導引下可控一致的人體影像動畫生成專案。只需要一張照片,就能讓照片裡的人物動起來。
給出一個動作影片,Champ 可以讓不同的人像復刻出相同的動作。
我們先來看看真實人物照片的效果:
而在虛擬人物和不同風格的照片下,Champ 也有不錯的表現:
專案主要依靠於人體網格恢復模型,從輸入影片中提取引數化三維人體網格模型 SMPL 序列,渲染不同的資訊控制影片的生成。
專案框架
在專案的框架圖中,我們可以看到,Champ 採用了一個多層運動融合模組(MLMF),透過深度、骨骼、蒙版、法線、語義幾項資訊控制影片的細節生成,使其更加真實靈動。這五項資訊,也可以透過 comfy 節點的示例工作流生成。
另外,Champ 利用 SMPL 保持了生成影片中人物體型的一致。透過對齊體型引數,Champ 在保持人物的體態和動作方面超過了其他 SOTA 工作。
效果比較
專案提供了體驗 demo,如果需要本地部署,會根據所生成的解析度佔用視訊記憶體,解析度越高,視訊記憶體佔用越大,需要一定硬體支援,感興趣的小夥伴也可以試試分段生成。
專案地址:
https://github.com/fudan-generative-vision/champ

二、MuseV

基於視覺條件並行去噪的無限長度和高保真虛擬人影片生成專案。
在這個專案裡,我們能看到:
  • 會動的永恩和金克斯
  • 跨越多年眨巴大眼睛的杜甫老師
而作為虛擬人影片生成專案,MuseV 在生成場景的方面也有不錯的表現。
MuseV 支援以下幾種生成方式:影像到影片、文字到影像到影片、影片到影片。另外,它還能相容 Stable Diffusion 的生態系統。
並行去噪
對於當前的生成方案,如果不對齊影片和影像的首幀條件,首幀的資訊可能會被破壞,所以 MuseV 一般有如下的使用流程:
  1. 確定參考影片
  2. 用參考影片的首幀走圖生圖、controlnet流程,可以使用 MJ 等各種平臺
  3. 拿2中的生成圖、參考影片用 MuseV 生成影片
由於訓練資料型別有限,MuseV 在較低解析度下具有更大的動作範圍,但影片質量較低;在高解析度下,畫質更好、但動作範圍較小。可能還需要使用更多型別的資料進行訓練,如高質量、高解析度的影片資料集。
在近期的更新中,作者團隊更新了 Huggingface 的 GUI ,可以線上進行體驗。
Huggingface地址:
https://huggingface.co/spaces/AnchorFake/MuseVDemo
作者團隊的主頁上還說到,他們即將釋出的 MuseTalk(一個即時高質量的唇同步模型,在 MuseV 專案的主頁也已經給出演示 demo 了)可與 MuseV 配合使用,生成的效果會更好,可以期待一手。
專案地址:
https://github.com/TMElyralab/MuseV

三、BrushNet

一個具有分解雙分支擴散的影像修復模型。對於畫面上的 Mask 區域(蒙版,存在缺失的部分),BrushNet 可以對其進行修復。此外,BrushNet 對於任何已經預先訓練好的擴散模型都可以實現“即插即用”。
效果展示
模型在給定蒙版和蒙版影像輸入的情況下輸出一個未繪製的影像。首先,對掩模進行下采樣以適應潛空間的大小,並將掩模影像輸入 VAE 編碼器以對齊潛在空間的分佈。然後,將噪聲潛伏、掩碼影像潛伏和下采樣掩碼連線起來作為輸入。接下來從模型中提取特徵,特徵去噪後,生成的影像和蒙版影像與模糊蒙版混合,生成影像。
專案框架
BrushNet 不會修改預訓練的擴散模型的權重,可以實現儲存尺度調整,也可以進一步自定義非 Mask 區域的儲存比例。這使得 BrushNet 具有很強的靈活性,實現即插即用。
作者團隊還展示了將 BrushNet 與不同的擴散模型相結合的能力,其中有:
  • DreamShaper (DS)
  • epiCRealism (ER)
  • Henmix_Real (HR)
  • MeinaMix (MM)
  • Realistic Vision (RV)
不同模型下的效果
根據使用者個人的需求,可以靈活選用已經訓練好的 SD 模型進行整合,只需要選擇自己滿意的效果即可。
專案地址:
https://github.com/TencentARC/BrushNet

四、MediaCrawler

這是一款開源的爬蟲專案,用於爬取小紅書、抖音、快手、B站、微博的影片、圖片、評論、點贊、轉發等資訊。
MediaCrawler 基於 playwright 庫搭橋,保留登入成功後的上下文瀏覽器環境,透過執行 JS 表示式獲取一些加密引數。透過這樣的方式,免去了復現核心加密 JS 程式碼,逆向難度大大降低。在 Python 環境下搭建專案也使得這個專案的可擴充套件性大大提升,潛力無限。
該專案有以下三種登入態:
  • QRCode (login_by_qrcode)
  • 手機號 (login_by_mobile)
  • Cookie (login_by_cookies)
作者也對登入的準備工作進行了說明,方便使用者使用。
而且,MediaCrawler 具備模組化設計,使用者可以根據自己的使用需求,定義爬取的關鍵詞、指定目錄等。可以實現抓取策略的“私人定製”。
順提一句,作者曾將這個在幾天之內就獲取 10k+ star 數的專案親手刪除。當我們再一次看到它的時候,主頁上新增了很多免責宣告。想必作者自己也不希望這個功能如此便捷的爬蟲專案給自己帶來什麼麻煩吧。
專案地址:
https://github.com/NanmiCoder/MediaCrawler
好了,本期的內容就是這麼多,我們下期再見!


相關文章