炸裂開源!一週爆漲18K+的Star!

大家好,今天繼續聊聊科技圈發生的那些事。

一、ChatTTS-ui

ChatTTS-ui 可以在網頁端使用ChatTTS的功能,並提供API介面。不過,在介紹 ChatTTS-ui 之前,我們先來看看 ChatTTS 效果。
可以聽一聽,ChatTTS 生成音訊的效果。
相信不少小夥伴已經關注到這款功能強大的TTS模型了。ChatTTS是一個語音生成模型,用於解決LLM對話任務。目前模型支援中英雙語。它可以為對話生成響應,可以被整合到各個應用中。一週就爆漲了 18K+ 的 Star。
ChatTTS 使用了大量資料進行訓練,大約有1000萬小時的中文和英文資料。不過開源出來的是一個沒有那麼多資料的版本,因為作者團隊使用了大量網際網路資料進行訓練,如果全部開源,可能會導致一些不必要的麻煩。
我們平時接觸到的語音朗讀,無非是短影片的小說分享,背景放個地鐵跑酷或是解壓小影片,生成小說文字的朗讀。再有,也就是ChatGPT的這種語音生成。無一例外,我們可以用一個詞概括——莫得感情。
而ChatTTS最核心的突破,就是它真的可以生成正常人講話的語音語調!第一次聽的時候,真的愣了一下才反應過來,的確非常真實。另外,你可以透過prompt提示想要的情緒,例如大笑、悲傷,ChatTTS可以生成帶情緒,甚至是帶笑聲的語音。一句話裡同時包含中文和英文,也是不在話下。
專案可以直接在本地部署,以下是一個最簡單的使用示例:

git 

clone

 https://github.com/2noise/ChatTTS

pip install torch ChatTTS
import torch

import ChatTTS

from IPython.display import Audio
chat = ChatTTS.Chat()

chat.load_models()

texts = [

"你好,這是一個使用示例!"

]

wavs = chat.infer(texts, use_decoder=True)

而這個ui專案則是直接將ChatTTS的功能整合到了網頁端,有點類似於SD的WebUI,使用者可以直接使用打包好的壓縮包一鍵啟動,非常方便。
作者製作了一個簡單的使用者介面,在介面上你可以很輕鬆的除錯你想控制的引數,隨後接入的ChatTTS就會直接幫你生成音訊了。
感興趣的小夥伴,可以自行部署體驗一下這個功能強大的模型。
專案地址:
https://github.com/2noise/ChatTTS
https://github.com/jianchang512/ChatTTS-ui

二、Omost

Omost 專案旨在將 LLM 模型的編碼能力轉換為影像生成能力。主要的作用,仍然是影像生成,但更為精細。
這個專案的取名很有意思,Omost與單詞almost同音,意為大體上,幾乎。也就是說,只要使用了Omost,你的影像生成大體就完成了。另一層含義來說,"O" 代表 "omni",與多模態相關。
那麼,Omost相比起一般的AI畫圖,有什麼優點呢?我們先來看看這個demo:

提示詞大致是:a ragged man wearing a tattered jacket in the nineteenth century.
生成的效果看起來還是挺不錯的,但根據這麼簡單的一個prompt,如何才能生成這麼精細的畫面?實際上,我們可以在輸入中提供很多很多的細節提示,控制Omost製作出我們想要的影像。
這張圖上給出了很多細節,可以看到這些細節描述都被呈現在了輸出結果圖上。Omost允許LLM透過描述影像的不同部分來生成影像,全域性描述用於描述整個影像的主題和背景,區域性描述用於描述影像中的特定部分或物件。二者結合,我們可以高度精細化控制生成細節。
當前,專案提供三種模型以及它們的量化版本:
  • omost-llama-3-8b
  • omost-dolphin-2.9-llama3-8b
  • omost-phi-3-mini-128k
專案在本地可以直接部署:

git 

clone

 https://github.com/lllyasviel/Omost.git

cd

 Omost

conda create -n omost python=3.10

conda activate omost

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

pip install -r requirements.txt

python gradio_app.py

不過,作者團隊還說到,在部分GPU使用的情況下,專案可能會出現問題,而遇到這種情況,可以直接使用 Huggingface 線上體驗。
線上體驗地址:
https://huggingface.co/spaces/lllyasviel/Omost
專案地址:
https://github.com/lllyasviel/Omost

三、MusePose

看到這個名字是不是倍感熟悉?Muse 開源系列的最後一個模組,終於來了!
MusePose 是一個姿態驅動的影像到影片生成框架,專注於虛擬人類的生成,能夠在給定的姿態序列下,生成參考影像中的人類角色的舞蹈影片。配合上MuseV和MuseTalk,可以實現端到端的虛擬人類生成,包括全身運動和互動能力。
這個專案測重於Pose,那我們就來談談姿態引導吧。
姿態引導是 MusePose 的關鍵技術之一,透過給定的姿態序列,模型能夠生成參考影像中的人物在這些姿態下的動畫。具體實現方式包括:
  • 姿態對齊演算法 (Pose Alignment Algorithm):該演算法將任意舞蹈影片的姿態與任意參考影像對齊,確保生成的影片中的人物動作與輸入姿態序列一致。
  • 姿態序列生成:透過姿態對齊演算法,生成參考影像人物在不同時間步的姿態序列,這些姿態序列用作生成影片的輸入。
Muse系列的框架我們先前也有介紹過,作為這一系列的收官之作,我們已經可以通過幾個框架的配合使用,生成效果非常棒的虛擬人影片了。感興趣的小夥伴,可以體驗看看。
專案地址:
https://github.com/TMElyralab/MusePose
好了,本期的內容就是這麼多,我們下期再見!


相關文章