大家好，今天繼續聊聊科技圈發生的那些事。

一、ChatTTS-ui

ChatTTS-ui 可以在網頁端使用ChatTTS的功能，並提供API介面。不過，在介紹 ChatTTS-ui 之前，我們先來看看 ChatTTS 效果。

可以聽一聽，ChatTTS 生成音訊的效果。

相信不少小夥伴已經關注到這款功能強大的TTS模型了。ChatTTS是一個語音生成模型，用於解決LLM對話任務。目前模型支援中英雙語。它可以為對話生成響應，可以被整合到各個應用中。一週就爆漲了 18K+ 的 Star。

ChatTTS 使用了大量資料進行訓練，大約有1000萬小時的中文和英文資料。不過開源出來的是一個沒有那麼多資料的版本，因為作者團隊使用了大量網際網路資料進行訓練，如果全部開源，可能會導致一些不必要的麻煩。

我們平時接觸到的語音朗讀，無非是短影片的小說分享，背景放個地鐵跑酷或是解壓小影片，生成小說文字的朗讀。再有，也就是ChatGPT的這種語音生成。無一例外，我們可以用一個詞概括——莫得感情。

而ChatTTS最核心的突破，就是它真的可以生成正常人講話的語音語調！第一次聽的時候，真的愣了一下才反應過來，的確非常真實。另外，你可以透過prompt提示想要的情緒，例如大笑、悲傷，ChatTTS可以生成帶情緒，甚至是帶笑聲的語音。一句話裡同時包含中文和英文，也是不在話下。

專案可以直接在本地部署，以下是一個最簡單的使用示例：


git 
clone
 https://github.com/2noise/ChatTTS

pip install torch ChatTTS
import torch

import ChatTTS

from IPython.display import Audio
chat = ChatTTS.Chat()

chat.load_models()

texts = [
"你好，這是一個使用示例！"
]

wavs = chat.infer(texts, use_decoder=True)

而這個ui專案則是直接將ChatTTS的功能整合到了網頁端，有點類似於SD的WebUI，使用者可以直接使用打包好的壓縮包一鍵啟動，非常方便。

作者製作了一個簡單的使用者介面，在介面上你可以很輕鬆的除錯你想控制的引數，隨後接入的ChatTTS就會直接幫你生成音訊了。

感興趣的小夥伴，可以自行部署體驗一下這個功能強大的模型。

專案地址：

https://github.com/2noise/ChatTTS

https://github.com/jianchang512/ChatTTS-ui

二、Omost

Omost 專案旨在將 LLM 模型的編碼能力轉換為影像生成能力。主要的作用，仍然是影像生成，但更為精細。

這個專案的取名很有意思，Omost與單詞almost同音，意為大體上，幾乎。也就是說，只要使用了Omost，你的影像生成大體就完成了。另一層含義來說，"O" 代表 "omni"，與多模態相關。

那麼，Omost相比起一般的AI畫圖，有什麼優點呢？我們先來看看這個demo：

提示詞大致是：a ragged man wearing a tattered jacket in the nineteenth century.

生成的效果看起來還是挺不錯的，但根據這麼簡單的一個prompt，如何才能生成這麼精細的畫面？實際上，我們可以在輸入中提供很多很多的細節提示，控制Omost製作出我們想要的影像。

這張圖上給出了很多細節，可以看到這些細節描述都被呈現在了輸出結果圖上。Omost允許LLM透過描述影像的不同部分來生成影像，全域性描述用於描述整個影像的主題和背景，區域性描述用於描述影像中的特定部分或物件。二者結合，我們可以高度精細化控制生成細節。

當前，專案提供三種模型以及它們的量化版本：

omost-llama-3-8b
omost-dolphin-2.9-llama3-8b
omost-phi-3-mini-128k

專案在本地可以直接部署：


git 
clone
 https://github.com/lllyasviel/Omost.git
cd
 Omost

conda create -n omost python=3.10

conda activate omost

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

pip install -r requirements.txt

python gradio_app.py