首先讓我們先聽一下這三段音訊，你能分辨出哪一個是AI合成的嗎：

文字：對我來講也是一種榮幸，但是也是壓力蠻大的，不過我覺得是一種很好的挑戰。

文字：我覺得這種運動其實不是說靠機會的，我覺得對每個人來講，像我們歌手來講，我覺得其實都是你要自己去努力，然後才可以達到自己的夢想。

文字：I don't think this kind of sport is about relying on luck. For each of us, especially for singers like us, I believe it's all about putting in the effort yourself. Only then can you reach your dreams.

反正我是有點分辨不出來哪個是AI合成的了。

當大廠還對他們的語音模型閉源不放的時候，SparkAudio 開源社群聯合香港科技大學、南洋理工大學等機構帶來了開源TTS（Text-to-Speech）模型——Spark-TTS！讓大家可以打造屬於自己的AI語音。

它不僅能零樣本克隆聲音，讓你在沒有額外訓練的情況下完美複製任何人的聲音，還能進行精準的語音控制，讓合成語音像真人一樣自然流暢，甚至支援中英文自由切換！

這意味著，你可以讓 AI 用你的聲音朗讀文章、配音影片，甚至在不同語言間流暢切換，而無需額外訓練！

那麼，Spark-TTS 究竟是如何做到的？它到底有多強？讓我們一起深入瞭解！

專案地址：

https://github.com/SparkAudio/Spark-TTS

試聽樣例：

https://sparkaudio.github.io/spark-tts/

一、Spark-TTS的核心優勢

1. 更簡單、更高效

傳統的 AI 語音合成系統需要多個模型協作，比如流匹配（Flow Matching）或多階段處理來生成音訊特徵，而Spark-TTS完全拋棄了這些複雜步驟，直接透過大語言模型Qwen2.5預測語音程式碼，並利用其內建的BiCodec解碼器重建音訊，從而大幅提升合成速度和推理效率。

2. 零樣本語音克隆

你是否曾經想過，AI 可以在沒有任何訓練資料的情況下，復刻你的聲音？

Spark-TTS 做到了。它支援零樣本語音克隆，只需提供一段參考音訊，就能生成幾乎一模一樣的語音，無論是跨語言還是混合語言，它都能精準轉換。

3. 中英文雙語支援

Spark-TTS 目前支援中文和英文，並且在跨語言合成和語音切換方面表現出色。

例如，你可以用中文輸入文字，它會用英文朗讀出來，甚至能模仿不同口音的英語發音，真正做到自然流暢的多語言表達！

4. 可控的語音合成

相比於傳統的 TTS，Spark-TTS 的另一個創新之處在於可控性，它可以讓使用者根據需求自由調整合成音色，實現個性化語音合成。

例如：

性別（男聲/女聲）
語速（快/慢）
音高（高/低）
說話風格（如激情、沉穩、溫柔等）

技術核心：Spark-TTS 依賴BiCodec編碼框架，並結合Qwen2.5大語言模型的強大文字理解能力，實現了語音屬性的可控生成。BiCodec，它將音訊拆分為兩種互補的語音編碼：

語義 Token：用於編碼語言內容，保證語音合成的流暢性和準確性。
全域性 Token：用於編碼說話人的個性化特徵，包括音色、性別、音高、語速等，讓系統可以精細調整語音屬性。

Spark-TTS讓你的AI助手擁有獨一無二的個性化嗓音！

官方也放出來許多試聽樣品，可以前往下面網站試聽。

試聽樣例：

https://sparkaudio.github.io/spark-tts/

效能超越同類TTS模型。

在一系列基準測試中，Spark-TTS的表現超越了許多知名TTS模型：

語音質量（UTMOS評分）：4.35（高於CosyVoice2的4.23）
零樣本語音克隆準確率：99.77%（比其他模型更精準）

此外，Spark-TTS還支援Nvidia Triton推理伺服器，在單張L20 GPU上實現了毫秒級延遲的高效合成，更適合大規模應用部署。

二、如何安裝和使用 Spark-TTS？

如果你想親自體驗Spark-TTS，下面是快速上手的步驟：

1. 安裝：

git clone https://github.com/SparkAudio/Spark-TTS.gitcd Spark-TTSconda create -n sparktts -y python=3.12conda activate sparkttspip install -r requirements.txt

也可以使用阿里雲映象源：

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

2. 下載預訓練模型

可以使用以下方式下載預訓練模型：

from huggingface_hub import snapshot_downloadsnapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

或者使用Git：

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

3. 執行推理（語音合成）

cd examplebash infer.sh

或者直接執行：

python -m cli.inference \    --text "你好，歡迎使用Spark-TTS！" \    --device 0 \    --save_dir "output_audio" \    --model_dir pretrained_models/Spark-TTS-0.5B \    --prompt_text "你好，這是示例音訊" \    --prompt_speech_path "path/to/prompt_audio.wav"