危~AI聲音克隆又進化了,已開源!

首先讓我們先聽一下這三段音訊,你能分辨出哪一個是AI合成的嗎:
文字:對我來講也是一種榮幸,但是也是壓力蠻大的,不過我覺得是一種很好的挑戰。
文字:我覺得這種運動其實不是說靠機會的,我覺得對每個人來講,像我們歌手來講,我覺得其實都是你要自己去努力,然後才可以達到自己的夢想。
文字:I don't think this kind of sport is about relying on luck. For each of us, especially for singers like us, I believe it's all about putting in the effort yourself. Only then can you reach your dreams.
反正我是有點分辨不出來哪個是AI合成的了。

當大廠還對他們的語音模型閉源不放的時候,SparkAudio 開源社群聯合香港科技大學、南洋理工大學等機構帶來了開源TTS(Text-to-Speech)模型——Spark-TTS!讓大家可以打造屬於自己的AI語音。

它不僅能零樣本克隆聲音,讓你在沒有額外訓練的情況下完美複製任何人的聲音,還能進行精準的語音控制,讓合成語音像真人一樣自然流暢,甚至支援中英文自由切換!
這意味著,你可以讓 AI 用你的聲音朗讀文章、配音影片,甚至在不同語言間流暢切換,而無需額外訓練!
那麼,Spark-TTS 究竟是如何做到的?它到底有多強?讓我們一起深入瞭解!
專案地址:
https://github.com/SparkAudio/Spark-TTS
試聽樣例:
https://sparkaudio.github.io/spark-tts/

一、Spark-TTS的核心優勢

1. 更簡單、更高效

傳統的 AI 語音合成系統需要多個模型協作,比如流匹配(Flow Matching)或多階段處理來生成音訊特徵,而Spark-TTS完全拋棄了這些複雜步驟,直接透過大語言模型Qwen2.5預測語音程式碼,並利用其內建的BiCodec解碼器重建音訊,從而大幅提升合成速度推理效率

2. 零樣本語音克隆
你是否曾經想過,AI 可以在沒有任何訓練資料的情況下,復刻你的聲音?
Spark-TTS 做到了。它支援零樣本語音克隆,只需提供一段參考音訊,就能生成幾乎一模一樣的語音,無論是跨語言還是混合語言,它都能精準轉換。

3. 中英文雙語支援
Spark-TTS 目前支援中文英文,並且在跨語言合成和語音切換方面表現出色。
例如,你可以用中文輸入文字,它會用英文朗讀出來,甚至能模仿不同口音的英語發音,真正做到自然流暢的多語言表達!
4. 可控的語音合成
相比於傳統的 TTS,Spark-TTS 的另一個創新之處在於可控性,它可以讓使用者根據需求自由調整合成音色,實現個性化語音合成。
例如:
  • 性別(男聲/女聲)
  • 語速(快/慢)
  • 音高(高/低)
  • 說話風格(如激情、沉穩、溫柔等)

技術核心:Spark-TTS 依賴BiCodec編碼框架,並結合Qwen2.5大語言模型的強大文字理解能力,實現了語音屬性的可控生成。BiCodec,它將音訊拆分為兩種互補的語音編碼:
  • 語義 Token:用於編碼語言內容,保證語音合成的流暢性和準確性。
  • 全域性 Token:用於編碼說話人的個性化特徵,包括音色、性別、音高、語速等,讓系統可以精細調整語音屬性。
Spark-TTS讓你的AI助手擁有獨一無二的個性化嗓音!
官方也放出來許多試聽樣品,可以前往下面網站試聽。
試聽樣例:
https://sparkaudio.github.io/spark-tts/
效能超越同類TTS模型。

在一系列基準測試中,Spark-TTS的表現超越了許多知名TTS模型:
  • 語音質量(UTMOS評分):4.35(高於CosyVoice2的4.23)
  • 零樣本語音克隆準確率:99.77%(比其他模型更精準)
此外,Spark-TTS還支援Nvidia Triton推理伺服器,在單張L20 GPU上實現了毫秒級延遲的高效合成,更適合大規模應用部署。

二、如何安裝和使用 Spark-TTS?

如果你想親自體驗Spark-TTS,下面是快速上手的步驟:
1. 安裝:
git clone https://github.com/SparkAudio/Spark-TTS.gitcd Spark-TTSconda create -n sparktts -y python=3.12conda activate sparkttspip install -r requirements.txt
也可以使用阿里雲映象源:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
2. 下載預訓練模型
可以使用以下方式下載預訓練模型:
from huggingface_hub import snapshot_downloadsnapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
或者使用Git:
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
3. 執行推理(語音合成)
cd examplebash infer.sh
或者直接執行:
python -m cli.inference \    --text "你好,歡迎使用Spark-TTS!" \    --device 0 \    --save_dir "output_audio" \    --model_dir pretrained_models/Spark-TTS-0.5B \    --prompt_text "你好,這是示例音訊" \    --prompt_speech_path "path/to/prompt_audio.wav"
4. 啟動Web UI
如果你想在網頁介面上操作,可以執行:
python webui.py --device 0
這樣,你就可以在線上傳參考音訊,進行語音克隆和建立!
雖然Spark-TTS已經取得了突破性的進展,但他們團隊還計劃:
  • 最佳化說話人特徵建模,提升語音克隆的個性化還原度
  • 增加更多控制引數,讓使用者能自定義更多細節
  • 擴充套件多語言支援,讓 Spark-TTS 成為真正的全球化 TTS 解決方案
Spark-TTS 的釋出,標誌著 AI 語音合成進入了一個全新的時代。無論是個性化語音助手、內容創作、語言學習還是無障礙輔助,這款超強的 AI 語音模型都可以給廣大使用者帶來更多的便利。
當然,也是有弊的,就比如我的影片,經常被這種 AI 工具直接換個聲音,釋出到平臺上,也讓盜版影片更加猖獗。希望相關的規則 / 法律,也可以儘快跟上。
感興趣的小夥伴,可以試一試這個 Spark-TTS。

相關文章