
作者 | 褚杏娟
近日,被稱為 GPT-4o 平替的 ChatTTS 文字轉語音開源專案爆火。沒多久,字節跳動也推出了自己的語音生成模型 Seed-TTS,能生成與人類語音幾乎沒有區別的語音,支援多種語言包括英語、中文,能夠進行同語言生成和跨語言生成。
不過讓人沒想到的是,6 月 4 日,位元組剛公開發布相關論文後,市面上立馬就出現了一些山寨 Seed-TTS 的網站,而其中部分山寨網站實際專案套殼了 ChatTTS。目前 AI 前線已經至少發現了四個山寨網站(經查證均非 Seed-TTS 官方網站),特此提醒大家小心分辨、不要受騙:
其中,最後一個網站曾直接 link 到了 ChatTTS 開源倉庫。
截至本文釋出,https://seedtts.ai/ 網站頁面上已經增加了“非字節跳動官方網站”的文字說明,並且點選跳轉開啟的頁面也註明了實際是 ChatTTS 專案。


下面是網友爆料的部分域名註冊資訊:


“這世界真是離譜,技術報告才發表了一天,山寨 Seed-TTS 的網站就出現了。套殼 ChatTTS 說是 Seed-TTS。”字節跳動 Seed-TTS 作者之一的陳卓表示。
陳卓明確道,考慮到安全問題,Seed-TTS 模型不會開源,但是團隊提供了一些評測資料集和測量工具作為 benchmark 使用。
另外讓陳卓比較氣憤的點是,山寨的人同時還在推特上宣傳 Seed-TTS 就是 ChatTTS 的套殼。他表示,目前這件事已經上升到了公司的法務部門。
這是根據文字生成的聲音效果:
零樣本上下文學習的聲音效果:
跨語言內容創作能力:
Seed-TTS 一經推出就收到了網友們的好評,StabilityAI 研究員 Tanishq Mathew Abraham 也轉發了其論文。不過也有網友表示需要自己上手,擔心被官方展示欺騙。
不過,Seed-TTS 目前只提供了技術論文和官方 Demo,暫未開放使用地址。對此,陳卓表示,希望體驗 Seed-TTS 的使用者可以使用位元組語音技術支援的各個產品,比如抖音、剪映等,Seed-TTS 都會逐漸提供支援。
根據目前官網展示的效果,Seed-TTS 可以應用在虛擬助手、影片配音、電影和遊戲配音、新聞和播客製作等場景。

根據介紹,Seed-TTS 該模型基於自迴歸和擴散架構,首先使用一個 speech tokenizer 將輸入的語音訊號轉換成一系列離散的語音 tokens。之後,Seed-TTS 的自迴歸語言模型根據輸入的文字和語音標記生成目標語音的標記序列。這個過程依賴於模型對語言結構和語音特性的理解,確保生成的語音標記序列在語義和語法上與輸入文字相匹配。
接著,生成的語音標記序列隨後被送入一個擴散變換器(diffusion transformer)模型。這個模型負責將離散的語音標記轉換成連續的語音表示,這個過程是逐步細化的,從粗糙到精細,以生成平滑且自然的語音波形。
最後,連續的語音表示被送入負責將這些表示轉換成可聽高質量語音的 Acoustic Vocoder。Acoustic Vocoder 通常使用深度學習技術來模擬人類聲道產生語音的過程。
Seed-TTS 模型基於大量資料進行預訓練,學習語言和語音的基本規律。之後,可以透過微調來適應特定的說話者或語音風格,進一步提升語音的自然度和表現力。
Seed-TTS 還採用了自我蒸餾方法來實現語音屬性的分解,如音色分離,以及使用強化學習技術來增強模型的魯棒性、說話者相似性和可控性。
對於非自迴歸的變體 Seed-TTSDiT,它採用完全基於擴散的架構,直接從文字到語音的端到端處理,不依賴預先估計的音素持續時間。
研發團隊表示,與之前的模型相⽐,Seed-TTS 有兩⼤優勢。
⾸先,Seed-TTS 在各種場景中的語⾳合成能⼒都表現出了很好的⾃然度和表現⼒,包括喊叫、哭泣或情緒激動的語⾳等具有挑戰性的場景。
