之前我不是做 B 站嗎?錄影片解說的時候真的挺麻煩,老是讀錯字,還費時間。
所以我一直對語音克隆工具關注有加,最近又發現一個新升級的克隆利器,讓它幫我念臺詞,大家聽聽效果怎麼樣?
我去,我自己聽了都愣住了。也太像了吧。。。
我讓媳婦聽了之後,一開始她還真沒聽出來,不僅音色一致,語調有抑揚頓挫,停頓也都非常自然。
再對比一下原影片解說聲音,怎麼樣,這個 AI 幫忙唸的解說詞和原聲相比,也許最大的差別就是沒有背景音樂了吧。
AI 克隆了我的聲音後,還能用來說粵語、英語。生成的其它方言和語言不僅完全保持了原有的音色,說的也非常自然、流暢。
比之前體驗過的,包括目前市面不少聲音克隆 AI 工具效果不要好太多。
好了,該引出正主了,我用的是 MiniMax Audio 剛上新的 Speech-02 模型克隆的。
說起來 MiniMax,也是國內 AI 六小龍之一的實力選手。海螺 AI 就是 MiniMax 公司的產品之一。
不過這次國內版的 Speech-02 模型還沒有上線,也不支援聲音克隆,所以大家只能先用海外版了,官網「需魔法」:
https://www.minimax.io/audio
內建語音庫、克隆聲音快
MiniMax Audio 內建了豐富的語音庫,差不多有 300 多種,各種語言和各種年齡、風格的都有,質量非常高,都可以直接拿來用。
這麼多,都夠給一部電視劇所有演員配音了吧。
英文咱就不聽了,聽幾個中文的。
如果需要克隆新的聲音,就要點選「Create your Voice Clone」,也就是建立克隆聲音。

然後上傳一段音訊或者自己錄音。至少 10 秒以上吧,也不需要太長,一二十 秒就差不多了。
如果上傳的聲音有背景音樂,這肯定會影響克隆聲音效果的。
而 MiniMax Audio 還支援上傳聲音的同時去除背景音,勾選那個「去除背景音」就行。
這點真的很贊,不然還得另外找工具把背景音樂和人聲分離。
最後選擇需要生成的語音種類,再點選「Convert」就開始克隆了。

我從點選開始到生成克隆的聲音真的快,大概也就 10 秒時間。
真的挺快!不禁感嘆,語音克隆這個玩法現在是真的有手就會,完全是 0 門檻了。
支援生成 30多種語言,可調節音色
這還只是第一步,聲音克隆之後,它會存到語音庫。
如果想要克隆出的聲音說出其他話,還得再輸入文字,然後在語音庫裡選擇剛才克隆的聲音就可以了。

在文字生成聲音的時候,還可以對生成的聲音效果進行調節,比如速度、音量等等。

什麼帶情緒的也可以,比如高興、悲傷、生氣等等。

在左下角生成語言選項那裡,可以看到,它除了可以生成中文普通話外,還能生成粵語方言以及英語、日語等 30 多種語言。

而且不管你克隆的聲音說什麼語言的,都能生成其它不同的語言。
所以在生成的時候有兩個模型可供選擇:Speech-02-hd、Speech-02-turbo。
這兩個有什麼區別呢?
Speech-02-hd 主要是用在聲音克隆方面,生成一些小語種聲音的話,建議使用 Speech-02-turbo。

生成不同的語言時注意不要選錯。
我用它克隆了幾個大家都算比較熟悉的聲音,然後再和原聲對比,大家就更能體驗到 MiniMax Audio 的聲音克隆能力有多強了!
第一組:董卿聲音
第二組:王明軍朗讀《三體》
第三組:步非煙聲音
怎麼樣,這一番對比下來,有沒有一種那根本不是 AI 克隆的聲音,它就是原聲的感覺?
因為實在是太像了,甚至都基本一模一樣了。
PDF 、網頁連結轉語音
MiniMax 除了支援文字轉語音之外,還可以支援 PDF 文件和網頁連結直接轉語音。

得,又給我們省了一步操作。。。
現在公眾號不是支援聽文章了嘛?是方便不少,你看也有小夥伴在用這個功能,但我老覺得它聽起來比較生硬。

那我就把這篇文章的連結放進去。

大家再聽下,是不是比公眾號自帶的朗讀效果要好多了,雖然說情感缺乏一些起伏,但是音色是真的像,這是真的得服。
你要知道,這僅用了 10 秒的語料,僅花了 10 秒就能達到的效果。
同時我也發現,雖然它識別網頁連結後的文字有空行,但它生成語音的時候會智慧忽略掉,也就是中間不會因為有空行而停頓那麼長時間。

另外,它還支援長文字模式,最高可輸入 20 萬字符。
這差不多是一本有聲書的體量了,當然這麼多的字元必須得另外「加錢」了。
目前的話,普通使用者每天登入可免費領 4000 積分,可支援能夠製作出 5 分鐘的音訊,如果只是淺玩體驗一下,也差不多夠了。
結語
體驗了 MiniMax Audio 的 Speech-02 模型後,不得不說又把語音克隆又往前推上了新高度。
無論是聲音克隆的精準度、多語言支援的廣泛性,還是生成語音的自然流暢度,都遠超市面上大多數同類產品。
最關鍵的是,0 門檻就能做出這種效果,要知道之前還都得用 GPT-SoVITS 這種開源工具手搓出來,現在直接全省了。。。
目前到這個階段,在音色克隆這方面,大家基本上已經卷得差不多了。
再往下的新的突破點,那大概就是大模型根據文字包含的語義來自行調整語音情感和腔調了,到了那個時候,可能我們就真的無法再分辨真人和 AI 的語音了。
