活動介紹:完成部署 GPT-Sovits 應用、上傳合成語音截圖兩個任務,即可領取收納盒1個,每個工作日限量50個,上午10點更新獎品,領完即止。(文末點選閱讀原文參與活動)。
一、引言
如果您需要透過文字生成語音,同時期望快捷地定製個性化聲音,推薦您使用函式計算部署GPT-Sovits語音生成模型。GPT-Sovits是一個熱門的文字生成語音的大模型,只需要少量樣本的聲音資料來源,就可以實現高度相似的模擬效果。使用函式計算部署GPT-Sovits模型,您無需關心GPU伺服器維護和環境配置,即可快速部署和體驗模型,同時,可以充分利用函式計算按量付費,彈性伸縮等優勢,高效、低成本地為使用者提供基於GPT-Sovits模型的文字到語音生成服務。
本次活動旨在幫助使用者透過實際操作,快速體驗使用GPT-Sovits合成語音,並有機會贏取豐厚獎品。
二、方案概覽
體驗使用GPT-Sovits合成語音,只需幾步:
1. 部署 GPT-Sovits 應用
藉助於函式計算應用模板,您可以便捷地將 GPT-Sovits 應用部署到函式計算上。
2. 入門:快速體驗使用GPT-Sovits合成語音
3. 進階:使用GPT-Sovits進行語音模型訓練
三、 部署 GPT-Sovits 應用
藉助於函式計算應用模板,您可以便捷地將 GPT-Sovits 應用部署到函式計算上。
1. 訪問函式計算應用模板
訪問函式計算應用模板[1],參考圖片,地域目前僅支援華東1(杭州)或華東2(上海),選擇華東1(杭州)。其餘配置項保持預設值即可,單擊建立應用。模型下載可能會花費15分鐘左右,請耐心等待部署完成。
針對當前應用,角色許可權可能會不足,此時需要單擊前往授權為角色授予所需許可權。


2. 同意並繼續部署
在彈出的對話方塊,仔細閱讀應用建立提醒資訊,勾選涉及的計費項和我已經瞭解上面的內容,並同意上述描述,然後單擊同意並繼續部署。

3. 訪問域名
等待約1分鐘,部署狀態變為部署成功,表示應用部署成功,單擊環境資訊區域的訪問域名開始體驗應用。
首次訪問,大約需要等待30秒,即可進入FC版GPT-SoVITS介面。
-
請注意保護域名的安全,不要洩露給其他人,以防產生額外費用。
-
****.devsapp.net域名為CNCF SandBox專案Serverless Devs社群所提供,僅供學習和測試使用,社群會對該域名進行不定期地撥測,並在域名下發30天后進行回收,強烈建議您繫結自定義域名[2]以獲得更好的使用體驗。
如果未繫結自定義域名,且部署的應用已超過30天,應用將無法開啟,此時需要重新部署一次應用,然後重新掛載NAS[3],即可正常使用。

四、入門:快速體驗使用GPT-Sovits合成語音部署函式計算服務
在FC版GPT-SoVITS介面,選擇語音克隆&推理頁籤,選擇使用模板音訊或個人上傳音訊作為參考音訊,然後輸入文字,單擊合成語音,開始體驗聲音的合成。
-
使用模板音訊
函式計算提供了小精靈和甜美女生的語音模板,您可以直接選擇。
-
個人上傳音訊
如果您想生成特定音色、情感、語速的語音,需要上傳3~10秒的參考音訊,並填寫參考音訊的文字,選擇參考音訊的語種。
重要:GPT-SoVITS使用者和語音匯出者需要對自己合成的語音進行妥善保管,因語音傳播導致的法律問題不在函式計算負責範圍內。


2. 下載
等待語音合成完成後,單擊右下角的播放按鈕播放語音,或可以單擊

> 下載,下載生成的語音。
說明:如果語音合成失敗,您可以為應用建立的函式一鍵啟用日誌功能,再次進行語音合成,並根據日誌進行分析和定位問題。


五、進階:使用GPT-Sovits進行語音模型訓練
tools/asr/models和tools/uvr5/uvr5_weights目錄下。
1. 視覺化管理 NAS 中的語音檔案
為了方便後續檢視預處理的音訊檔案和訓練後的模型。您可以按照如下步驟建立一個新的函式計算應用部署 NAS 瀏覽器,實現視覺化管理 NAS 上的檔案。
1)在應用詳情頁的資源資訊區域找到預設掛載的檔案儲存 NAS,然後單擊掛載點連結跳轉至NAS檔案儲存控制檯[5]。

2)單擊左側選單檔案系統 > 檔案系統列表,返回檔案系統列表頁面。在列表中找到函式計算關聯的 NAS 例項,單擊目標NAS檔案系統右側操作列的

> 瀏覽器。

3)等待建立完成,再次單擊目標NAS檔案系統右側操作列的

> 瀏覽器,即可開啟 NAS 瀏覽器頁面。

2. 資料預處理
1)在FC版GPT-SoVITS介面,選擇資料預處理頁籤。
2)在輸入待處理音訊資料夾路徑輸入框中輸入您在NAS檔案儲存系統中存放的需要預處理的音訊,或直接上傳需要預處理的音訊,選擇模型以及需要匯出的檔案格式,然後單擊開啟資料預處理。
關於各種模型的介紹,請參見FC版GPT-SoVITS介面上方的介紹。
在資料預處理輸出資訊區域,提示ASR任務完成後,在對應的NAS檔案系統的/<函式名稱>/output/目錄,您可以獲取預處理後的音訊。各種預訓練產物以及儲存路徑的對應關係如下。
預訓練流程產物
|
儲存路徑
|
降噪後的語音檔案
|
<NAS url>:
/<函式名>/output/denoise_opt
|
音訊分割後的片段
|
<NAS url>:
/<函式名>/output/slicer_opt
|
使用ASR模型自動語音識別後的文字
|
<NAS url>:
/<函式名>/output/asr_opt
|
使用UVR5模型進行人聲和伴奏分離後的檔案
|
<NAS url>:
/<函式名>/output/uvr5_opt
|


3. (可選)訓練語音文字校對
如果步驟二:資料預處理結果中,使用ASR模型自動語音識別到的文字與實際不相同,可透過文字校對工具進行修改。
1)在FC版GPT-SoVITS介面,選擇訓練語音文字校對頁籤。
2)在.list標註檔案的路徑輸入框中輸入步驟二:資料預處理的結果中使用ASR模型自動語音識別後的文字對應的檔案denoise_opt.list所在的完整路徑,然後依次單擊下方的按鈕進行調整。按鈕功能介紹如下:
按鈕名稱
|
按鈕功能介紹
|
Change Index / Refresh
|
跳轉頁碼。當前頁面文字校對完成後,單擊此按鈕進行翻頁。
|
Submit Text
|
儲存修改。如果某個識別的文字錯誤,修改後需單擊此按鈕儲存。
|
Merge Audio
|
合併音訊。
|
Delete Audio
|
刪除音訊。請謹慎使用,刪除音訊後將不再進行訓練。
|
Previous Index
|
上一頁。
|
Next Index
|
下一頁。
|
Split Audio
|
分割音訊。
|
Save File
|
儲存檔案。校對完成後,要單擊此按鈕儲存檔案。
|
Invert Selection
|
反向選擇。
|

4. 開始模型訓練
1)在FC版GPT-SoVITS介面,選擇模型微調頁籤,在下方實驗/模型名輸入框輸入您的模型名稱,然後單擊開啟SoVITS訓練或開啟GPT訓練進行模型訓練。
訓練後的模型將儲存在NAS下的GPT_weights和SoVITS_weights資料夾內。


2)在FC版GPT-SoVITS介面,選擇語音克隆&推理頁籤,使用您自己的模型進行再次語音合成。
更多操作說明,請參見入門:快速體驗使用GPT-Sovits合成語音。
說明:如果GPT模型列表和SoVITS模型列表未找到您自己的模型,請單擊右側的重新整理模型路徑。

六、基於函式計算部署GPT-Sovits模型實現語音生成
想必你透過閱讀,已經學會如何基於函式計算部署GPT-Sovits模型實現語音生成。現在邀請你來到阿里雲開發者社群參加“基於函式計算部署GPT-Sovits模型實現語音生成”活動,跟隨教程完成任務一和任務二即可領取收納箱1個,每個工作日限量50個,上午10點更新獎品,領完即止。(同一使用者僅可領取一次獎品,使用者完成任務後需點選“領取獎品”按鈕進行領取)。
點選閱讀原文,去體驗基於函式計算部署GPT-Sovits模型實現語音生成~
參考連結:
[5]https://nasnext.console.aliyun.com/overview
關鍵詞
音訊
任務
使用者
聲音
函式計算