透過文字生成個性化語音會定製在你的“心趴”上嗎?

活動介紹:完成部署 GPT-Sovits 應用上傳合成語音截圖兩個任務,即可領取收納盒1個,每個工作日限量50個,上午10點更新獎品,領完即止(文末點選閱讀原文參與活動)。
一、引言
如果您需要透過文字生成語音,同時期望快捷地定製個性化聲音,推薦您使用函式計算部署GPT-Sovits語音生成模型。GPT-Sovits是一個熱門的文字生成語音的大模型,只需要少量樣本的聲音資料來源,就可以實現高度相似的模擬效果。使用函式計算部署GPT-Sovits模型,您無需關心GPU伺服器維護和環境配置,即可快速部署和體驗模型,同時,可以充分利用函式計算按量付費,彈性伸縮等優勢,高效、低成本地為使用者提供基於GPT-Sovits模型的文字到語音生成服務。
本次活動旨在幫助使用者透過實際操作,快速體驗使用GPT-Sovits合成語音,並有機會贏取豐厚獎品。
二、方案概覽
體驗使用GPT-Sovits合成語音,只需幾步:
1. 部署 GPT-Sovits 應用
藉助於函式計算應用模板,您可以便捷地將 GPT-Sovits 應用部署到函式計算上。
2. 入門:快速體驗使用GPT-Sovits合成語音
3. 進階:使用GPT-Sovits進行語音模型訓練
三、 部署 GPT-Sovits 應用
藉助於函式計算應用模板,您可以便捷地將 GPT-Sovits 應用部署到函式計算上。
1. 訪問函式計算應用模板
訪問函式計算應用模板[1],參考圖片,地域目前僅支援華東1(杭州)或華東2(上海),選擇華東1(杭州)。其餘配置項保持預設值即可,單擊建立應用。模型下載可能會花費15分鐘左右,請耐心等待部署完成。
針對當前應用,角色許可權可能會不足,此時需要單擊前往授權為角色授予所需許可權。
2. 同意並繼續部署
在彈出的對話方塊,仔細閱讀應用建立提醒資訊,勾選涉及的計費項和我已經瞭解上面的內容,並同意上述描述,然後單擊同意並繼續部署。
3. 訪問域名
等待約1分鐘,部署狀態變為部署成功,表示應用部署成功,單擊環境資訊區域的訪問域名開始體驗應用。
首次訪問,大約需要等待30秒,即可進入FC版GPT-SoVITS介面。
  • 請注意保護域名的安全,不要洩露給其他人,以防產生額外費用。
  • ****.devsapp.net域名為CNCF SandBox專案Serverless Devs社群所提供,僅供學習和測試使用,社群會對該域名進行不定期地撥測,並在域名下發30天后進行回收,強烈建議您繫結自定義域名[2]以獲得更好的使用體驗。
如果未繫結自定義域名,且部署的應用已超過30天,應用將無法開啟,此時需要重新部署一次應用,然後重新掛載NAS[3],即可正常使用。
四、入門:快速體驗使用GPT-Sovits合成語音部署函式計算服務
1. 合成語音
在FC版GPT-SoVITS介面,選擇語音克隆&推理頁籤,選擇使用模板音訊或個人上傳音訊作為參考音訊,然後輸入文字,單擊合成語音,開始體驗聲音的合成。
  • 使用模板音訊
函式計算提供了小精靈甜美女生的語音模板,您可以直接選擇。
  • 個人上傳音訊
如果您想生成特定音色、情感、語速的語音,需要上傳3~10秒的參考音訊,並填寫參考音訊的文字,選擇參考音訊的語種。
重要:GPT-SoVITS使用者和語音匯出者需要對自己合成的語音進行妥善保管,因語音傳播導致的法律問題不在函式計算負責範圍內。
2. 下載
等待語音合成完成後,單擊右下角的播放按鈕播放語音,或可以單擊

 > 下載,下載生成的語音。

說明:如果語音合成失敗,您可以為應用建立的函式一鍵啟用日誌功能,再次進行語音合成,並根據日誌進行分析和定位問題。
五、進階:使用GPT-Sovits進行語音模型訓練
您可以透過聲音原始檔微調GPT-Sovits大模型,生成更加符合要求的語音。在微調訓練過程中,訓練步驟的所有中間產物將置於NAS檔案管理系統的output資料夾下。訓練將使用預設的UVR5和ASR模型。若需要使用其他的UVR5和ASR模型,可根據官方README[4]下載,並分別置於NAS檔案管理系統的:
tools/asr/modelstools/uvr5/uvr5_weights目錄下。
1. 視覺化管理 NAS 中的語音檔案
為了方便後續檢視預處理的音訊檔案和訓練後的模型。您可以按照如下步驟建立一個新的函式計算應用部署 NAS 瀏覽器,實現視覺化管理 NAS 上的檔案。
1)在應用詳情頁的資源資訊區域找到預設掛載的檔案儲存 NAS,然後單擊掛載點連結跳轉至NAS檔案儲存控制檯[5]
2)單擊左側選單檔案系統 > 檔案系統列表,返回檔案系統列表頁面。在列表中找到函式計算關聯的 NAS 例項,單擊目標NAS檔案系統右側操作列的

 > 瀏覽器。

3)等待建立完成,再次單擊目標NAS檔案系統右側操作列的

 > 瀏覽器,即可開啟 NAS 瀏覽器頁面。

2. 資料預處理
1)在FC版GPT-SoVITS介面,選擇資料預處理頁籤。
2)在輸入待處理音訊資料夾路徑輸入框中輸入您在NAS檔案儲存系統中存放的需要預處理的音訊,或直接上傳需要預處理的音訊,選擇模型以及需要匯出的檔案格式,然後單擊開啟資料預處理
關於各種模型的介紹,請參見FC版GPT-SoVITS介面上方的介紹。
資料預處理輸出資訊區域,提示ASR任務完成後,在對應的NAS檔案系統的/<函式名稱>/output/目錄,您可以獲取預處理後的音訊。各種預訓練產物以及儲存路徑的對應關係如下。
預訓練流程產物
儲存路徑
降噪後的語音檔案
<NAS url>:
/<函式名>/output/denoise_opt
音訊分割後的片段
<NAS url>:
/<函式名>/output/slicer_opt
使用ASR模型自動語音識別後的文字
<NAS url>:
/<函式名>/output/asr_opt
使用UVR5模型進行人聲和伴奏分離後的檔案
<NAS url>:
/<函式名>/output/uvr5_opt
3. (可選)訓練語音文字校對
如果步驟二:資料預處理結果中,使用ASR模型自動語音識別到的文字與實際不相同,可透過文字校對工具進行修改。
1)在FC版GPT-SoVITS介面,選擇訓練語音文字校對頁籤。
2)在.list標註檔案的路徑輸入框中輸入步驟二:資料預處理的結果中使用ASR模型自動語音識別後的文字對應的檔案denoise_opt.list所在的完整路徑,然後依次單擊下方的按鈕進行調整。按鈕功能介紹如下:
按鈕名稱
按鈕功能介紹
Change Index / Refresh
跳轉頁碼。當前頁面文字校對完成後,單擊此按鈕進行翻頁。
Submit Text
儲存修改。如果某個識別的文字錯誤,修改後需單擊此按鈕儲存。
Merge Audio
合併音訊。
Delete Audio
刪除音訊。請謹慎使用,刪除音訊後將不再進行訓練。
Previous Index
上一頁。
Next Index
下一頁。
Split Audio
分割音訊。
Save File
儲存檔案。校對完成後,要單擊此按鈕儲存檔案。
Invert Selection
反向選擇。
4. 開始模型訓練
1)在FC版GPT-SoVITS介面,選擇模型微調頁籤,在下方實驗/模型名輸入框輸入您的模型名稱,然後單擊開啟SoVITS訓練或開啟GPT訓練進行模型訓練。
訓練後的模型將儲存在NAS下的GPT_weights和SoVITS_weights資料夾內。
2)在FC版GPT-SoVITS介面,選擇語音克隆&推理頁籤,使用您自己的模型進行再次語音合成。
更多操作說明,請參見入門:快速體驗使用GPT-Sovits合成語音。
說明:如果GPT模型列表和SoVITS模型列表未找到您自己的模型,請單擊右側的重新整理模型路徑。
六、基於函式計算部署GPT-Sovits模型實現語音生成
想必你透過閱讀,已經學會如何基於函式計算部署GPT-Sovits模型實現語音生成。現在邀請你來到阿里雲開發者社群參加“基於函式計算部署GPT-Sovits模型實現語音生成”活動,跟隨教程完成任務一和任務二即可領取收納箱1個,每個工作日限量50個,上午10點更新獎品,領完即止。(同一使用者僅可領取一次獎品,使用者完成任務後需點選“領取獎品”按鈕進行領取)。
點選閱讀原文,去體驗基於函式計算部署GPT-Sovits模型實現語音生成~
參考連結:
[1]https://fcnext.console.aliyun.com/applications/ai/create?template=68&from=solution
[2]https://help.aliyun.com/zh/functioncompute/fc-3-0/user-guide/configure-custom-domain-names
[3]https://help.aliyun.com/zh/functioncompute/fc-3-0/user-guide/configure-a-nas-file-system-1
[4]https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md
[5]https://nasnext.console.aliyun.com/overview

相關文章