透過文字生成個性化語音會定製在你的“心趴”上嗎？

活動介紹：完成部署 GPT-Sovits 應用、上傳合成語音截圖兩個任務，即可領取收納盒1個，每個工作日限量50個，上午10點更新獎品，領完即止。（文末點選閱讀原文參與活動）。

一、引言

如果您需要透過文字生成語音，同時期望快捷地定製個性化聲音，推薦您使用函式計算部署GPT-Sovits語音生成模型。GPT-Sovits是一個熱門的文字生成語音的大模型，只需要少量樣本的聲音資料來源，就可以實現高度相似的模擬效果。使用函式計算部署GPT-Sovits模型，您無需關心GPU伺服器維護和環境配置，即可快速部署和體驗模型，同時，可以充分利用函式計算按量付費，彈性伸縮等優勢，高效、低成本地為使用者提供基於GPT-Sovits模型的文字到語音生成服務。

本次活動旨在幫助使用者透過實際操作，快速體驗使用GPT-Sovits合成語音，並有機會贏取豐厚獎品。

二、方案概覽

體驗使用GPT-Sovits合成語音，只需幾步：

1. 部署 GPT-Sovits 應用

藉助於函式計算應用模板，您可以便捷地將 GPT-Sovits 應用部署到函式計算上。

2. 入門：快速體驗使用GPT-Sovits合成語音

3. 進階：使用GPT-Sovits進行語音模型訓練

三、部署 GPT-Sovits 應用

藉助於函式計算應用模板，您可以便捷地將 GPT-Sovits 應用部署到函式計算上。

1. 訪問函式計算應用模板

訪問函式計算應用模板[1]，參考圖片，地域目前僅支援華東1（杭州）或華東2（上海），選擇華東1（杭州）。其餘配置項保持預設值即可，單擊建立應用。模型下載可能會花費15分鐘左右，請耐心等待部署完成。

針對當前應用，角色許可權可能會不足，此時需要單擊前往授權為角色授予所需許可權。

2. 同意並繼續部署

在彈出的對話方塊，仔細閱讀應用建立提醒資訊，勾選涉及的計費項和我已經瞭解上面的內容，並同意上述描述，然後單擊同意並繼續部署。

3. 訪問域名

等待約1分鐘，部署狀態變為部署成功，表示應用部署成功，單擊環境資訊區域的訪問域名開始體驗應用。

首次訪問，大約需要等待30秒，即可進入FC版GPT-SoVITS介面。

請注意保護域名的安全，不要洩露給其他人，以防產生額外費用。
****.devsapp.net域名為CNCF SandBox專案Serverless Devs社群所提供，僅供學習和測試使用，社群會對該域名進行不定期地撥測，並在域名下發30天后進行回收，強烈建議您繫結自定義域名[2]以獲得更好的使用體驗。

如果未繫結自定義域名，且部署的應用已超過30天，應用將無法開啟，此時需要重新部署一次應用，然後重新掛載NAS[3]，即可正常使用。

四、入門：快速體驗使用GPT-Sovits合成語音部署函式計算服務

1. 合成語音

在FC版GPT-SoVITS介面，選擇語音克隆&推理頁籤，選擇使用模板音訊或個人上傳音訊作為參考音訊，然後輸入文字，單擊合成語音，開始體驗聲音的合成。

使用模板音訊

函式計算提供了小精靈和甜美女生的語音模板，您可以直接選擇。

個人上傳音訊

如果您想生成特定音色、情感、語速的語音，需要上傳3~10秒的參考音訊，並填寫參考音訊的文字，選擇參考音訊的語種。

重要：GPT-SoVITS使用者和語音匯出者需要對自己合成的語音進行妥善保管，因語音傳播導致的法律問題不在函式計算負責範圍內。

2. 下載

等待語音合成完成後，單擊右下角的播放按鈕播放語音，或可以單擊

> 下載，下載生成的語音。

說明：如果語音合成失敗，您可以為應用建立的函式一鍵啟用日誌功能，再次進行語音合成，並根據日誌進行分析和定位問題。

五、進階：使用GPT-Sovits進行語音模型訓練

您可以透過聲音原始檔微調GPT-Sovits大模型，生成更加符合要求的語音。在微調訓練過程中，訓練步驟的所有中間產物將置於NAS檔案管理系統的output資料夾下。訓練將使用預設的UVR5和ASR模型。若需要使用其他的UVR5和ASR模型，可根據官方README[4]下載，並分別置於NAS檔案管理系統的：

tools/asr/models和tools/uvr5/uvr5_weights目錄下。

1. 視覺化管理 NAS 中的語音檔案

為了方便後續檢視預處理的音訊檔案和訓練後的模型。您可以按照如下步驟建立一個新的函式計算應用部署 NAS 瀏覽器，實現視覺化管理 NAS 上的檔案。

1）在應用詳情頁的資源資訊區域找到預設掛載的檔案儲存 NAS，然後單擊掛載點連結跳轉至NAS檔案儲存控制檯[5]。

2）單擊左側選單檔案系統 > 檔案系統列表，返回檔案系統列表頁面。在列表中找到函式計算關聯的 NAS 例項，單擊目標NAS檔案系統右側操作列的

> 瀏覽器。

3）等待建立完成，再次單擊目標NAS檔案系統右側操作列的

> 瀏覽器，即可開啟 NAS 瀏覽器頁面。

2. 資料預處理

1）在FC版GPT-SoVITS介面，選擇資料預處理頁籤。

2）在輸入待處理音訊資料夾路徑輸入框中輸入您在NAS檔案儲存系統中存放的需要預處理的音訊，或直接上傳需要預處理的音訊，選擇模型以及需要匯出的檔案格式，然後單擊開啟資料預處理。

關於各種模型的介紹，請參見FC版GPT-SoVITS介面上方的介紹。

在資料預處理輸出資訊區域，提示ASR任務完成後，在對應的NAS檔案系統的/<函式名稱>/output/目錄，您可以獲取預處理後的音訊。各種預訓練產物以及儲存路徑的對應關係如下。

預訓練流程產物	儲存路徑
降噪後的語音檔案	<NAS url>: /<函式名>/output/denoise_opt
音訊分割後的片段	<NAS url>: /<函式名>/output/slicer_opt
使用ASR模型自動語音識別後的文字	<NAS url>: /<函式名>/output/asr_opt
使用UVR5模型進行人聲和伴奏分離後的檔案	<NAS url>: /<函式名>/output/uvr5_opt

3. （可選）訓練語音文字校對

如果步驟二：資料預處理結果中，使用ASR模型自動語音識別到的文字與實際不相同，可透過文字校對工具進行修改。

1）在FC版GPT-SoVITS介面，選擇訓練語音文字校對頁籤。

2）在.list標註檔案的路徑輸入框中輸入步驟二：資料預處理的結果中使用ASR模型自動語音識別後的文字對應的檔案denoise_opt.list所在的完整路徑，然後依次單擊下方的按鈕進行調整。按鈕功能介紹如下：

按鈕名稱	按鈕功能介紹
Change Index / Refresh	跳轉頁碼。當前頁面文字校對完成後，單擊此按鈕進行翻頁。
Submit Text	儲存修改。如果某個識別的文字錯誤，修改後需單擊此按鈕儲存。
Merge Audio	合併音訊。
Delete Audio	刪除音訊。請謹慎使用，刪除音訊後將不再進行訓練。
Previous Index	上一頁。
Next Index	下一頁。
Split Audio	分割音訊。
Save File	儲存檔案。校對完成後，要單擊此按鈕儲存檔案。
Invert Selection	反向選擇。

4. 開始模型訓練

1）在FC版GPT-SoVITS介面，選擇模型微調頁籤，在下方實驗/模型名輸入框輸入您的模型名稱，然後單擊開啟SoVITS訓練或開啟GPT訓練進行模型訓練。

訓練後的模型將儲存在NAS下的GPT_weights和SoVITS_weights資料夾內。

2）在FC版GPT-SoVITS介面，選擇語音克隆&推理頁籤，使用您自己的模型進行再次語音合成。

更多操作說明，請參見入門：快速體驗使用GPT-Sovits合成語音。

說明：如果GPT模型列表和SoVITS模型列表未找到您自己的模型，請單擊右側的重新整理模型路徑。

六、基於函式計算部署GPT-Sovits模型實現語音生成

想必你透過閱讀，已經學會如何基於函式計算部署GPT-Sovits模型實現語音生成。現在邀請你來到阿里雲開發者社群參加“基於函式計算部署GPT-Sovits模型實現語音生成”活動，跟隨教程完成任務一和任務二即可領取收納箱1個，每個工作日限量50個，上午10點更新獎品，領完即止。（同一使用者僅可領取一次獎品，使用者完成任務後需點選“領取獎品”按鈕進行領取）。

點選閱讀原文，去體驗基於函式計算部署GPT-Sovits模型實現語音生成～

參考連結：

[1]https://fcnext.console.aliyun.com/applications/ai/create?template=68&from=solution

[2]https://help.aliyun.com/zh/functioncompute/fc-3-0/user-guide/configure-custom-domain-names

[3]https://help.aliyun.com/zh/functioncompute/fc-3-0/user-guide/configure-a-nas-file-system-1

[4]https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

[5]https://nasnext.console.aliyun.com/overview

關鍵詞

音訊

任務

使用者

聲音