前DeepMind大佬創業，做出喜怒哀樂以假亂真的AI語音大模型

未來又該如何分辨是AI還是真人在說話？

編譯 | 徐豫

編輯 | 雲鵬

智東西2月27日訊息，美國情感智慧技術AI創企Hume AI昨天釋出了新款文生語音大模型Octave，該大模型可依據使用者輸入的提示詞或劇本，生成有人設特點、有語調起伏、有情感色彩的AI語音，並允許使用者透過文字指令二次調整和創作。該公司由DeepMind前研究員Alan Cowen於2021年創立，最近一輪融資後估值為2.19億美元。

Hume AI聯合創始人兼CEO Alan Cowen在接受VentureBeat影片電話採訪時說道：“我們推出了首個AI文生語音大模型，該模型能夠理解上下文中的詞彙，並預測出適當的情緒、節奏、韻律和重音，從而使AI語音聽起來比以往更人性化。”

▲Octave可以根據簡單提示詞變換AI語音的語氣和語調（圖源：Hume AI官網）

換而言之，相比於過往一板一眼念文字的AI味語音，Octave旨在讓AI語音更有人情味。按照Cowen的描述，這些AI語音不僅帶有憤怒、悲傷或快樂等情緒，還可以把多種情感交織融合在一起，例如“夾雜著幽默或惱怒的輕度沮喪”。在Cowen看來，該模型較為適合需要預先製作的有聲讀物、播客、影片畫外音和影片遊戲角色配音。

▲Octave可以表達開心、憤怒、焦慮等多種情感（圖源：Hume AI官網）

該公司在社交媒體平臺X上也連發多帖說明Octave的具體功能和訓練過程。據Hume AI方面透露，用於訓練Octave的語言資料是傳統文生語音大模型的1000倍，這也是Octave能夠像人類演員一樣理解劇本，並使用更逼真的情感、語義、節奏、詞語、重音等要素的原因。其訓練資料中包含了數百萬小時的公開長篇語音資料和Hume AI獨家採集的聲音、影片資料。

除了文生語音大模型，Hume AI還在利用Octave訓練AI系統，以更好地預判使用者的AI語音生成需求。

在一項人類評審盲測的對比實驗中，Octave的輸出在音質、自然度以及語音生成與預期描述匹配度等方面均優於 ElevenLabs，這意味著其AI語音生成過程的可控性和AI語音生成質量均高於行業水準。

▲Octave所生成的AI語音在自然度、提示詞匹配度、音訊質量方面超過了ElevenLabs（圖源：Hume AI官網）

在推出Octave前，Hume AI已推出了兩代自研的同理心語音介面（EVI），該公司聲稱EVI是第一個具有情商的對話式AI。

當前首發版本的Octave主要支援的語言是英語，其次是西班牙語，後續可能還會上線更多語種。此外，該模型在Hume AI開發者平臺上的使用強度有一定限制，現支援的音訊格式有MP3、WAV和PCM。

01.

4大AI語音生成功能，

能代入情節和人設

Octave文生語音大模型不僅支援生成帶有人設和人類情感色彩AI語音，還將推出語音克隆功能。

Cowen稱，該模型除了能理解單個句子內的情感，還能進一步捕捉上下文之間的情感聯絡，從而更具表達力和細節度。Octave除了能夠理解情節轉折、情感暗示、角色特徵，還學會了如何將它們結合起來，因此它不僅可以“溫柔地朗讀情書”，也能“充滿活力地播報體育賽事”。

1、語音生成：具有情境感知能力且人性化

Octave能夠預測語音的調性、節奏和音色，並判斷初何時應低語密謀、何時應放聲高喊、何時應平靜地解釋事實。

換句話說，Octave能夠解析劇本或提示詞中的情節轉折、情感暗示和角色特徵，並將其轉化為自然帶感情的語音，聽起來就像演員在朗讀劇本一樣。

▲Octave可以根據上下文內容轉變AI朗讀的語氣和語調（圖源：Hume AI官網）

2、語音設計：可深入理解提示詞和劇本含義

基於提示詞或劇本，Octave能夠生成各種設定的AI語音。這是由於它會自動解析一段文字內容的含義和風格，包括人稱代詞、簡稱、用詞等等，從而生成一段與角色相符的連貫語音內容。

此外，在語音設計功能中，你還可以透過更具體的角色描述來引導Octave，例如結合特定口音、人設特徵、職業角色等。相關描述類似於“耐心且富有同理心、用ASMR方式說話的諮詢師”、“戲劇化的中世紀騎士”、“中年好萊塢電影預告片解說員”。

▲Octave可以理解較為複雜的人設或角色（圖源：Hume AI官網）

同時，你也可以選擇跳過語音設計功能，直接在Playground上即時生成語音。只點擊頁面上的“生成”按鍵，而不勾選“語音設計”功能，Octave就會僅依據劇本生成語音，並且可以將其另存為一段新語音。

不過出於安全考慮，涉及較為逼真的孩童語音和特定人物的模仿語音，其AI語音生成將受限。

3、表演指令：用生成的AI語音二次創作

參照人類演員，Octave也能接受並理解指令。

在表演指令功能中，其可以基於現有語音型別，進一步用指定的情感或說話風格來朗讀新劇本。

▲Octave支援使用者二次調整句子的語氣和語調（圖源：Hume AI官網）

4、語音克隆：即將上線

Hume AI AI稱，只需一段5秒的音訊，Octave就能快速克隆出其語音。而Octave開發團隊正為這一語音克隆功能尋求安全保障，因此該功能將於接下來幾周內稍晚推出。

未來幾周內，該公司還有計劃改進Octave的核心功能，持續最佳化富有表現力的語音生成、不同情感和風格的提示、新語音生成以及多位說話者間流暢對話等方面。

02.

40多種預設語音，

開發者現可上手使用

Octave現已在platform.hume.ai平臺和Hume AI的API上線。

目前，線上平臺上，創作者和開發者可使用Octave以下4項功能：

語音設計；

表演指令；

超過40種預設語音的語音庫；

用於生成有聲書、播客等長篇內容的專案介面（預覽版）。

而在開發者平臺上，Octave可透過Python和TypeScript SDK訪問，這些SDK會處理身份驗證，並提供型別化介面，以確保整合的可靠性。其命令列介面支援快速原型設計、測試以及直接從終端批次處理。

這些開發者工具簡化了用Octave生成語音素材的過程，縮短了新語音應用的上市時間。

▲Octave操作介面（圖源：Hume AI官網）

目前，Hume AI的API允許開發人員每分鐘對Octave模型發出最多50次請求，文字長度上限為5000個字元，描述上限為1000個字元。每個請求最多可生成5個輸出，支援的音訊格式包括MP3、WAV和PCM。

03.

對比ElevenLabs，

Octave更符合人類喜好

Hume AI AI對Octave開展了內部評估，將該大模型與業內領先的AI文生語音大模型ElevenLabs進行對比。

這項基準測試包含120個多樣化語音描述的樣本，用於模擬使用者在文生語音大模型中會提出的各種語音風格。這些樣本既覆蓋了細膩、敘事化的描述，例如“溫暖、父親般的聲音，具有豐富的低音，略帶沙啞且語調令人安心，如同一位經驗豐富的說書人”，也有簡潔、簡短的提示詞，例如“充滿活力、年輕、略帶嘶啞”。

Hume AI團隊用Gemini為每個描述生成了一段合理對話，然後分別讓Octave和ElevenLabs的AI語音生成工具Voice Design各生成了3個語音樣本，再讓180位人類評審盲測對比上述兩款文生語音大模型基於相同提示詞生成的語音樣本，併為音質、自然度以及提示詞匹配度投票。

測試結果顯示，Octave在這三項人類偏好指標上均略勝一籌，音質方面被71.6%的人類評審選擇，自然度方面被51.7%的人類評審選擇，而提示詞匹配度方面有57.7%的人類評審認為其更契合預期。