


作者:程天一、haina
排版:Scout

Transformer 為語音生成的體驗帶來了 10x 的提升。在 Transformer 出現前,受傳統架構所限語音生成的質量、速度、成本有硬上限,很難達到自然可用並且發揮大規模商業作用的程度。2016 年 Google 基於 Transformer 的 Tacotron 模型出現,語音生成的質量開始有大的進步,並且可以隨著資料及算力提升而繼續演進。
目前生成的語音質量接近真人,情感和腔調瓶頸也逐漸突破,即時的聲音克隆可玩性也已經非常強,語音生成開始變成一個可被投資的賽道。
但是這個賽道本身在過去仍然相對擁擠和割裂,美國、歐洲、印度等不同地區歷史上都各自有多家公司分別針對不同的語音用例提供服務。11Labs 在過去 8-12 個月展現出了它的獨特之處。
在 23 年以來,它憑藉完勝競品的聲音克隆體驗和聲音質量,在 Diffusion Model 和 LLM 的熱度下迅速引爆了流行點,我們看到的大部分爆款 AI 組合製作的影片通常的堆疊都是 ChatGPT(文案)、Midjourney(畫面)、11Labs(配音)、Runway/D-ID(讓畫面動起來)。市場上普遍認為 11Labs 有巨大的 PLG 勢能並且 ARR 有迅速的增長。
除了影視劇配音、遊戲本地化、有聲書配音等存量場景外,有兩個增量的市場可能決定了 11Labs 這一批新的公司能否長大:
• 幫助全球內容創作者為他們的內容增加多種配音
• 讓 LLM 驅動的聊天機器人們能夠開口說話
誰能在這兩種用例上勝出仍然值得觀察,特別是 OpenAI 將如何反應 —— 它擁有最好的開源語音識別專案 Whisper,以及最好的語音生成開源專案 Tortoise 的作者 James Betker。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 什麼是語音生成?
02 Why Now
03 競爭格局
04 11Labs
01.
什麼是語音生成?
語音生成公司通常提供 3 個核心產品:
• Voice Design
Voice Design 指的是語音設計,目標是創造出具有特定風格或個性的語音。在 Voice Design 過程中,會根據產品的需求和目標使用者,選擇合適的發音方式、語調語氣、語速節奏等引數,設計出獨特的語音風格。11Labs 的 Voice Design 使使用者可以透過選擇性別、年齡和口音等核心特質,從零開始建立新的語音。即使選擇同樣的引數設定,該模型每次生成時也會加入隨機變化,確保每個語音獨一無二。
• Voice Cloning
Voice Cloning 語音克隆技術可以複製並模擬特定人物的聲音。透過收集目標人物的語音樣本,訓練語音模型,就可以合成出和該人極其相似的語音。在 11Labs 為代表的 Instant Voice Cloning 興起前,進行語音克隆通常需要 2 小時以上的語音素材、上千美元的成本、1-2 天微調模型的時間,但是目前的即時語音克隆可以做到使用 30 秒級別的語音樣本、無需重新訓練就完成克隆。
• TTS
TTS(Text to Speech) 是文字到語音合成。透過語音合成技術,可以自動將文字轉化為語音。TTS 經歷了從自然ness到可控性的發展過程:2021年前,序列到序列模型如 Tacotron 和Transformer TTS 等是主流;2021年開始,基於對抗擴散的 GradTTS、VITS 等生成模型興起,也出現了更多控制語音風格的技術,如 STYLER、DiffTTS,使語音生成更具可控性。目前市場上普遍認為 11Labs 背後的模型架構是 Transformer 的語音生成模型和用於語音的 Diffusion Model 的結合。
02.
Why Now
Transformer
Transformer 為語音合成帶來了質量和體驗的飛躍,以及 Unknown-Unknown 的應用場景。
2016 年 Google 基於 Transformer 架構的 Tacotron 模型出現之後,語音生成的質量開始出現轉折點,目前所有表現好的模型基本都是 Transformer based。在 11Labs 這一批 22 年成立的公司興起前,文字到語音本身的轉換已經很好了,有多種音色可供選擇,但是缺少自然度,並且在長音訊中嚴重缺乏情感及韻律的變化。隨著模型變大,這些模型的速度、韻律、情感、語調都更接近人類,終於在過去 12-18 個月大家覺得 AI 生成的聲音已經非常自然。此外,更多樣性的語音資料解鎖了高質量的即時語音克隆能力,預訓練提取語音特徵的能力帶來了非常好的泛化,一條 30s 的語音可以低成本、即時地用於其他文字、語言的語音生成上。
因此技術上核心的催化劑在於 Transformer,過去舊的架構帶來了限制,無論有多少資料和算力,生成的質量都會保持平庸。
除此之外,Transformer 在語言模型上的突破則為語音生成帶來了最具想象力的用例,即為聊天機器人們加上語音說話的能力,從 ChatGPT、Character.ai 到 Inworld 建立的 NPC 都有相關的需求。按照終局有 10 億 DAU,每人每天消耗 3 美分,這將有機會變成一個百億美元年支出的場景。
內容全球化與本地化
全球化和本地化是全球內容行業過去 5 年的核心,成為了語音生成目前最 solid 的用例,也是 11Labs deck 中突出強調進攻的市場。
以 Netflix 為例,它在 18 年以前的製作非常美國中心,在拉美本地化內容 Money Heist 取得巨大成功之後開始轉向本地化內容、全球宣發的正規化,在魷魚遊戲上又取得了成功,非常重要的一點是它被翻譯成 31 種語言,並被配音成 13 種語言。
Youtube 觀察到創作者頻道總觀看時間的 2/3 來自創作者所在的地區之外,也為 UGC 內容創作者提供了實現類似正規化的可能,從 2021 年開始灰度 audio tracks 功能,讓創作者能夠上傳多個音訊的配音音軌。這催化了 Unilingo 這樣的公司出現,並吸引那些非頂級創作者開始使用 11Labs 這樣的配音工具。

由於 Youtube 自動將 55% 的貼片廣告分配作為創作者激勵,在 Youtube 上使用更多語種配音的邏輯非常順暢:多語種 —> 更多地區的受眾 —> 更多的觀看量 —> 更多的廣告分成。
在 11Labs 這類產品興起前,在影視劇和頂級內容創作者這些高價格點上有很好的配音產品和服務供應,但跟廣泛的內容創作者也有大量的相關需求,但這兩條供需曲線缺乏交點。11Labs 透過降低了這部分供給的價格釋放了需求:
• 原來內容創作者可用的解決方案:$100/分鐘,10 分鐘的 Youtube 影片配音製作週期長達兩週,2 小時的影視作品通常需要 15-20 周配音;
• 11Labs 類產品提供的解決方案:$1/分鐘,10 分鐘的 Youtube 影片進行 3 種語種配音只需 10 分鐘,2 小時的複雜影視作品只需 4 周。
a16z Fintech 的 GP Alex Rampell 最近畫的這張圖就很好地點名了 11Labs 這類產品為供需曲線帶來的變化:

這種成本效益的變化和 Midjourney 為美工創作、Descript 為音影片剪輯帶來的顛覆非常相似,可以釋放大量的 PLG 和 C 端需求。
03.
競爭格局
3 類玩家
科技巨頭
科技巨頭如 Meta、Microsoft 等都在比較積極的佈局語音生成技術。它們在相關的學術論文中宣稱擁有非常先進的語音合成和克隆技術。但是大廠相比創業公司面臨更大的社會輿論壓力,由於擔心語音克隆技術被濫用,沒有推出商業化的效果足夠好的語音克隆產品,也沒有開源核心技術。目前這些大廠對外提供的語音生成產品效果不如 11Labs,不具有少量樣本 (<1分鐘) 就可以實現語音克隆的功能,但在價格上具有優勢。
不過大廠擁有的產品矩陣使其有著更天然的應用場景,如 Youtube Dubbing、Apple 利用硬體實現本地語音克隆,當大廠“被允許”做這件事之後,11Labs 在工作流上的地位將面臨著很大的挑戰。

開源專案
Tortoise 和 Bark 是目前最主要的開源 TTS 模型,但根據試用和 Reddit 使用者原聲,Tortoise 生成速度慢,Bark 音質參差,目前很難商用。兩者透過與轉換模型 RVC 結合可以提高效果,但仍難以達到 11Labs 的類似的語音質量。要達到商用級別,開源模型需要大量資料、算力和演算法最佳化,這需要較高的時間和資金成本及優秀 AI 工程師。
整體來看,11Labs 在語音合成質量和易用性上優勢顯著,開源模型雖然在快速發展,但尚未構成威脅。

創業公司
從我們收集到的內容創作者和 企業客戶的反饋來看,11Labs 的整體體驗非常突出,現在定價在聊天機器人的場景上非常昂貴,但是在創業公司之間橫向比較區別不大。
語音生成這個賽道有幾十年的歷史,因此玩家列表比較擁擠,但是從矽谷 Top-tier 的基金那裡拿了 2000 萬美元以上錢的只有 11Labs 和 Deepdub:
• 11Labs,Google 和 Palantir 背景,a16z 支援
• Deepdub,以色列空軍 ML 背景,Insight Partners 支援
從 ML 背景的角度看,基本上語音模型所需要的科研能力遠沒有 LLM 強,所以各家的人員配置沒有明顯的梯隊差異,其中比較值得關注的是 Rime Labs(斯坦福語言學和 NLP PhD),更深厚的語言學背景可能帶來一些差異化,而且 22 年剛成立,有機會探索更新的架構。

點選檢視高畫質大圖
工作流的可能變化

點選檢視高畫質大圖
從目前的工作流狀態看,11Labs 處在內容創作及剪輯的一環上,缺少對上下游的延伸,Descript 存在感更強,在幾個核心環節都有佈局,從這幾個玩家身上推演終局大致有幾種情景:
• Scenario 1:win w/ All-In-One,市場有機會到達比較高的集中度,Descript 最有機會取勝;
• Scenario 2:win w/best technology,市場有機會到達比較高的集中度,11Labs 最有機會取勝;
• Scenario 3:w/cost efficiency,採用開源和自建成為主流,OpenAI 和應用垂直玩家取勝;
• Scenario 4:w/vertical solution,市場分散在每個垂直行業,各自有小的贏家,甚至仍然保持 3-6 家同時保持單行業第一梯隊服務商的分散度。
對於 11Labs 來說,鑑於它還在非常早期的階段(上個月剛剛脫離 Beta 狀態),並且已經擁有了最佳體驗的技術,可以非常自然地投入產品延伸佈局以防止 Scenario 1 成真並被幹掉,補強垂直行業解決方案也可以預期,決定它 upside 比較重要的問題是:
• 如果 Scenario 2 到來,它能否繼續維持最佳的技術;
• 如果大家開始更看重成本,它的 Pricing 有多大彈性。
對於前者,我們目前的 references 結果還比較正面:
• 構建一個好的語音模型的勝負手不是資金實力和 GPU,因為它預訓練單次的成本只有幾十到百萬美元,更重要的是如何獲取到 PB 級別/數百萬小時的高質量音訊資料進行預訓練,需要高保真、自然並且有各類情緒,11Labs 在資料的積累上有比較明確的先發優勢;
• 鑑於上一點,其他公司很難透過少量精品資料的方式達到超越 11Labs 的效果;
• 11Labs 作為創業公司在資料使用的靈活性上相較大公司有很大優勢;
• 語音模型有資料飛輪,語音資料越積累,語音克隆效果越好。
對於後者,目前市場的普遍看法是很難真的將 11Labs 用於有大規模使用者的聊天機器人產品內:
• 對於每個月內容長度固定的內容創作者來說,11Labs 的定價是合理可接受的,$22 的創作者方案用於美元製作 2 個 10 分鐘的 Youtube 影片並不昂貴;
• 對於聊天機器人類產品,每個 DAU 每天進行大量對話,小几千的 DAU 在實際業務中一個月支付 10 萬美元以上的賬單非常常見。

04.
11Labs
團隊

ElevenLabs 由前 Google 工程師 Piotr Dabkowski 和前 Palantir 戰略師 Mati Staniszewski 創立。
Mati 在讀高中時認識了 Piotr。Mati 對數學有著濃厚的興趣,在帝國理工學院期間舉辦了英國第一個由學生主導的數學會議 Mathscon。畢業後,他將自己的分析技能應用於產品構建,在 Opera、BlackRock、Palantir 多家公司積累經驗。和 Piotr 一起構思了許多有趣的創業點子,後來兩人聯手建立了 11Labs,目標是讓所有語言內容都可以用任何語言和語音進行表達。
Mati 表示在創辦 11Labs 後,很多人向他們提出新的專案方向和建議,但他們注重保持業務專注,聚焦於團隊真正相信的事情 – 語音生成。
目前團隊共 19 人,人員精簡但人均實力強,大多擁有連續創業經驗或深度學習、機器學習背景。
產品
ElevenLabs 在上個月完成 Beta 測試,向外界釋出了支援 28 種語言的 Eleven Multilingual v2 模型,在這一模型之上以 UI 和 API 的形式提供了一系列產品功能:
• Speech Synthesis:選擇特定語音將文字轉換為音訊

• VoiceLab:自行設計或克隆聲音

• Voice Library:PUGC 的語音庫可供使用者再次選擇使用

11Labs 還支援使用者選擇不同等級的 API latency 以平衡速度與其他效能:

Why should we care
引爆流行
和 Replit、Replicate、Runway、Midjourney、ChatGPT 等名字類似,11Labs 在過去的 6-12 個月已經成為了新一代語音生成的代名詞,大量的 Twitter、Hacker News、Github 使用者和專案都在向外分享其使用 11Labs 創造的作品,我們訪談的大多數個人使用者都是在瞭解 11Labs 之後直接付費和使用,幾乎沒有其他競品的心智。
絕對領先的語音克隆體驗
語音克隆是這一波語音生成最顛覆性的功能。11Labs 建立了全新的語音克隆模型,提供一站式的專業語音克隆服務。在沒有微調的情況下,11Labs 可以在短至 5 秒的樣本上實現高輸出相似度,目前市面上的產品僅 11Labs 可以做到這一點。11labs 的克隆語音有多語言能力,一個創作者的語音可以覆蓋近 30 種語言。從個人使用者到企業級客戶,評 11Labs 的克隆效果和成本是一致好評,顯著好於其他競品。
團隊在過去 12-18 個月證明了自己的創新和經營能力
團隊很巧妙地找到了產品方向,切入了大廠擔心社會輿論不敢做,一般創業團隊又做不了的sweet point,並且在高質量、大量級的語音資料積累上有了先發優勢,還有機會拿到飛輪效應。
產品釋出時間線
技術領先能否維持
我們目前的 references 普遍認為 11Labs 在資料上有時間差的優勢以及潛在的飛輪效應,和 Midjourney 類似。但是圍繞它的 Concern 也和 Midjourney 類似,競品做單語種、垂直場景的聲音效果已經可以超越 11Labs。同時在架構上,目前的普遍看法是 11Labs 有一定的架構創新才能取得目前的產品體驗,但是由於它沒有披露任何細節,很難評估它的架構有多超前。
願景決定產品方向
從公開的 deck 來看,11Labs 在去年還想成為一家驅動創作者進行 AI 配音的公司。從我們跟 Chatbot 應用開發者的 reference 來看,它的 Pricing 不是為了這一場景設計的。從我們跟 Rime 的 reference 來看,它的 latency 最佳化也不是 Chatbot 場景優先的。
因此團隊的願景非常重要,決定了它短期的產品路線圖,以及長期是更像 Runway、Descript 那樣成為 All-In-One 的軟體公司,還是像 Midjourney、Character.ai 這樣的模型公司。
上個月的模型釋出顯示出 11Labs 支援更多圍繞即時對話的 Chatbot 的決心,它釋出的 live translate between languages 功能幫助一波 LLM 應用開發者們解鎖了新的可能性。
模型的可組合性帶來多大 upside
OpenAI 是否會進入這一方向?這一問題目前還比較難回答,但是 OpenAI 目前已經擁有 Whisper 和 Tortoise 的發起者 James Betker。

語音克隆的負面輿情和社會責任問題
11Labs 需要在傳播度和社會責任之間找到一個平衡,目前看它在這方面的投資弱於 Ressemble 和 Descript 等競品。



延伸閱讀