


作者:Haina,Siqi
編輯:Siqi
排版:Scout

在紅杉釋出的 Generative AI’s Act Two 一文中提到,“很多 AI 公司根本沒有實現 PMF 或可持續競爭優勢,隨著行業炒作(hype)的消失,這類公司正被真正的價值和完整的產品體驗所取代”。技術本身並不能構成企業護城河,找到契合的商業場景是所有想將自身技術優勢變現為商業價值公司的共同挑戰。
在 Synthesia 的案例中,團隊在 2017 年成立時擁有足夠領先的 2D 數字人及語音合成技術的研究能力,早期主要透過 API 的方式為輸出 AI Avatar 和音訊合成的解決方案,並在2019 年靠一支貝克漢姆的形象為慈善組織“Malaria No More”製作的公益影片成功出圈,但直到 2020 年,Synthesia 才真正意義上有了自己的產品 Synthesia STUDIO,讓使用者可以像製作PPT一樣輕鬆製作影片,並一鍵生成自己的 AI Avatar,解決了企業影片內容製作需求上升,但傳統制作方式成本過高的痛點。
除了數字人之外,Synthesia 也可以被劃分到“合成媒體(Synthetic Media,是指由計算機部分或全部生成的影片、影像、文字或語音內容)”的版圖上,AIGC 無疑加速了這個領域的發展。而在 AIGC 這個概念席捲世界之前,Synthesia 的 CEO 就預言,合成媒體正在成為人們日常生活的一部分,它會極大地降低內容創作的門檻,實現前所未有的創造力表達。或許這會進一步改變人與人之間的溝通方式,催生出全新的內容消費形式。
客觀來說,Synthesia 當下所處的賽道已經相當擁擠,2D 數字人技術不再成為門檻,Synthesia 同類型產品也在不斷湧現,Synthesia 將自己的下一步押注在 3D 數字人領域,強化 Synthesia STUDIO 目前的產品體驗同時,也希望透過 3D 上的突破來找到新的商業場景。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 Synthesia 是什麼?
02 市場機會
03 競爭分析
04 結論
05 附錄:數字人市場主要玩家 Mapping
01.
Synthesia 是什麼?
Synthesia 創立於 2017 年,關注數字人技術研究和產品落地。在早期,Synthesia 以 API 方式為使用者提供技術支援, 2020 年,Synthesia 推出了自己的 SaaS 產品 Synthesia STUDIO,並提出“Create videos as easily as a slide deck” 的概念, Synthesia Studio 讓使用者可以像製作 PPT 一樣製作影片。目前這款工具主要面向的企業客戶,產品演示、使用說明、公司理念、內部培訓等場景都可以用它來完成。
公司 CEO Victor 在今年年初表示,Synthesia 目前有超過 5 萬個客戶,同比增長率為 456%,財富 100 強中有 35% 的公司正在使用 Synthesia 進行培訓和營銷,包括 Tiffany’s、IHG、Teleperformance、BSH 等,截止今年年初, Synthesia 已經生產了超過 1500 萬條影片。
今年 7 月,Synthesia 完成了 C 輪融資,Synthesia 表示將利用這筆資金投入到 AI 研究上,推進與慕尼黑大學和倫敦大學等院校以及 NVIDIA 的合作,尤其是 next-gen avatar 技術,讓 avatar 在每個引數上都更加完善,包括更多的表情、更自然的動作、更好的聲音和簡單的定製選項。同時,進一步建立協作影片編輯平臺。
除了 2D 數字人,Synthesia 近兩年也開始在 3D 數字人領域進行探索。

Synthesia 融資歷程
產品
Synthesia STUDIO 的使用相當簡單。使用者只需要在 Synthesia 提供的模板中選擇適合影片主題的模板和數字人形象(AI Avatar)、輸入每一個畫面對應的文案後,就可以一鍵生成一段影片由數字人作為 speaker 的影片,影片生成後,使用者還可以直接在平臺上對影片進行深度編輯,例如像編寫 PPT 一樣修改畫面中的文字和對應格式、插入產品展示圖片或影片動畫等、增加視覺效果等,同時,Synthesia 也支援團隊協作。
為了匹配不同使用者需求,Synthesia 預設了超過 60 種模版,涵蓋了培訓、銷售、“How-to"、學術、商業、客戶 Pitch、報告、HR、創意內容等場景,同時,考慮到企業的品牌風格需求,Synthesia 也提供上傳並使用專門logo、匹配品牌色系等個性化設定。
Synthesia 目前可以提供超過 150 種數字形象( AI Avatar ),這些 2D 數字人形象都是基於真人演員或 Synthesia 員工形象訓練建立的,為了讓影片內容更吸引人,使用者還可以設定揚眉、點頭等微表情和手勢,這 150 種數字人形象還可以和超過 120 種語言進行匹配,除了口型和語言形態十分吻合外,語調也相當自然。Synthesia 還支援使用者基於建立自己的數字形象( AI Avatar )並採用自己的聲音,只需要透過 Synthesia Camera 錄製一段對應影片就可以實現。
Synthesia 目前分為個人和企業兩個版本的產品。個人使用者的收費為 22.5 美元/月,但個人方案每月只支援 10 分鐘的影片製作。針對企業使用者,Synthesia 則根據公司需求設定不同的收費方案,費用主要是隨著影片製作量增加而上升。

根據客戶訪談,Synthesia 的企業客戶年費一般在 10-30 萬美元之間,如果想自定義數字形象,需要額外支付 1000 – 1500 美元/年,在實際使用中,企業客戶每個月大約製作 30-60 個影片,其中新創作的影片和複用影片各佔一半(備註:複用影片是指之前已經制作好的影片作為基礎模板,只需修改部分內容就可以使用,同樣也會消耗影片製作點數)。
在 GTM 上,Synthesia 主要專注於大型企業客戶等 B 端資源,根據 CEO 今年年初透露的資訊,財富 100 強中有 35% 的公司正在使用 Synthesia 進行培訓和營銷,包括 Tiffany、IHG、Teleperformance、BSH 等。Synthesia 目前沒有公開披露收入數字,但 CEO 表示公司目前 “保持了三位數增長”。
💡
Synthesia 的收入估算:
• 根據使用者數量和客單價:根據 CEO 提供的資料,目前 Synthesia 有 5 萬個使用者,大客戶年付費 20 萬美元左右,個人創作者年付費 270 美元,若其中 50% 為免費試用,1% 為企業大客戶,則年收入約為 1 億美金。
• 若按產生影片數量算:Synthesia 共生成 1500 萬條;按照基礎套餐的價格計算,1 分鐘的影片為 2.25 美元。假設一個影片時長 1 分鐘,且 50% 為免費影片生成,則累計收入達 1.69 億美金。
技術邏輯
Synthesia 產品技術棧中最核心的是 Talking-head ,它是讓數字人像真人演員一樣“說話”的關鍵技術,實現語音和畫面合成同時、並配合嘴型運動來模擬真人說話的效果,從而將使用者輸入的文案轉化為一段影片講解。Talking-head 並不只是在於嘴型和發言內容的匹配上,數字人面部表情和語音內容風格的一致性、如何有效調動微表情讓數字人的呈現效果質量提升才是這裡的關鍵。
作為數字人技術中重要組成之一,Talking-head 最早可以追溯到 1990 年代,早期的 Talking-head 是基於語音識別和計算機圖形學的原型系統,2014 年,DeepMind 團隊就發表過 A Neural Conversational Model ,是較早利用深度學習生成說話頭像的實踐。2016 年,LRWHD(全稱為 Lip Reading in the Wild )資料集的發表推動了基於深度學習的 Talking-head 生成的研究,LRWHD 中收集了大量人物的說話影片,為基於口型移動的 Talking Head 研究提供了很好的訓練集。
從技術路線上,Talking-head 可以分為影像驅動(Image-driven)和語音驅動(language-driven)兩種路徑。語音路線起步更早,是深度學習之前 Talking-head 的主流技術路線,即透過語音訊號的引數(如聲紋特徵、語調等)來驅動口型和麵部運動,構建語音和標準口型之間的對應關係,隨著深度學習和生成對抗網路(GAN)的發展,影像驅動方法成為近些年 Talking Head 技術的主流。尤其是Face2Face、Deep Video Portraits 等工作推動了用影像資料訓練 Talking Head。
影像驅動的優勢在於更逼真、更個性化的效果和更細顆粒度的控制能力,但獲得大量特定人物影片作為訓練資料存在難度,不易擴充套件。而語音驅動的優勢在於低成本、資料規模大、可泛化,但真實感還有差距。長期來看,二者結合會是 Talking-head 的技術路線。
值得一提的是,Synthesia 的聯合創始人 Matthias Niessner 正是 Face2Face 的作者之一,所以在創立早期,Synthesia 的技術優勢相當明顯,但隨著大部分演算法的開源,越來越多的公司可以生成和 Synthesia 同等質量的 Talking-head ,甚至生成方式更簡單,例如,基於 Neural Head Avatars (2020 SIGGRAPH Asia) 研究成果的 D-ID 可以直接透過一張照片生成 2D 人物形象,但 Synthesia 目前不支援的,所以很難說誰在技術上具有絕對優勢。
雖然還沒呈現到產品上,但 3D 數字人是 Synthesia 重點關注和投入的下一代技術。基於聯合創始人 Matthias Niessner 的研究,Synthesia 進行了大量的大量圍繞 NeRF、3D 的工作,為了實現 Next-Gen Avatar Tech,Synthesia 已經投入 500 多萬美元建立實景捕捉基地,並在今年發表了第一篇 SIGGRAPH 論文 HumanRF,HumanRF 的核心是重建了行動中的完整人類形象,以及新視角的合成。Synthesia 團隊表示到明年就可以更加細節地展示 Next Gen Avatar 的一些技術進展,例如生成的數字形象(avatar)能夠在根據輸入的指令在空間內行動、或者多個 avatar 之間進行對話等等。
3D 的突破極有可能為 Synthesia 在產品上帶來新的突破,除了 Synthesia STUDIO 會受益外,因為有可能實現全身、多視角的數字人合成,也意味著 Synthesia 有機會找到更多新的應用場景。


HumanRF Demo
團隊
Synthesia 的創始團隊同時融合了學術和商業兩方面資源和經驗。
創始人及 CEO Victor Riparbelli 是一名連續創業者,他早期因為對科幻技術的熱情開始研究 VR/AR 技術,曾參與過與英國VR/AR 發展計劃,例如建立倫敦第一個高質量的體積捕捉工作室 Dimension 等,也因此結識了現在的聯合創始人,慕尼黑大學教授 Matthias Niessner 及 UCL 3D 視覺教授 Lourdes Agapito。
Matthias Niessner 教授在 Talking-head 和 3D 領域進行了大量研究 。作為慕尼黑工業大學視覺計算實驗室負責人,Matthias 在計算機視覺和圖形學領域有著非常高的地位和影響力,他在 2016 年參與的 Face2Face 被看作為影像驅動的 Talking-head 生成的“開山之作”,近些年,他則專注於 3D 重建、語義 3D 場景理解、影片編輯和 AI 驅動影片合成技術。
💡
Matthias 2021-2023 年的研究主要聚焦在使用神經網路進行 3D 生成和 3D 場景理解兩個方向。3D 生成上,DiffComplete 和 DiT-3D 都探索了 diffusion 模型進行 3d 形狀補全、形狀生成方面的應用,這些方法為生成高質量、細節豐富的 3D 形狀提供了新思路。
在 3D 場景理解方向上,則主要探索如何從二維影像中恢復三維場景資訊,提高從單張圖片中解析三維場景的能力。例如, Text2room 從二維文字到影像模型中提取三維網格,Pose2room 從人類活動中理解三維場景,Panoptic lifting 使用神經場進行全景三維場景重建。
此外,還有一些研究專注於人臉建模方面,例如 Learning Neural Parametric Head Models,這些建模方法可以應用到機器人導航、增強現實、三維建模、遊戲製作等多個領域。
團隊 CTO Jonathan Starck 則參與過 NukeX、Ocula、CaraVR 等產品的建立,這一系列工具可以看作是視覺效果藝術家“photoshop”,好萊塢電影中的大部分特效都是在他創造的技術基礎上開發的。
根據 LinkedIn 上的資訊,目前 Synthesia 團隊有 245 名員工,其中工程、研究、資訊科技人員就有 87 人,團隊內第二大人員型別為銷售,有 33 人。
02.
市場機會
影片正超過文字成為當代最重要內容消費形態。這個趨勢不僅發生在 C 端消費者的內容消費上,企業在其業務流中對影片的需求上漲趨勢相當明顯,例如,面向社交媒體的營銷、更生動直觀的產品說明、公司介紹以及公司內部的培訓、技術說明等都是企業影片消費場景,a16z 在 2021 年投資 Loom 時也提到了類似趨勢,並認為面向企業影片製作需求的解決方案要遠落後於 to C 市場,Synthesia 提供的就是面向這類需求的解決方案。
一段影片的製作需要經過前期準備(概念創業、劇本分鏡、文案撰寫)、拍攝(預拍攝彩排、拍攝)以及後期製作三個主要階段,幾乎每個環節是典型的人力密集服務,無論是外包還是自建團隊,都需要大量成本,尤其是在滿足未來更多數量級影片生產需求的情況下,企業需要有效的降本增效的途徑。
💡
傳統企業影片製作的大致成本在 500-10000 美元/每分鐘,其中包括了劇本撰寫、拍攝製作、後期剪輯、配音等方面所有環節上的成本,在新品發售、重大轉折點等企業大型 Campaign 事件中,成本可以達到每分鐘 10 萬美元。
比如,某 Synthesia 客戶之前使用 Adobe 產品套件來建立這些影片,包括使用 Adobe Animate 製作動畫,Adobe Premier Pro 製作向量圖等,並聘請製作影片和配音,一份10 頁 PPT 的資訊做成影片需要約一個月的時間。使用者表示,以更快的速度製作影片是其主要關注的點,並且願意在質量上做一定的妥協。
Synthesia 在自己的技術 blog 中將平臺生產影片總結為 educational & informative videos,並在 use case 中重點提到了培訓(Learning&Development)、銷售支援(Sale Enablement)、技術培訓(Information Security)以及知識類影片(knowledgebase videos)。和娛樂消費類影片內容相比,這類影片的特點在於內容足夠結構化、資訊簡單,不需要複雜的鏡頭語言,並且會根據企業業務進展定期迭代更新,這些特徵都讓企業影片有機會透過工具完成“批次、標化生產”,也是 Synthesia 提出 “Create videos as easily as a slide deck” 的前提。
總體上,這類影片具有以下幾方面特點:
• 鏡頭語言簡單:只需要平面資訊展示,不用考慮轉場、光影、構圖等鏡頭語言,這類影片的畫面呈現上只需要服務於內容展示即可;
• 內容資訊結構化:資訊邏輯簡單,甚至是模板化的,也因此不要求複雜的特效、剪輯為觀眾提供互動體驗;
• 影片更新需求:由於業務動態發展,企業需要定期對影片內容進行細節微調更新,或者針對不同受眾在呈現細節上進行調整,這再度對內容製作的靈活性和低成本提出要求。
如果從狹義的“企業影片”角度出發,Synthesia 所處的市場天花板並不高、且增速較慢。根據市場調研機構 Markets and Markets 估算,2022 年全球企業影片製作市場規模為 $19.8 Billion,以 9.7% 的 CAGR 增長,至 2027 年預計增長至 $31.4 Billion。
我們認為 Synthesia 提供的價值和 Canva 較為類似,Canva 是對平面設計的“民主化”,Synthesia 則將影片製作這一技術“民主化”,在使用場景和人群上進行泛化,在“Create videos as easily as a slide deck” 假設下之下,Synthesia 的潛在人群和市場可以是所有知識工作者的影片內容製作及消費場景。
Synthesia 的使用場景
Synthesia 目前主要有兩類客戶群:企業與個人創作者,他們使用 Synthesia 的場景主要有:
1. 企業場景相對明確,典型的市場營銷類場景下的影片需求,例如用產品講解、公司簡介、使用者答疑等。
Synthesia STUDIO 的操作相當簡便,不要求有專業影片編輯技能,可以在原影片上修改、即時更新內容,減少重複工作, 從 PPT 到建立微影片只需要約 3~4 個核心創造者,一週左右的時間就可以完成,比傳統影片製作流程節省 50%~60% 的成本。從傳播效果角度看,Synthesia 生成的影片相比僅提供文字或 PPT 更吸引受眾,AI 數字人本身也具有吸睛效應。平臺模板豐富多樣,支援多語言版本,可以針對不同受眾群體定製影片。
雖然 Synthesis 提供的是 end-to-end 的影片製作和編輯服務,但在客戶訪談中,我們也看到客戶在實際使用中與更專業的影片編輯軟體如 Adobe Premier 一起使用。客戶表示 Synthesia 最大的作用在於節省時間,快速進入市場,但一旦要側重“品牌(branding)”的考慮,Synthesia 生成內容的質量和實際需求還存在差距。比如對外營銷場景對影片質量要求較高,為了確保頭像的無縫整合,需要微調頭像引數以確保嘴唇與文字同步。客戶期待 Synthesia 能夠讓頭像與影片和音訊的整合更快、減少微調所需的時間。有客戶表示會將 Synthesia 配合 Adobe 等其他產品共同使用,為重要的內容 “Creating hero shots”。
但對於原本以文字形式存在的長尾內容,現在可以透過 Synthesia平臺以較低的成本批次製作影片。
2. 業務培訓、技術培訓、法律合規這些原本需要用 PPT、Word、Zoom 錄音來完成的場景。
這些場景中則是對過去其他生產力工具的替代,使用 PPT、Word、Zoom 錄音等非影片形態資料,會導致人們的注意力不集中,資訊攝入效率較低。但如果每次都僱傭機構專業製作影片,在時間和預算上都非常不經濟,Synthesia 則解決了這個問題。客戶表示,如果沒有 Synthesia,原本文字形式的內容是不會被製作成影片的,而現在約 60% 的 PDF、Word 或 PPT 格式的培訓材料,現在都可以透過 Synthesia 平臺轉化為影片格式,從而提高資訊傳播效率。
綜上,Synthesia 對客戶的價值在於大幅降低影片內容生產成本,使其能夠充分利用影片提高內容傳播效果。
從生產成本角度看,Synthesia 平臺操作簡便,無需專業影片編輯技能,可以在原影片上修改、即時更新內容,減少重複工作, 從 PPT 到建立微影片只需要約 3~4 個核心創造者,一週左右的時間就可以完成,比傳統影片製作流程節省 50%~60% 的成本。從傳播效果角度看,Synthesia 生成的影片相比僅提供文字或 PPT 更吸引受眾,AI 數字人本身也具有吸睛效應。平臺模板豐富多樣,支援多語言版本,可以針對不同受眾群體定製影片。
在客戶訪談中,多家公司都表明價格是決定是否更換供應商的主要變數,當 2D 數字人影片工具進入紅海時,Synthesia 也會遭遇自己的“價格戰”。
並且需要注意的是,Synthesia 的使用者遷移成本並不高,即便轉換到製作平臺上時面臨摩擦,例如客戶已經在 Synthesia 平臺上投入大量時間定製自己的頭像、影片模板、積累素材庫等資源,但因為 Synthesia 的使用中不會涉及到具體的使用者資料,只是基於使用者提供的文字、語音進行影片生成,所以當某個同類產品有明顯的價格優勢時,客戶就會選擇遷移。
另外,也有客戶表示,Synthesia 並非是不可缺少的企業工具,在預算緊張時會被優先考慮削減。對於未來的付費預期,大部分客戶表示基於目前的宏觀經濟形勢,會保持付費金額的恆定,最多可以接受 10% -15% 的預算增加,但如果 Synthesia 的價格上升,將會尋找替代方案。如果企業發生營銷預算上的縮減,還是對內支出上的精細化管理,都會帶來 Synthesia 的客戶和收入流失。
03.
競爭分析
我們可以從兩個角度來定義 Synthesia 的競爭對手:
• 技術視角:數字人解決方案商,這裡主要指 Synthesia 同類的產品;
• 需求場景視角:影片編輯工具。如果隨著技術迭代、尤其是 2D 數字人生成成本降低後,影片編輯軟體是否也會增加相應功能?
數字人解決方案
我們在前面提到,因為技術和資料集的開源,2D 數字人賽道競爭已經相當激烈,而從產品形態上,也幾乎都以 Synthesia 這類影片製作和編輯平臺為主,此外還包括 Soul Machine、UneeQ 等更偏技術供應商的角色。
在客戶訪談中,Synthesia 的客戶也會傾向於將它和 Hourone、D-ID、Elai、Heygen 等2D 數字人影片生成公司進行對比,這些產品從功能上類似,和 Synthesia 一樣,讓使用者只需要透過輸入文字、點選選擇不同的數字人形象(AI Avatar),就可以生成一段逼著、直接可用的影片,不同產品之間的差異主要在於影片生成質量和產品層面上。
我們總結了主流 2D 數字人影片生成產品和 Synthesia 之間的差異:

Source:企業官網及使用者訪談
站在 C 端使用者視角,Heygen 在產品模板和易用性的優勢更加明顯,除了 Templete、Avatar 的選擇更加豐富、多元外,我們也注意到 Heygen 也提供了豎屏模版,更適配短影片時代的需求。

Source:heygen
因為 Synthesia 等產品目前都只通過 Web 端體驗,所以我們可以透過網站訪問量對各個產品的使用量進行簡單對比(備註:網站流量無法覆蓋到透過部署 api 使用服務的規模)。
D-ID 近幾個月平均單月訪問量最高,達6.9M,Synthesia 排名第二,為 3.8M,Heygen 緊隨其後為 3.3 M。但是值得注意的是,雖然 D-ID 和 Heygen 的訪問量較高,但主要來源於 C 端使用者,這部分使用者的付費能力有限。而 Synthesia 客戶以企業使用者為主,且集中在付費能力強的美國和歐洲地區。


從地域分佈上,可以看出印度、美國、印度尼西亞、巴西這些國家的使用者較多,其中印度佔據了 15.88%,D-ID 在印度、印度尼西亞、巴西這些公司具有較大的優勢,而 Synthesia、Heygen 在美國的客戶較多。

使用者分佈上,Synthesia 在美國擁有最多的使用者,印度其次,在德國、英國這些歐洲國家也有較多的流量,鑑於歐洲國家本身使用者基數小,可見 Synthesia 在該地域滲透較廣,歐洲企業付費能力也比較強,是其主要客戶群之一。

總體上,我們認為:
• 技術:2D 數字人目前已經沒有壁壘,但在技術細節和硬體上有優勢,可以做到 Avatar 更真實、效果更好,但是在個性化頭像建立上落後於 D-ID。
• 產品:Synthesia 的產品設計更加專業成熟,在客戶訪談中,我們看到有企業客戶表示 Synthesia 的產品設計比競爭對手更符合企業需求、更專注企業級應用場景,。
• 客戶:銷售團隊能力強,擁有美國和歐洲等付費能力強的重要企業客戶渠道,並提供了出色的客戶支援。
• 定價:Synthesia 的價格略高於D-ID 和 Heygen,不具備明顯優勢。
影片剪輯軟體
影片剪輯軟體本身有以下幾個特點:
• 功能更豐富:包括剪輯、過渡、顏色調整、新增特效等,可實現精細化影片編輯。
• 更為專業、精細:面向專業使用者,輸出影片質量更高。
• 更靈活:可以匯入各種格式的素材。
• 使用者基數大:已經建立了較大的使用者群。
在客戶訪談中,我們看到不少使用者將 Synthesia 和其他影片編輯工具配合使用:Synthesia 的核心功能是將文字內容轉化為虛擬主持人演示的影片,這些影片因為內容高度結構化,對於進一步編輯和處理的需求較低。但在營銷、銷售等對影片質量和豐富度要求更高的場景,使用者可能需要對 Synthesia 生成的影片進行更精細化的處理,包括新增額外的特效、音訊剪輯、文字註釋等,就需要用到影片剪輯軟體。
Synthesia 和影片剪輯軟體競爭的競爭格局,主要決定因素包括市場機會、投入產出比和功能深度。一方面,如果影片剪輯軟體認為 Synthesia 的使用者群體和需求足夠大,那麼它們就有足夠的動力去做 Synthesia 的功能。另一方面,如果隨著技術迭代使得 2D 數字人生成的成本進一步降低,像 Synthesia 一樣訓練 150 個 Avatar、130 種聲音不再是一個“大工程”, Final-Cut Pro、剪映等影片剪輯軟體也可以較輕鬆的做出 Synthesia 類似質量的產品。
此外,Gen-AI 熱潮中也帶動了不少和 AI 能力結合的新一批的影片剪輯產品的出現,這些新產品相當積極地將 AI 功能糅合進自己的產品設計中。

04.
結論
Synthesia 是一家典型的將技術優勢轉化為產品的公司,在創立之初擁有明顯的技術先發優勢,並透過先和具有付費能力的企業客戶合作的方式實現了自己的商業化。
1. 專注付費能力強的企業客戶。Synthesia 已經積累大量高質量企業客戶,後續可以繼續進行營銷滲透。原因是其產品平臺更成熟完善,並且圍繞它建立了一個優秀的銷售團隊,一方面有能力獲取新的大客戶,另一方面透過客戶支援和客戶使用慣性,做好客戶維繫。
2. Synthesia 的團隊實力較強,尤其是科研能力,這使得 Synthesia 在 3D 和 Next-Gen Avatar 領域進行研究佈局,如果 Synthesia 能夠成為該領域的技術領導者,較快的實現人物在虛擬空間中自然運動和互動的效果。這將為其商業化帶來很大的想象空間,包括與元宇宙/VR 平臺、遊戲公司合作,以 SaaS 模式為客戶提供數字人解決方案,與硬體公司合作為 AR/VR 裝置開發數字人相關軟體和應用等等。
但客觀來說,Synthesia 也存在著很多問題,包括:
1. 產品遷移成本低且不是企業剛需。目前的產品形態為單一工具,與企業其他技術棧的整合不強,也沒有網路效應,導致遷移成本很低,Synthesia 面臨潛在的低價競爭對手的威脅。因為不是企業的剛需產品,若經濟下行,企業縮減預算,Synthesia 會受到較大的影響。
2. 2D 數字人技術已是紅海,企業影片市場天花板較低。如果 Synthesia 業務侷限於該領域,收入很難保持高速增長。
3. 3D 數字人領域技術商業化存在不確定性。且需要面對來自大廠的強大競爭。3D 技術的商業化仍在早期,大廠如 Apple、Meta、Nvidia 都在積極佈局,與其已有產品矩陣結合能夠更快的找到應用場景。Synthesia 作為創業公司並不具備競爭優勢。
綜上,我們對 Synthesia 持中性態度。目前的 Synthesia 在 2D 數字人影片生成市場的優勢有限,伴隨 Gen-AI 的熱度下降,Synthesia 的 2D 數字人生成業務增速有可能明顯放緩甚至下降。Synthesia 不能過於依賴當前客戶和場景。
05.
附錄:數字人市場主要玩家 Mapping
無論是 Synthesia 目前的 2D 數字人影片生成、還是未來要發展的 Next-Gen Avatar,都是數字人賽道的一部分。此處對於數字人的定義是由 AI 驅動的類人虛擬形象,可以與使用者互動或者代表使用者本身。
根據 Polaris Market Research 的測算,2023 年數字人賽道的市場總規模到達 $18.59 Billion,因為該賽道與 Gen-AI 緊密相關,未來十年以 44.4% 的 CAGR 增長,預計 2032 年將到達 $506.46 Billion。數字人目前應用最廣的是客戶服務領域,如銀行、電商平臺上的數字人客服。隨著技術進步和 Gen-AI 的到來,數字人逐漸滲透社交、伴侶等領域。
數字人技術棧主要包括計算機視覺、對話能力(早期的 NLP 和 Gen-AI 後的 LLM)、語音合成、VR/AR 等,其中 AI 技術十分重要,讓數字人能夠進行自然的語言互動和表情動作。

根據產品能力可以被劃分為 Interactive Digital(互動式數字人)、Non-Interactive Digital(非互動數字人)。另外根據應用場景還可以分為具有獨立形象的數字人個體以及代替特定人的數字替身。

根據應用場景劃分:

數字人賽道的頭部公司中,大廠佔據著舉足輕重的作用,其他也有一些創業公司湧現出來。大廠與其產品矩陣結合,主要面向 ToC 消費者,為個人提供虛擬化身;而創業公司主要為企業客戶提供技術解決方案。代表公司如下:



Nvidia’s Omniverse Avatar


UneeQ AI Digital Humans
因為大廠擁有自己的產品矩陣,其數字人技術可以很好的與現有產品整合,提供附加功能體驗。但為企業提供數字人技術解決方案的 UneeQ 和 Soul Machines 商業化進展並不理想,其中 Soul Machines 年收入約為 $21.8 Million,近期裁減了近一半的員工。
Synthesia 的 2D 數字人影片生成找到了企業影片這一適配場景,實現了較為可觀的收入,但未來進入全身影片生成及 3D 領域將面臨著大廠的競爭。
大廠很可能憑藉著雄厚的資金、技術和已有產品矩陣率先實現突破。未來 3D 數字人產品 ToC 端可能會需要同時實現使用者的個人形象捕捉和平臺整合。個人形象捕捉可能採取移動端捕捉的方式,並能夠即時生成,那麼未來網際網路和移動領域會大規模出現真實人類的數字化身。平臺整合則是指個人的數字端形象,能夠和社交產品(Facebook 等)、專業化場景(Slack、Zoom、CRM) 等整合,進入整個生態系統。所以以現在的格局來看,Synthesia 繞不開與大廠的合作。
Reference
https://riverside.fm/blog/corporate-video-production
https://synthesiaresearch.github.io/humanrf/
https://arxiv.org/abs/2305.06356
https://youtu.be/OTnhiLLE7io
https://mp.weixin.qq.com/s/8K2DdAKAkUrOKg58cxr6QA
https://geekflare.com/synthesia-ai-video-creation/
1. https://www.run.ai/blog/why-kubernetes-is-the-platform-for-genai
2. https://dev.to/thenjdevopsguy/aks-vs-eks-vs-gke-2459
3. https://komodor.com/blog/the-2022-managed-kubernetes-showdown-gke-vs-aks-vs-eks/
4.https://www.pluralsight.com/resources/blog/cloud/aks-vs-eks-vs-gke-managed-kubernetes-services-compared
5. https://aws.amazon.com/cn/blogs/machine-learning/training-large-language-models-on-amazon-sagemaker-best-practices/



延伸閱讀