SoraV2即將釋出,AICreativity賽道有哪些機會?

作者:haina
編輯:penny
OpenAI 連續 12 天 “Shipmas”釋出活動終於要釋出讓大家期待已久的影片生成模型 Sora,這再一次激起人們對圖片生成、影片生成的關注。而AI Creativity 一直是我們非常關注的 GenAI 落地方向,影像生成和影片生成模型快速迭代,離商業可用越來越近。同時,創意行業的工作流很長、行業細分,用 AI 去提效其中的每一個環節都有意義,持續有值得關注的創業公司出現。
今年八月份,Stability AI 核心 research 團隊創立的新公司 Black Forest Lab 亮相併釋出了 Flux1 系列 Sota 模型,Ideogram 釋出 2.0 版模型,Midjourney 也終於推出了網頁端產品。這三家的文生圖模型各有所長,Flux 是目前的 Sota 模型,Ideogram2.0 最接近商業化可用,文字渲染能力極強,在商業廣告、海報等場合表現最好。Midjourney 更擅長藝術創作,新推出來的網頁端工具也是生成功能最豐富全面的。另外,為專業設計師搭建的、基於影像生成的工作流平臺也在不斷迭代產品,其中 Krea.ai MAU 已經到達了 142 萬。
影片領域,OpenAI 釋出 Sora Demo 後,不斷出現新一代“媲美 Sora”的模型,包括國內剛剛釋出的位元組豆包影片模型、minimax 海螺大模型、快手 Kling,以及海外的 Meta moviegen,Luma、Runway Gen3 這些炙手可熱的影片生成公司。同時,BFL、Ideogram、Midjourney 未來也將要釋出自己的影片生成模型。技術路線還沒有確定,每去很難做出誰會是最終贏家的判斷。有一些 startup 不去卷模型,而是專注做應用。比如 Captions、Opusclip、Creatify 等產品專注於 AI 輔助的影片編輯。這些公司都能獲得不錯的 ARR,但是天花板有限,面臨著來自 Capcut 的競爭。
我們可以觀察到,AI Creativity 領域逐漸演變出了兩種形態的 Startup:一種專注提升模型能力,團隊以 top researcher 為主;一種專注構建結合 AI feature 的產品,團隊以產品、GTM 為主。我們將持續關注那些在模型能力上處於領先地位的團隊,以及有 vision 和能力為創意工作者構建整個 workflow 產品的公司。
💡 目錄 💡
01  內容生成的壁壘是什麼?
02  為 AI Native 工作流設計的 AI 影片編輯工具
03  Case Study
01.
內容生成的壁壘
是什麼?
現階段,影像及影片生成領域的大部分明星 Startup 仍專注生成模型的訓練最佳化,高質量的閉源模型是其核心資產。這類公司的特點是有非常強的 research 團隊,獲得了大量的資金支援,或背靠大公司擁有資料和資源優勢。
目前很難看出誰擁有明顯的壁壘,是這個賽道的贏家。圖片生成領域閉源和開源的能力已經基本追平,普通使用者很難感受出誰家的模型更好。特定場景下,經過專有資料集訓練、做了 Lora 的開源模型可能會比效能最好的生成模型表現更好。影片生成領域還處於 GPT2 時代,從 Runway Gen2、Pika、Genmo,再到 Sora、Luma 和 Kling,如今又出現了聲稱將要開源 Sota 影片模型的 Black Forest Lab,技術路線還未最終確定。
模型公司仍是我們關注的重點,在其他要素不確定的情況下,更多的是在 bet 團隊。我們比較看好 Luma 和 Black Forest Labs,雖然都不是最早入局影片生成的公司,但都有深厚的積累。Luma 有 3D 資料的深厚積累和 Diffusion 的頂尖 Researcher 團隊,和完整的工程團隊,走的是閉源路線。BLF 基本上是 StabilityAI 的原班人馬,包括 Researcher 和 Infra 的成員都加入了,提出了新的路線 Rectified Flow Transformers。推出的文生圖模型 Flux 在社群影響力很大,質量遠超 SDXL,未來推出的影片生成模型也是很值得期待的。
專注於模型並不是說這些公司不做產品。相反,相比整合開源模型,擁有閉源模型的公司做好產品反而更容易建立產品壁壘。這些公司已經紛紛從最初的 Discord 轉向用 UI 去承載模型,讓使用者能用熟悉的 Button 點按,而非全部都是 Prompt 的方式去使用技術。Runway 就是產品做的很好的典型代表,Midjourney 和 Ideogram 的 Web UI 也提供了不錯的生成體驗。
以 Midjourney 的 Web UI 為例,擁有圖片搜尋引擎、素材一鍵應用、以及可控性很強的圖片生成功能。在 Explore 介面上,可以看到隨機、熱門、本週最佳和使用者 “喜歡” 的圖片,還可以輸入 Prompt 搜尋相關風格的影像。點選任意一張圖片,都可以看到生成這張圖片的 prompt,以及搜尋和這個圖片類似風格的作品。
在 Create 介面上,使用者可以設定參考圖,寫入 prompt,並進行引數設定。引數設定包括滑動調節尺寸,調節風格強度、創意程度、以及隨機性;還可以選擇 Midjourney 提供的不同模型,以及生成速度。生成後,可以選擇重新生成,或者透過 Prompt 和引數調節的方式進行修改。還有 Chat 和 Room 功能,使用者可以在特定主題下交流。
一部分公司並不專注訓練效果更好的模型,而是針對具體的工作場景、具體行業構建影像生成的工作流產品。包括針對設計師行業的 Visual Electric,針對時尚設計行業的 Raspberry 等。以 Visual Electric 為例,提供了 AI 生成圖片後的專業編輯功能,包括無限的畫布、圖片引數調節、背景去除等。也提供了基於AI的編輯功能,比如 Art direction,使用者描述如何更改影像,Visual Electric 自己編寫 Prompt 來定義色彩和風格。
很多內容創作者也有自己微調開源模型的需求,但不具備足夠的硬體裝置,所以一些創業公司儘可能全面的整合開源模型,並提供編輯工具和微調介面,使用者也可以用自己的資料在平臺上去微調模型。如 Krea.ai、everart、Nightcafe。Krea.ai 整合化的提供了影像、影片模態模型,還提供了用攝像畫面進行即時創作、整合 Photoshop、Figma、Sketch、C4D、Blender 等設計軟體的創作方式。也有放大增強 (Upscale & Enhance)、引數調節、可以把文字/圖案形狀/logo嵌入圖片等編輯功能。
02.
為 AI Native 工作流設計的 AI 影片編輯工具
除了上文以閉源模型能力為核心的生成公司,我們還關注到了很多公司專注結合AI做影片編輯工具。
這些公司中,早進入者是傳統專業編輯軟體輕量化的邏輯,追求“大而全”,儘可能地整合所有 feature,覆蓋workflow所有環節,包括 capcut 和 veed;而後進入的公司需要透過營銷核心 feature 來破圈獲取使用者,精準的解決某場景的使用者需求,比如 heygen 主推 avatar,captions 主推 talking video 場景,opusclip 主推素材複用。這也是因為海外使用者的使用習慣:使用者會想要尋找每個單點上表現最好的產品,而不是滿足於一個大而全的平臺提供的服務。
上述以某個核心賣點起家的產品,由於使用者不斷在社群中提出新需求,以及來自競爭對手的壓力,也在向“大而全”的平臺發展。但它們與 capcut 直接競爭沒有優勢,所以還是會圍繞自己的核心敘事迭代產品。而 Capcut 則不斷的整合新公司的核心 feature,保持“大而全”的平臺地位。近半年 Capcut 的業務核心是 Commerce Pro,電商企業使用者可以輸入 URL 一鍵生成產品展示等促銷廣告影片,這也是 creatify 的主推 feature,再之前,capcut花費了很多精力開發類似 Heygen 的 avatar 能力。
我們認為這些公司也非常值得關注,主要原因如下:
1. 影片製作、剪輯工具的市場空間很大。早期,專業工具Adobe Premiere Final Cut Pro ( Apple )、Davinci Resolve 主導該領域。隨著社交媒體發展,prosumer 創作者、網紅和企業對影片內容需求的增加,剪映、海外版 CapCut 吸引了大量使用者,Capcut 的mau在7月份已經達到3.23億,Sensor Tower估計,截至7月底,CapCut今年在移動應用上的累計收入已達1.25億美元。天花板還沒有見頂,未來還有很多創新和新公司的機會。我們看到的 opusclip、creatify、vozo 等主打全自動、一鍵化的工具進一步降低了影片創作的門檻,賦予了本來沒有創作能力的使用者創作機會。
2. GenAI 帶來的增量市場是原本沒有足夠創造能力或預算,但被AI賦予了能力能夠大規模生產的 smbs 和 prosumer。
a. SMBs 以電商商家為主,同時還有短劇行業的需求。SMBs 以社交媒體為主戰場,類似 Prosumer 的工作流,期待高度的自動化,以及保持品牌的一致性和跨渠道的最佳化,重視影片釋出後的資料分析。比如很多做電商營銷的使用者,這類使用者的目的是快速、大批次的在各個社媒平臺上釋出產品廣告影片,自己不具備影片創作能力,傳統往往採取外包的模式,或者投入很少。這個領域也是目前AI影片剪輯創業公司的主戰場之一,如opusclip幫助客戶長剪短去適應不同的平臺特點,creatify主打產品url一鍵生成營銷影片。
b. Prosumer 主要是 YouTubers、TikTok創作者、博主等 content creator。全球超過 20 億的短影片使用者最終能有超過 10% 被轉化為創作者並願意為剪輯產品付費,可以預期一個 20B 美元體量的增量市場。他們對AI的期待是能夠滿足他們高頻次釋出、節省時間、快速編輯和多平臺相容的需求。我們從reddit反饋中觀察到,目前該類使用者並沒有期待某個AI工具cover全部工作流,而是以傳統的剪輯工具為基礎,再找一個或多個AI工具用在自己工作流中的某個環節去提高效率。
3. 這個市場不會是 winner take all,產品設計邏輯和核心功能決定主要使用人群。
a. 根據對使用者的觀察,我們發現不同型別的使用者使用的核心功能是不同的,比如以做口播為主的 KOL 會持續使用 Captions,雖然也會使用 Capcut 去完成其他任務,但不會導致使用者的徹底遷移。同理,電商賣家也會持續用 Creatify,社媒營銷人員也會持續使用 opuscilp。Capcut 即便集成了 Avatar、URL 一鍵生成營銷影片等等功能,但它最初的設計邏輯就是輕量化的 adobe,並不能完全適配上述使用者的使用習慣。
b. Startup 有機會透過理解特定使用者群的痛點,搭建出更好用的產品。獲得可觀收入的新創業公司都有自己的核心業務邏輯,也在核心功能上做的更好。比如 Creatify 的邏輯就是產品 URL 直接生成影片,這是使用者登入平臺看到的第一個介面;而 Opusclip 的核心就是儘可能地幫使用者自動化影片剪輯流程。
4. 影片應用工具的進入門檻低,團隊只要有足夠的產品能力,並做好 GTM,都能獲得不錯的收入。Heygen 和 Captions 都 ARR 都超過了 $50M。Opus 也達到了 ARR 也達到了 $20M。
隨著競爭進一步加劇,對於這些影片應用公司來說,AI 功能的深度和廣度都很重要:只有單個功能做得顯著比競品好,新公司才能因為差異化破圈。社群中出現破圈的 show case 後,content creator 會自發建立教學影片,人們會預設把這個產品用於某任務;但能夠在更廣泛的 AI 功能上都做得比競品好,至少不差於競品,是讓使用者留下來並付費的方式,我們觀察到,創作者的剪輯工作流很分散,經常使用單點上效果最好的工具,但如果一個平臺上能完成完整的工作流,會讓使用者更願意付費,而非持續尋找免費的替代品。
以下表格梳理了各個公司的核心功能,以及對使用者常用的AI feature的覆蓋情況,可以看出很多創業startup對於feature的覆蓋已經非常全面了。
我們對每個產品進行了試用,結合使用者的評論,Heygen 在 avatar 和 lip sync 兩個細分功能上優勢明顯,AI 自動配字幕上,capcut/veed/captions做的都不錯,而 AI Dubbing 上,使用者比較滿意 capcut,heygen 的影片音訊匹配。另外,很多使用者都很滿意 Opusclip 快速生成短影片的能力。
還有一類公司值得關注,那就是 to consumer、賦予每個人自我表達能力的影片創作平臺。其中比較特別的是 Viggle,用 AI 讓圖片+影片組合生成新的影片,利用網感、GTM和病毒式傳播快速起量,在TikTok上廣泛傳播。但是這類產品如果不能構建自己的平臺,產品功能、傳播方法是很容易復刻的。很多大平臺起源於病毒式的 feature,比如Instagram的濾鏡,snapchat的閱後即焚。Viggle的不同的點在於,它的內容是被放在tiktok上傳播的,使用者便不會留存在它的平臺上,它的角色仍是一個工具。什麼樣的AI feature能夠和“生成”它的平臺本身緊密繫結值得我們持續研究。
03.
Case Study
內容生成
模型能力對比
根據 artificial analysis 網站,綜合來看 FLUX 的質量領先優勢明顯,生成時間較短,價格較低,是類似生成/價格區間中質量最好的模型。
Flux系列模型均是相同價格下質量最好的模型。
Flux系列是相同生成時間下質量最好的模型
產品使用對比
在我們的實測中,Flux 表現並不佳,原因可能是直接使用了開源的 model,並沒有做任何的微調,所以生成的都是最原始的設定。這也讓我們意識到,圖片生成領域已經很成熟了,即便使用開源的模型底座,經過微調也能達到非常好的效果。
商業廣告設計

💡

Generate an Eco-friendly car advertisement with natural elements
Ideogram 和 Visual Electric 的效果表現出色,MidJourney風格鮮明,但偏向超現實風格,商業化程度略不足。
flux效果圖
midjourney效果圖
ideogram效果圖
visual electric效果圖
Krea.AI效果圖
點選variation後Krea.AI效果圖
電影海報

💡

Generate a Mystery thriller movie poster with a dark alley and shadowy figure
這個主題下,各個產品效果都不錯
flux效果圖
mj效果圖
ideogram效果圖
visual electric效果圖
Krea.AI效果圖
logo

💡

Generate a Dynamic logo for a new tech startup
這個題目Ideogram 和 MidJourney 的表現更多元,而 Visual Electric 對於 Prompt 的理解似乎稍顯不足。
flux效果圖
mj效果圖
ideogram效果圖
visual electric效果圖
Krea.AI效果圖
卡通

💡

Cute cartoon elephant carrying a little cartoon rabbit using its long nose. They are enjoying the beautiful midnight together
比較來看,Visual Electric 的生成效果更具視覺吸引力。
flux效果圖
mj效果圖
ideogram效果圖
visual electric效果圖
Krea.AI效果圖
文字生成能力
Ideogram 能精準生成文字,其字型渲染效果最好;而 MidJourney 的海報設計感更強,文字內容準確但清晰度略有欠缺。

💡

A vibrant music festival poster features a backdrop of colorful stage lights and an enthusiastic crowd. At the center of the poster, in bold and dynamic typography, it reads: "2024 Summer Music Festival".
flux(用的是同一個prompt,前後生成了兩次,一次文字是準確的一次不準確)
mj效果圖(算都對,在處理文字的排布上有自己的想法)
ideogram效果圖(都對)
Visual electric(可以觀察到,第一幅的festival,第二幅圖的summer拼錯了)
Krea.AI效果圖(中間的兩幅圖漏掉了music)
Black Forest Labs
簡介
Black forest labs 今年 8 月 1 日對外正式宣佈成立,目前推出了 flux1 文字生成影像模型 API,包括三個版本:Pro、Dev 和 Schnell。同時,BFL 是一家影片生成公司,圖片生成只是road map的第一步,未來將推出 SOTA 影片模型。技術路線上,BFL 提出 Rectified Flow Transformers,傳統的 Diffusion model 需要多步的噪聲處理,修正流模型(rectified flow model) 在資料和噪聲之間採用直線連線路徑,理論上更簡潔。
模型質量上來看,根據使用者反饋,Flux 質量/價效比確實是最好的那一檔,突出優勢是手部和細節的處理、提示詞遵循度高、Flux Schnell 生成速度快。與 Stable Diffusion 3、Midjourney 和 DALL·E 3 等模型相比,Flux 在視覺質量和提示遵循方面表現更好。
問題在於 Flux 開源模型由於是蒸餾模型,難以進行微調,影響了模型的可訓練性。Flux也不是完善的,部分使用者也提到了在某些特定細節(如腳部)仍需要提高,在處理複雜提示時也會遺漏某些元素。我們的嘗試也發現還是有問題,比如生成了3隻手,文字沒準確的表示出來等等。
圖一的問題是有三隻手,圖二的問題是並不是每張卡片上的文字都是準確的,圖三嘗試生成黑悟空IP
團隊
BFL團隊由前stability ai核心成員組成,是stable diffusion專案的原班人馬,已經成功訓練出被社群廣泛採用的SDXL文生圖模型、SDV影片模型。團隊的 research能力、訓模型經驗都是top tier。
Co-founder Robin Rombach是Stable Diffusion的第一作者,參與了 Stable Diffusion XL(SDXL)、Stable Video Diffusion 和 Rectified Flow Transformers、Latent Diffusion 等工作。Patrick Esser 也是 Stable Diffusion 專案的核心人物之一,同時還參與了 VQGAN 和 Latent Adversarial Diffusion Distillation (LADD) 等專案。Andreas Blattmann 在高解析度影像生成領域做出了重要貢獻,還參與了 Stable Video Diffusion。
董事會成員 Michael Ovitz 是娛樂行業中極具影響力的人物之一,1974年創立了創意藝術家經紀公司(Creative Artists Agency, CAA)。參與了許多重大交易,比如三大好萊塢電影公司的出售。在1995年至1997年期間擔任迪士尼公司總裁,並推動了多個知名的廣告和營銷活動,包括可口可樂的北極熊廣告。Matthias Bethge是neural style transfer技術的開創者之一,在歐洲AI研究有很高的地位。
融資
種子輪融資金額:3100 萬美元,Andreessen Horowitz 領投,天使投資人Brendan Iribe 、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun跟投;獲得了General Catalyst和MätchVC的後續投資
Ideogram
產品 Update
8.21日,Ideogram 更新了最新的2.0版本文生圖模型,非常適合做海報、logo以及文字。一些值得highlight的點:
• 對影像風格的控制增強了,包括general、現實、設計、3D 和動漫。

💡

Futuristic cityscape for a technology magazine cover
general
realistic
design
3D
• 工具:增加了新的樣式、調色盤,以及 iOS app 和 API。
 可以搜尋社群圖片了
• Magic Prompt:使用“describe”根據使用者提供的原始影像生成詳細的文字prompt,再使用“Magic Prompt”來豐富,提供4種不同的prompt,然後使用“生成”將這些提示生成影像。
• 根據官網的測評,Ideogram 2.0 在影像提示一致性、真實感和文字渲染質量方面取得了顯著進步。使用者評估認為 Ideogram 2.0 比 Flux Pro 和 DALL·E 3 也效果更好。
• API 定價有競爭力,低於 DALL·E 3,與 Flux Pro 持平。
團隊
團隊中的前四位成員是谷歌 Imagen Video 論文的作者:
• Mohammad Norouzi, CEO, 之前是 Google Brain Staff Research Scientist, 加拿大多倫多大學 PHD
• William Chan, Cofounder/CTO, 之前也是 Google staff Research Scientist, 卡內基梅隆大學 PHD,曾在 AMD、英偉達、英特爾、谷歌、亞馬遜和道明證券公司實習
• Chitwan Saharia,Google Brain senior research scientist
• Jonathan Ho,Google Brain Research scientist, 2017 – 2018在OpenAI做了一年 Research scientist
融資
2023年完成1650萬美元種子輪,a16z和Index Ventures領投,其他投資者包括AIX Ventures, Golden Ventures, Two Small Fish Ventures等機構投資者和Google人工智慧部門的負責人Jeff Dean, OpenAI聯合創始人Andrej Karpathy,GitHub聯合創始人Tom Preston-Werner等個人投資者
2024 年 2 月底,完成 8000萬美金的 A 輪融資,a16z領投,Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel 等參投。
Midjourney
產品 Update
2024年8月推出了網頁版圖片編輯器,同時正式官宣進入AI硬體領域,硬體的特徵包括 “go inside in",與元宇宙資產結合。
經測評,我們認為midjourney的網頁版是目前所有產品中目前功能最全、ui設計最好的。
explore頁面
create頁面
organize頁面(管理生成過的圖片)
chat介面
Krea AI
簡介
KREA成立於2022年,旨在革新人類創意表達。Krea 產品的主要思路是在 AI 生成的基礎上,透過整合、微調開源模型,涵蓋後續編輯工作(AI-native 結合生成+編輯的更全棧的平臺)。核心功能包括即時生成(Real-Time Generation)和影像增強(Upscale & Enhance),並允許使用者在平臺上訓練自己的模型。可以生成圖片,也可以生成影片,影片生成可操作性也很強,包括自定義首尾幀、無限轉場(自己設定關鍵幀和提示詞),對於電腦配置要求不高的使用者也非常友好。
團隊
創始團隊由Diego Rodriguez和Victor Perez組成。Victor在創立 Krea 之前是 Various companies的ML engineer以及Plyzer intelligence的head of ML,co-founder diego 2021年畢業於康奈爾大學,曾計劃去stripe工作,但最後決定進行krea的創業。Victor六年前開始研究生成模型,曾參與早期生成AI應用ArtBreeder的開發。兩人透過HF0(類似YC的技術創始人孵化專案)一起建立了KREA。
融資
公司創立後,迅速從Facebook AI Research的創始人Keith Adams和OpenAI創始團隊成員Pamela Vagata獲得了資金支援。
Visual Electric
簡介
2022年11月成立,是專注為圖形設計師、廣告創意人員和藝術家構建的影像生成工具。採用開源stable diffusion模型。
Visual electric 保持了持續的產品更新:
團隊
三位co-founder的背景都與做拖拽、圖形化介面和無程式碼工具有關。Colin Dunn (CEO) 是 Universe的前高管,還曾在 Facebook 和 Dropbox 工作過。 Adam Menges (Chief Product Officer)前蘋果員工,其初創公司Lobe (設計工具)和Lowkey (AR 遊戲公司)分別被微軟和 Niantic 收購。Zach Stiggelbout (CTO) 曾在 Microsoft 負責 Lobe 專案。
Universe: 移動端網站構建平臺,幫助使用者在手機上建立和釋出網站,不用寫程式碼,成立於2018年,支援電子商務功能,使用者可以在自己網站上銷售商品或服務。
Lobe:讓使用者無需程式設計就能建立和訓練機器學習模型。Lobe 提供了一個直觀的、圖形化的使用者介面,使用者可以透過拖放方式匯入資料、設計模型、並即時檢視模型的訓練和預測結果。使得沒有程式設計背景的人也能參與到 AI 模型的開發。Lobe 最初是獨立的初創公司,後來被微軟收購。
融資
2023年3月Sequoia Capital領投了250萬美元的種子輪,跟投包括Terrence Rohan,Designer Fund,BoxGroup
AI 影片編輯
Captions
產品 Update
Captions 由 Snap 的高管在 21 年創立,定位是 AI-powered creative studio,主打移動端短影片剪輯,但相較 CapCut 更聚焦於 Talking Video(人物口播類影片)和字幕相關功能,整體使用體驗更簡潔易上手,符合歐美使用者的使用習慣。Captions App 沒有免費版本,所有創作者必須付費才能使用,定價為 ~$10 美元/月。
Captions 提供完整的短影片生產工作流程功能,涵蓋從前期到後期的各個環節:在前期製作階段,支援透過 AI 自動生成劇本;在製作階段,提供即時錄製和提詞器功能;在後期製作階段,支援影片剪輯、將 YouTube 長影片生成短影片片段,以及透過 AI 進行配音,全面滿足短影片內容創作需求。
近半年,Captions還是將重點放在加強Talking Video的能力,包括 AI Skits(兩個AI形象相互討論的影片),AI Twins(克隆)。另外,Captions也在向其他被使用較多的場景擴充套件,比如一鍵生成影片廣告、AI自動化編輯、3D avatar、Voice Clone。
AI Skits(兩個AI形象相互討論的影片)
團隊
Captions 的 CEO 來自 Snap,曾經和他的 Co-Founder 在 Locallytics 共事,口碑很好,Sequoia Capital 等天使輪投資者都是 bet 人的邏輯進行的投資。
CEO – Gaurav Misra:CS@BU,曾陸續在 Lattice Engines、Microsoft、Localytics 作為 SWE 工作,16 年加入 Snap,晉升為 Head of Design Engineering 負責新產品的軟體開發 + 設計團隊,21 年離職創辦 Captions。
COO – Dwight Churchill:作為開發者陸續在 Gilt Groupe、Taboola、Localytics 等工作公司,16 年到 19 年在高盛 Marcus 團隊負責 Clarity Money 的產品,隨後在 Klaviyo 作為產品經理工作了一年,21 年離職創辦 Captions。
融資
2024年7月29日完成6000萬美元的C輪融資,由Index Ventures領投,老股東Kleiner Perkins、紅杉資本和Andreessen Horowitz以及新股東Adobe Ventures、HubSpot Ventures和Jared Leto參與投資。融資總金額超過 1 億美元,公司估值為 5 億美元。
更早輪次的主要投資者是 Sequoia Capital、a16z、KP 3 家一線基金,具體的專案負責人都有 To-C 從業或投資的經驗。
Veed
簡介
Veed 是一個在瀏覽器端的專業影片編輯器,功能全面,使用者評價它“非常容易上手,提供完整的剪輯功能,字幕功能也很不錯,但價格稍貴”。Basic 方案每月收費 12 美元,Pro 方案每月收費 24 美元。每月有 1200 萬用戶,其中 100,000 名付費訂閱使用者。Veed 由 Sabba Keynejad 於 2018 年創立,透過bootstrap的方式發展起來,目前已獲得 Sequoia Capital 的投資。
從首頁可以看到,veed 目前已經由一個general 的編輯工具,變成了場景導向的產品了,general 的編輯濃縮到"create new project"這個功能上,record video, 生成 AI Avatar,長影片轉短影片,text to video 以及提供了大量的模板。另外,還有一些使用者常見的需求作為單獨的入口,比如移除背景、生成字幕、翻譯多種語言、eye contact、移除背景音、智慧剪輯停頓。最近釋出了 Video GPT,使用 ChatGPT 的 GPT 的影片創作工具。
總體來看,veed這家公司偏傳統,AI功能很全,但效果比較一般,更像一個網頁端的影片編輯器,不斷地加入一些AI feature。
團隊
CEO Sabba Keynejad,曾是自僱的產品設計師,並在創意設計公司FITCH和The Partners工作。擁有倫敦藝術大學中央聖馬丁學院的設計與視覺傳播學士學位。Co-founder Tim Mamedov, 2017年畢業於倫敦國王學院,擁有計算機科學學士學位。畢業後就創業,創立了 VEED.IO。
兩人在駭客馬拉松上相識,Keynejad使用了個人積蓄的4萬英鎊來啟動公司。公司成立初期,他們曾嘗試籌資但失敗,陷入經濟困境。後來Mamedov找到了一份BT的合同工作後,將自己一半的工資交給Keynejad來繼續推動公司的發展,這種情況持續了六個月。目前 veed 年收入從零增長至2600萬美元。
融資
Sequoia領投3500萬美元的A輪融資。
Creatify AI
簡介
2023年成立,核心是幫助企業製作影片廣告,企業提供產品URL或描述,在幾分鐘內自動轉化為精煉營銷內容,減少用於影片廣告製作的時間和資源。Creatify 也可以生成適合不同平臺的內容。這對於本身沒有足夠營銷預算的小型企業和初創公司特別有價值,因為這些企業本身沒有足夠的營銷預算。近半年,這也是capcut的發展重點。
產品的主要功能包括:
1. 短影片廣告製作:能夠將產品URL轉換成影片廣告(或手動上傳)。
2. AI Script Writer:大語言模型將自動判斷產品主要賣點,自動生成多個廣告指令碼,供使用者選擇
3. 生成預覽影片,包括AI Avatar頭像:根據選定的文字指令碼內容,Creatify自動生成分鏡劇本和數字人內容。1分鐘左右自動渲染生成多個可以預覽的廣告片段;提供超370個AI頭像。URL to video 有多種樣式可以選擇
4. 雲剪編輯功能:可調整每一幀的物料、文字、字幕、特效元素
5. 渲染匯出成片
另外還包括功能:
Text-to-Speech:提供140多種AI語音,為廣告配音
• Custom Avatar自定義頭像:使用者可以將自己的形象轉換成一個自定義的AI頭像,保持一致的形象
• Batch Mode批處理模式:允許使用者組合產品網址、指令碼、模板和AI頭像來生成多個廣告版本
團隊
Creatify 的團隊來自 Meta、Google、Snap 和陽獅集團(法國最大的廣告傳播公司)等。
• CEO Yinan Na:清華大學本科、斯坦福大學計算機碩士。曾在Snap負責內容稽核和開發Discover產品,為Meta Feed廣告團隊的早期成員,創立了Meta的首個影片廣告模型。
• Chief Scientist Ledell Wu:北大本科、多倫多大學計算機碩士。曾在FAIR、BAAI任職,主導開發StarSpace模型,並參與PyTorch-BigGraph專案。
• CTO Xin Zhou:北京交通大學本科、紐約大學計算機碩士。曾任Meta Reels推薦平臺工程經理及Airbnb定價團隊技術主管。
Heygen
產品 Update
Heygen近半年圍繞數字人主線不斷增加新功能,包括所有免費使用者都可建立數字分身、根據PPT/PDF自動生成帶avatar的presentation影片、Motion 1.0 全身數字人,也在持續推出新的avatar形象。其他新功能還包括可以直接輸入產品URL生成數字人營銷影片、長影片剪輯成短影片、配音升級等等。
OpusClip
簡介
Opusclip 2022年成立,是一款專注於將長影片批次生成短影片的工具,功能包括自動裁剪影片、調整影片大小、新增字幕、自動裁切人物主體、生成標題和文案、並新增字幕與emoji表情,用於YouTube Shorts、TikTok和Instagram Reels等平臺上。目前使用者已經突破 600 萬,ARR 預估在 2000 萬美金左右。 billboard.com、西班牙電信以及 Univision 等也是 OpusClip 的客戶。
Opus Clip 的主要使用場景包括:內容創作者將長影片製作成適合 YouTube 和 Instagram 等平臺的短片;營銷人員快速生成宣傳影片;社交媒體使用者保持穩定內容輸出;教育工作者將講座或課程製作成簡短片段。然而,其侷限在於僅支援人物出現在影片中的場景,對 vlog、MV 或遊戲類影片的批次處理能力有限,插入圖片或表格等內容需要藉助其他工具。
CEO 趙洋曾擔任 LinkedIn 使用者體驗設計師,並於2015年聯合創立再惠科技。他將 Opus Clip 定位為自主影片編輯代理,致力於根據使用者反饋和內容偏好,自動進行影片攝取、理解和剪輯。公司在美國組建新團隊,並推出了多模態 AI 剪輯工具 ClipAnything。該工具透過視覺、音訊和情感線索剪輯影片,核心功能包括:
1. 智慧影片分析:分析影片每一幀,識別物體、場景、聲音等,併為片段的傳播潛力評分。
2. 個性化剪輯:透過使用者自定義prompt,捕捉關鍵時刻。比如“所有走紅毯的片段。”
3. 智慧重構:自動調整影片比例,最佳化內容適應不同社交平臺。
融資
OpusClip剛剛完成了 A 輪融資,金額為 3000 萬美金,Millennium New Horizons 領投,Samsung Next、GTMfund 和 DCM Ventures 跟投。
Viggle
簡介
Viggle 的核心能力是用 AI 讓圖片+影片組合生成新內容。上傳一張照片,再上傳一段人物跳舞、踢球或任意的動作影片,結合生成,就可以將照片中的人臉替換到影片中的人臉上,做出影片中人物的動作。
Viggle的破圈方式是與TikTok做了很好的結合,實現了病毒式傳播。因為模型生成的影片質量本身比較粗糙,所以Viggle不靠影片的精緻程度取勝,而是主打鬼畜好玩,包括卡通人物踢足球,美女踢足球,足球明星跳舞等等。相比之前的通義千問、Boogie AI 等跳舞換臉工具,Viggle 模板更多,很戳使用者喜歡的點。另一個巧妙的點是使用者也可以自己製作模板,製作門檻非常低,可以是在足球比賽中節選的鬼畜畫面,也可以是自己錄製的跳舞影片,這讓viggle的內容生態可以很快的繁榮起來。
產品 UI :
不過viggle的使用者數量在爆火之後快速下降,僅靠一時的新意去吸引使用者是不夠的,AI產品還是需要找到能夠讓使用者長期留在平臺上的功能。
排版:楊樂樂
延伸閱讀

AI-native 應用長什麼樣?

Anthropic 創始人最看好的領域,AI for Science 深度解讀

AI 影響最大的行業?LLM 如何讓教育產品化

Anthropic 聯創:機制可解釋性的秘密

Dario Amodei:Scaling Law 還沒遇到上限

相關文章