Cisco 曾在 2018 年做過測算,全球已經有超過 75% 的資料是影片內容,網際網路影片資料流量超過 50%。影片搜尋市場存量很大,目前主要被 YouTube、TikTok 等影片巨頭佔領。但與文字資料不同,影片中的資訊仍然難以透過簡單的 Ctrl+F 來查詢,其主要困難在於跨模態資訊的理解、影片的高計算負擔,以及可以應用於多領域的模型架構。2017 年 Transformer 的出現使得模型可以高效並行處理長序列和捕捉長期依賴關係,2022 年LLM 的出現進一步了增強視覺-語言模型架構,近兩年的影片理解模型的發展已經證明了影片領域的模型可以真正完成理解任務。好的影片搜尋方式能夠帶來巨大的使用者粘性和商業價值,因此大量的影片資產就像未被採掘的金礦。另外從增量來看,影片智慧問答、摘要、分類都是新的應用,最快跑出來的好模型、好產品有機會快速搶佔市場份額。
Twelve Labs 成立於 2020 年,透過 API 為企業和開發者提供影片領域的多模態影片基礎模型,主要用於影片多模態檢索,使用者可以透過輸入文字、圖片來尋找影片中的任意內容(text / picture to any);還推出了影片智慧問答、智慧分類的功能。
Twelve Labs 的願景是成為 ChatGPT for video,目前是影片多模態搜尋領域最好的產品,其最大的亮點是影片搜尋效果非常準確,能夠理解抽象概念,在同類中處於絕對領先的位置,客戶普遍評價其搜尋質量很好,搜尋速度快、泛用性好。影片基礎模型的壁壘很高,從優質的影片資料、處理資料的 infra、index 系統、訓練方式,甚至到和晶片公司(投資方)的合作,Twelve Labs 都構建了一定的 "先發優勢"。
公司自 2020 年成立以來融資超過 7,700 萬美元,最新輪次是 A 輪。股東包括 Nvidia, Intel Capital,Samsung NEXT Ventures,Index Ventures,Radical Ventures 等,此外公司還吸引多位學術界、業界的知名人士投資,例如李飛飛,Silvio Savarese(斯坦福大學計算機科學副教授、Salesforce 首席科學家),Alexandr Wang( Scale AI 創始人)等。

01 Thesis
02 Risk
03 Twelve Labs 的產品
04 影片理解技術的關鍵問題
05 Twelve Labs 的影片模型
06 商業模型及經營情況
07 團隊成員
08 市場與競爭
09 融資歷史
01.
Thesis
• 影片的存量市場巨大,而搜尋需求遠未被開發;另外從增量來看,影片智慧問答、摘要、分類都是新的應用
根據 Sandvine 的資料,從 2021 年到 2022 年上半年,Google、Meta 的網際網路流量佔比分別下降 7.1%、8.7%,而 Netflix 的流量激增 4.4%。2022 年上半年影片流量佔據超過 65% 的網際網路流量。影片內容的需求激增說明了人們從社交平臺轉向更具演算法個性化的影片平臺的趨勢,這促使非純影片平臺也在更多地嵌入影片內容。

2021 和 2022 H1 網際網路流量佔比前 6 大公司

2022 H1 影片流量佔網際網路流量超 65%
目前影片搜尋市場存量很大,主要被 Netflix、YouTube、Disney+、TikTok 等影片巨頭佔領,前十大影片應用流量佔比超過 52%。根據 Nielsen 的資料,2021 年美國成年人觀看影片的時間估算達到 5 小時 21 秒,接近於每天總清醒時間的四分之一。人們每天都會消費和建立大量的影片內容,巨大的影片流量意味著對影片精準搜尋、分類的需求日益顯著。但與文字資料不同,影片中的資訊仍然難以透過簡單的 Ctrl+F 來查詢。影片搜尋市場能提供的不僅僅是搜尋功能;它還包括了內容管理、廣告投送和內容推薦,這些增值服務都能透過提高使用者參與度從而促進內容消費、增加平臺和內容製作者的收入來源。好的影片搜尋方式能夠帶來巨大的使用者粘性和商業價值,因此大量的影片資產就像未被採掘的金礦。

前十大影片公司
近兩年的影片理解模型的發展已經證明了影片領域的模型可以真正完成理解任務,其中,Twelve Labs 自研的影片理解模型可以實現對影片的多模態搜尋(即可以透過文字/影像對影片中的聲、畫、音、圖等各種資訊進行精準的搜尋),在目前小規模的使用中客戶已經感受到了極高的價值。如果影片多模態搜尋能夠被大範圍應用,那麼有可能是對影片應用的一次變革。
另外從增量市場上看,Twelve Labs 推出的影片理解(智慧問答、摘要)、影片分類功能目前位於 0-1 的市場。是 LLM 的出現催生了影片問答這類 high-level 的影片理解能力,最快跑出來的好模型、好產品有機會快速搶佔市場份額。影片智慧問答、摘要可以在生產力場景提高人們工作效率,例如在工作中智慧總結影片以及音訊、在營銷中智慧生成營銷的標題與標籤等。影片智慧分類可以在影片內容管理、影片智慧剪輯的場景中加以利用。
• Twelve Labs 是目前影片多模態搜尋領域最好的產品:搜尋結果準確、速度快、泛用性好、產品運營能力強
Twelve Labs 最大的亮點是影片搜尋效果非常準確,能夠理解抽象概念,在同類中處於絕對領先的位置,客戶普遍評價其搜尋質量很好,搜尋速度快。Twelve Labs 的客戶在選擇供應商時經常會比較不同的模型和方案,儘管有其它的影片搜尋模型在準確度測試中能夠接近 Twelve Labs,但它們基本無法做到像 Twelve Labs 這樣能夠理解抽象的概念(例如蒙太奇概念),它們在實際應用中的理解力遠不如 Twelve Labs。有一些傳統的方案影片理解能力更強,但是傳統方案往往需要人工做大量的監督和標註,欠缺質量和效率的平衡。Twelve Labs 的搜尋處理時間是影片原長度的 1/4,對於過往依靠傳統搜尋方法的客戶來說,"這個速度幾乎可以被認為忽略不計"。
Twelve Labs 產品強大的影片理解力背後是其訓練方式的不同。與大部分同類方案的從影像開始、逐幀訓練不同,Twelve Labs 的模型從影片開始訓練,透過輸入整秒的影片片段和使用分片技術,讓模型更好地理解時間跨度內的概念。Twelve Labs 訓練的單位是涉及到抽象概念的場景邊界,確定場景邊界後再移除冗餘幀,以提高模型在捕捉空間和時間上下文方面的能力和效率。
除了理解力之外,Twelve Labs 在泛化方面也表現更強。如果客戶需要訓練 Twelve Labs 識別新的影像(例如特定的 logo),Twelve Labs 只需要做少量的訓練即可。對比同類型的商用產品(例如 Google vision API),它們則需要客戶建立模型做大量的訓練。
客戶普遍認為 Twelve Labs 的團隊樂於溝通、積極吸收反饋、產品迭代速度快。AI 時代的公司不像網際網路公司那樣,依靠 "產品—使用者—資料" 就能實現圈地閉環。但 Twelve Labs 作為影片理解領域第一批跑出來的公司,可以用 "先發優勢—使用者反饋—更好的產品" 構建自己的競爭優勢。例如,公司最初是以影片嵌入模型 Marengo 為核心提供影片搜尋功能,但在客戶使用的過程中,公司發現使用者希望產品可以提供自動為影片生成文字、影片 QA 等輔助功能,於是公司開始開發影片語言模型 Pegasus,二者實現互補,為使用者提供完善的產品。
02.
Risk
• Twelve Labs 的影片搜尋產品能否突破技術瓶頸率先實現大規模應用?
Twelve Labs 目前的客戶群體主要是擁有中小型影片庫的企業,這些企業往往需要細顆粒度地處理影片,Twelve Labs 的高質量影片搜尋產品極大改善了傳統方案所需的時間和成本。這類客戶能夠向下遊客戶收取相對高的溢價,因此對於 Twelve Labs 的價格敏感度較低。但據客戶反饋,如何實現大規模影片搜尋可能是 Twelve Labs 正在或即將面臨的商業化瓶頸和技術瓶頸。
1)從商業化的角度看,如果客戶的影片量再往上加幾個量級,按照目前 Twelve Labs 的搜尋方法成本很高,客戶只有用 Twelve Labs 的產品創造更大的商業價值才能夠負擔這樣的成本。而目前影片搜尋的概念相對比較新。一些影片處理領域的企業反饋,它們的下游客戶很多還在使用傳統的方式管理影片、處理影片內容,因此影片搜尋這個概念還沒有在下游客戶中有規模化的成熟盈利模式。所以 Twelve Labs 以目前的成本可能較難獲得爆發式增長。我們猜測 Twelve Labs 至少是每秒儲存一次向量,這樣如果有超過 1 萬個影片成本會非常高,可能需要每 10 秒或每 30 秒儲存一次才可以達到成本和質量的平衡。客戶反饋目前 Twelve Labs 可能正在開發這種靈活調整成本和質量的功能。如果他們能夠提供這種功能,則有機會拿下有更多影片的客戶。
2)從技術的角度看,目前 Twelve Labs 能夠處理的影片數量可能面臨物理意義上的限制。影片向量儲存在資料庫中,必須在記憶體中維護資料,這種方法對於可以處理影片的數量物理上的限制可能在 10,000 到 100,000 小時,這意味著無法處理超過這個數量的影片。YouTube 目前無法實現語義搜尋的原因是無法真正處理超過數以億萬量級的影片量。現今主流方法都是將向量儲存在資料庫中。因此要解決這個問題需要在儲存資料方面進行新的思考。如果 Twelve Labs 能夠從基礎架構或資料儲存上解決可擴充套件性的問題,則有機會可以為像 YouTube 和 Vimeo 這樣的大型影片庫解決搜尋問題、獲得更大的市場。
• 影片多模態模型正處於 LLM 公司和 Big Tech 研發的主航道,潛在競爭風險大
在下游客戶選擇供應商的過程中,與 Twelve Labs 最直接的比較物件主要是 Google、Amazon 和 Microsoft 相應的影片理解模型。儘管客戶認為 Twelve Labs 的產品競爭力目前勝於這些 Big Tech 的成熟商用模型,但影片以及多模態理解目前是在這些 Big Tech 以及 LLM 公司的主航道上,它們還有許多正處於 stealth 階段、正在研發、或者是正在進行商業化的模型(例如 Google 的 Gemini Pro (1.5)、VideoCoCA 等 )。這些處於研發、商業化嘗試階段的模型暫時沒有產品功能、客戶群體、應用成熟度能與 Twelve Labs 匹敵的,但它們是 Twelve Labs 未來最大的潛在競爭者。
03.
Twelve Labs 的產品
Twelve Labs 的產品最核心的功能是影片搜尋(Search),使用者可以僅透過文字/圖片輸入就搜尋出影片中的任何相關內容。此外,Twelve Labs 還開發了圍繞影片的場景開發了不同功能:影片分類(Classify)功能可以快速對影片進行標籤、分類;影片智慧問答(Generate)功能可以對影片內容進行總結、摘要、問答。

Twelve Labs C 端 playground 上的
Search、Classify、Generate
Search
Search 是 Twelve Labs 最核心的產品,使用者可以透過輸入文字、圖片來尋找影片中的任意內容——可以是畫面、聲音,甚至是畫面中的人物、動作、文字、圖片等。


Search 的使用方法非常簡單,企業客戶可以直接透過 API 將其與自有影片庫整合;C 端使用者則是在網頁端上傳影片或直接輸入 YouTube 影片連結。從搜尋效果上看,Twelve Labs 的客戶們均認為目前市面上還沒有完全可以與 Twelve Labs 的影片搜尋比擬的產品。產品可以在影片長度 1/4 的時間內處理影片,然後實現搜尋(例如 1 h 的影片需要 15 min 的等待時間)。由於搜尋效果良好,因此企業客戶在等待時間上忍耐度較高。
Search 產品的客戶群體主要包括(1)影片網站的使用者,例如 YouTube 的使用者;(2)專業的影片檔案庫,例如美國宇航局的檔案網站;(3)擁有影片素材庫的企業。應用場景包括:影片網站和企業影片的內容搜尋、內容稽核、證據搜尋、製作和編輯影片、情景廣告等。
Classify
Classify 功能可將影片自動進行分類,使用者可以自定義分類標籤,也可以採用產品中的預定義標籤。

傳統的影片分類的痛點在於需要大量的人力、時間,並且依賴於固定的類別分類法(例如 YouTube 預設提供的是 15 個類別),分類效果單一,限制了使用者靈活的需求。而 Twelve Labs 的多模態理解能力則可以幫助靈活拓展分類標籤、快速對影片分類。
影片分類功能的最直接的應用場景是社媒個性化推薦,此外還有監控分類、影片內容管理、廣告商尋找達人、體育影片分析、自動影片剪輯,語境廣告(根據影片內容進行精準廣告投放)等。
Generate(影片智慧問答)
Generate 功能是為影片生成總結和摘要,使用者也可以透過 prompt 對影片的任意內容進行提問。產品可以透過 API 支援本地雲、私有云以及內部部署。其應用場景包括在工作中智慧總結影片以及音訊、在營銷中智慧生成營銷的標題與標籤、在即時監控中協助警方工作等。

04.
影片理解技術的
關鍵問題
影片的研究最開始是影像研究的拓展,傳統上是透過一些數字影像訊號處理方法來實現 low-level 的影片感知(如識別顏色、紋理)。2013 年以來深度學習和計算機視覺的興起讓人們開始使用 AI 來執行影片感知任務,但初期仍然侷限於有限的基礎任務,例如目標檢測和影像分割等。
當前研究的主流是較高層次的影片理解(如識別物體、動作或事件)。影片理解的目的是讓計算機像人一樣“看懂”影片內容。下圖給出了影片理解研究的範疇,包括視覺-語言理解和影片生成兩大領域。

影片理解的研究範疇
(來源:Foundation Models for Video Understanding: A Survey)
從 2000 年到 2022 年,影片生成領域的 publication 在影片理解的研究中增長數量最多。而影片-語言理解範疇的影片檢索、影片問答(QA)、影片描述的研究在 2020 年前後才逐漸湧現,目前仍處於 0-1 的商業化階段。本文聚焦於討論視覺-語言理解。

影片理解研究在 2000 -2022 年的發展
( 來源:Foundation Models forVideo Understanding: A Survey)
視覺-語言理解任務可以分為影片檢索、影片描述、影片問答三個低、中、高層級的任務(如下圖)。其主要挑戰在於:1/ 視覺-語言模型架構如何效捕捉複雜的跨模態互動。影片結合了視覺和聽覺資訊,這涉及空間互動和時間互動兩個方面。空間互動探討物體之間的關係,而時間互動捕捉影片幀之間的順序依賴關係。另外不同的視覺表情、肢體語言、口頭語言以及影片的整體語境都會影響整體含義,因此需要多模態基礎模型和各種資料來源的整合,以捕捉影片的豐富性和多維性。2/ 模型訓練方法如何讓模型架構適應多工、多領域。與語言模型在各行各業有許多成熟的細分應用場景不同,影片模型內容天然地涵蓋多樣化的內容,所以獲得一個能夠用於多工、多領域的模型位元定任務的模型更有現實意義。3/ 如何有效地儲存、標註、計算影片資料。影片處理與文字或影像處理相比關注度較少的一個原因在於其的高計算負擔。影片的大小遠大於文字或影像,計算能力問題在 Transformer 架構中尤為明顯,因為 Transformer 採取的 self-attention mechanism 使得 token 長度的計算複雜度呈平方增長。

視覺-語言理解任務的低、中、高層級
( 來源:Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives)
其中,視覺-語言模型架構是最關鍵的問題。視覺-語言模型架構的發展大致可分為三個階段。1/ Pre-Transformer 階段的研究集中在如何有效融合影片和語言特徵,代表性架構有單模態編碼器(如 CNN、RNN);語言編碼器 (如word2vec);以及跨模態編碼器。2/ Transformer-based 階段引入了 self-attention mechanism,使得模型可以高效並行處理長序列和捕捉長期依賴關係。這一階段同樣也有單模態、多模態編碼器。典型的單模態編碼器有如 Vision Transformer 用於影片編碼、BERT 用於語言編碼。但是單模態模型僅專注於單一型別資料,我們判斷影片的性質使得影片理解的發展必然需要多模態模型。3/ LLM 的出現進一步了增強視覺-語言模型架構,此階段的架構包括 LLM 作為控制器的方法和 LLM 作為輸出生成器的方法。後者是主流方法,由於 LLM 在訓練過程中從未見過影片,因此需要一個對齊的步驟將影片的視覺語義和 LLM 的語義對齊。
05.
Twelve Labs 的
影片模型
Twelve Labs 的 vision 是建立 video-native 的多模態影片基礎模型。現階段 Twelve Labs 的核心自研模型有兩個,一個是影片基礎模型 Marengo-2.6,用於執行影片搜尋和分類任務。但從可以執行的任務來看這還算不上是一個通用的影片基礎模型。該模型最大的特點是將影片轉換為多模態影片原生嵌入,這種嵌入空間對於跨模態搜尋和分類非常有用,也是 Twelve Labs 的優勢所在。另一個是影片-語言模型 Pegasus1,用於執行影片智慧問答任務,是視覺理解和文字理解之間的橋樑。據使用者反饋,Twelve Labs 產品的優勢特點在於對影片內容的理解力、可以實現多模態搜尋、以及可以透過 API 實現端到端的簡單整合。另外從基準測試效果上看,Twelve Labs 的準確性領先;從應用上看它還可以透過微調應用到特定領域。

除了核心模型外,Twelve Labs 平臺架構中還有 Engine options 是用於處理不同型別的資訊,Processing Engine 用於支援下游的 3 個核心功能:搜尋、生成,和分類。
影片基礎模型 Marengo-2.6:
Marengo-2.6 將影片轉換為多模態影片原生嵌入,從而可以 scale up 執行任務,無需儲存整個影片。Marengo-2.6 已經在大量影片資料上進行了訓練,訓練重點是在綜合多模態資料集上進行自我監督學習。目前的訓練資料集包含 6000 萬個影片、5 億張圖片,和 50萬段音訊。模型可以識別影片中的實體、動作、模式、運動、物體、場景等多種元素。因此,Marengo-2.6 支援任意到任意的檢索任務(包括文字到影片、文字到影像、文字到音訊、音訊到影片和影像到影片)。但目前僅提供文字/影像輸入執行搜尋任務,文字輸入執行分類任務,公司表示未來很快會發布更廣泛的基準模型。此外,模型還透過引入 Reranker 模型,增強時間定位功能,獲得精確的搜尋結果。

Marengo 架構
影片語言模型 Pegasus1:
目前開放的 Pegasus1 open-beta version 擁有大約 170 億個引數( Pegasus1 alpha version 擁有大約 800 億個引數), Pegasus1 透過將文字和影片資料整合到一個共同的嵌入空間,在視覺理解和文字理解之間架起了一座橋樑,支援從影片到文字生成的多種功能。Pegasus1 目前被用於處理影片內容上下文中生成或理解自然語言的任務,例如總結影片和回答問題。該模型集成了三個主要元件來處理和解釋影片資料:
• 影片編碼器模型 Video encoder model:該元件基於 Marengo 嵌入模型,將影片和音訊作為輸入,透過分析幀及其時間關係,輸出封裝了視覺、音訊和語音資訊的多模態影片嵌入。
• 影片語言對齊模型 Video-language alignment model: 該元件將影片編碼器模型 video enconder model 生成的影片嵌入資訊與文字領域對齊,確保大語言模型解釋影片嵌入資訊的方式與解釋文字標記的方式相似。該模型輸入影片嵌入,輸出與影片語言對齊的嵌入。
• 大語言模型-解碼器 Large language model – decoder: 該元件根據使用者提供的 prompt 解釋對齊的嵌入資訊,並將資訊解碼為連貫、人類可讀的文字。該模型輸入影片語言對齊嵌入,使用者提示;輸出文字。

Pegasus 架構
06.
商業模型及經營情況
公司在成立一年多(2021 年 3 月)後,開始擁有付費客戶。2023 年 6 月,公司推出了 Search API。目前已超過 2 萬名開發者在使用該產品,每月 API 呼叫次數就已突破百萬。2023 年,公司接觸了 10 多個不同行業的數百家客戶。客戶主要有三類,一是娛樂媒體公司,它們要處理大量細顆粒度的影片;二是廣告相關的公司,影片的上下文理解可以幫助他們更好地插入廣告;第三是公共安全公司,它們需要智慧監控服務。
因此,Twelve Labs 目前主要的客戶是擁有、或需要處理中小型影片庫的企業級客戶。其商業模式是為開發者和企業使用者提供 API,按時長收費。C 端使用者亦可以在公司官網上使用產品,但不是目前主要收入來源。

產品收費模式
客戶案例
• dSky.ai
dSky.ai 主要在好萊塢和媒體制作行業幫助製造電影、電視。它使用 Twelve Labs 技術幫助客戶管理和快速搜尋大量的影片檔案。dSky.ai 評價 "Twelve Labs的價值是將影片搜尋從無限長的時間縮短到無限小" 。dSky.ai 選擇 Twelve Labs 的原因在於價格競爭力、技術優勢(Twelve Labs的技術能夠從少量訓練資料中進行泛化)以及初創公司合作的靈活性。dSky.ai 每年花費約 100 萬美元,Twelve Labs的費用佔到了dSky.ai向客戶收費的20%到40%。
• Source Digital
Source Digital 是一家內容增強公司,透過為影片標註人物和產品,分辨影片的最佳廣告位。使用 Twelve Labs 每月花費約 1 萬美元,使用後影片購物廣告使用者點選次數增加了 3 倍。公司評價 "Twelve Labs 在影片搜尋有 97% 的準確率,而同類的Google video AI 只有40-50%" ,但是公司認為 "Twelve Labs 的收費太貴,不是所有下游客戶都需要使用。"
• MindProber
MindProber 記錄使用者觀看電視過程中的生理資料,為廣告商提供最佳廣告插放位置。公司利用 Twelve Labs 技術檢測影片中的 logo 並標記使用者生理資料。公司評價 "相比於Google Vision API,Twelve Labs 的泛用性更強,價效比更高,可以開箱即用。" 公司認為其傳統替代方案(如LogoGrab)的精度更好但是需要非常多人工干預,精度和速度無法平衡。
• Virtulley
Virtulley 為企業組織遠端活動,使用 Twelve Labs 提供的影片搜尋和分析服務記錄參與者反應,透過參與者的反饋提高活動質量,並剪輯精彩片段。每月花費在 7000~8000 美元之間。公司認為 "Twelve Labs收費較高,但其影片搜尋和分析功能吸引力很大。"
媒體領域的經營合作情況
媒體制作公司是 Twelve Labs 目前佔比較大的客戶群體。在媒體制作中,快速找到理想的影片內容至關重要。傳統上,媒體資產依賴手動打標籤管理或元資料搜尋,存在準確性和可擴充套件性問題。

示例 : 傳統上,使用元資料搜尋
( 來源:MediaCentral 產品 )
因此 Twelve Labs 的技術在媒體和娛樂領域有廣泛應用,例如最佳化影片資產歸檔、管理和製作流程。語義搜尋功能可以根據使用者的搜尋提供推薦,讓影片編輯者接觸到他們可能沒有考慮過的潛在相關內容,在加快工作流程的同時激發新的創意。另外還能應用在透過個性化推薦提高使用者參與度、識別最佳廣告機會等。

MediaCentral 中的推薦引擎示例
( 來源:MediaCentral 產品 )
Twelve Labs 正在積極拓展與媒體資產管理(MAM)提供商產品的整合,以提高使用者的影片處理體驗。例如:與 Blackbird (AIM:BIRD) 的雲原生影片編輯平臺合作,將產品作為外掛整合到其平臺中,提升影片編輯效率;與媒體資產管理和工作流程自動化解決方案公司 EMAM 合作,將產品整合到其平臺中。與大資料傳輸服務公司 MASV合作,簡化影片處理,提升生產和編輯效率。與 CineSys 的影片播放平臺合作,簡化後期影片製作流程。與社交媒體資料分析 Phyllo合作,實現影片內容的高效搜尋和詳細分析,從而最佳化營銷策略。

Twelve Labs 與數字化轉型公司 Arvato 合作,讓體育行業的客戶可以用自然語言搜尋準確影片內容
07.
團隊成員

創始團隊
2021 年 3 月,CEO 和四位聯合創始人一起創辦了公司。目前團隊大約 80 多人。
CEO Jae Lee 出生在首爾,在 10 來歲的時候隨著在田納西大學攻讀統計學博士的叔叔來到了美國,從小接觸了許多統計學的方法,11 歲就開始學習 Matlab,後來獨自留在在美國繼續自己對統計學和計算機科學的研究興趣以及學業。Jae 和 Aiden Lee、Sungjun Kim 是一起在韓國軍隊(韓國國防部的 R.O.K Cyber Operations Command 部門)作戰的戰友,他們在軍隊中一起做了很多影片的底層研究,熱衷於打造智慧系統,做了許多多模態影片理解的研究。他們曾想在學術界發展,但是他們想做的研究的產品需要大規模的資料,於是一拍即合一起創業。Jae 和另一位聯合創始人 Soyoung Lee 是十幾年的老朋友,Soyoung 喜歡和開發者交流、喜歡技術。
我們認為 Twelve Labs 的核心團隊是影片理解賽道上的一個比較好的團隊。1/ 前面我們已經分析,影片理解模型的大規模商業化需要在基礎研究上有大的突破。儘管從團隊的學術背景上看 Twelve Labs 不是該領域的最強團隊,但從已取得的模型效果上看是處於領先位置,未來的關鍵在於能否在基礎研究上持續取得突破。2/ 作為前沿領域的 AI 公司,Twelve Labs 需要在工程上能夠快速迭代、快速測試不同的想法,並且在獲得實驗結果後快速部署,才能持續保持競爭優勢。Twelve Labs 的團隊在工程能力上較強,團隊專案經驗豐富。2021 年,公司在 Microsoft 主辦的 ICCV VALUE 挑戰賽中一舉成名,以優異的成本、效能在騰訊、百度等對手中名列前茅。此次比賽是 Twelve Labs 高速成長的推進器,為公司吸引來了來自 Index Ventures 的第一筆種子輪投資,隨後飛速成長、建立聲譽。3/ 產品力和運營能力也是新型領域公司商業化的關鍵。客戶普遍反饋 Twelve Labs 的團隊溝通積極、能夠及時響應反饋和調整產品。例如,影片生成文字的功能(影片語言模型 Pegasus1)正是在客戶的強烈要求下推出的,為客戶實現與影片搜尋相輔相成的功能。

08.
市場與競爭
目前的影片搜索市場
VerifiedMarket 估計 2023 年影片搜尋的市場規模大約在 283 億美金,這部分的市場主要來自於 "傳統" 玩家,它們利用自然語言處理、計算機視覺、機器學習和資料分析等技術的組合提供搜尋演算法,這些演算法能夠根據使用者查詢或偏好來理解、索引和檢索影片內容,主要服務於安全和監控、智慧家居、影片管理等行業。玩家有如 Agent Vi、Genetec、Verkada、Vivint、Bosch (Bosch Sicherheitssysteme)、BriefCam、Identiv等。下面列舉了幾家公司的情況:
• Agent Vi:一家企業影片分析軟體公司,主要用於安全領域的監控和保證,其影片搜尋功能包括高階影片分析和搜尋功能。該公司被 Livly 以 6,750 萬美元的價格收購。
• Genetec:一家安全系統領域的公司,提供影片監控、訪問控制和自動車牌識別等解決方案。年收入約為 5 億美元。
• Verkada:一家基於雲的 B2B 物理安全平臺公司,其中影片安全攝像頭是核心產品之一,提供影片搜尋和分析功能。2016 年成立以來融資超過 4.4 億美元。
• Vivint:Vivint 提供智慧家居自動化和影片監控解決方案,其影片搜尋功能集成於智慧家居系統中。市值約 25 億美元,年收入約 16.8 億美元。
這些 "傳統" 玩家提供終端的影片解決方案,提供特定領域的影片產品,但影片搜尋、影片分析是其產品的一項核心功能。所以這部分市場並不是 Twelve Labs 直接對標的市場,而更有可能是 Twelve Labs 的下游市場。市場上在做影片搜尋領域基礎模型的人相對較少,但這方面有大量的 use case,例如上述的監控領域,還有醫療保健、教育、娛樂、工業方面的 use case。
Twelve Labs 的直接競爭者
在客戶選擇供應商的過程中,最直接的比較物件來自三大 Big Tech,例如有 Microsoft Azure video services(已關停)、Microsoft Azure AI Video Indexer、Amazon Rekognition、Google Video Intellignce、Google Vision API。據使用者反饋:Microsoft Azure video services 定價最低但是產品力欠缺;Google Video Intellignce 的準確率不如 Twelve Labs(Twelve Labs 在影片搜尋有97%的準確率,Google video AI 只有40-50%);相比與 Google Vision API,Twelve Labs 更加開箱即用,並且泛用性更強,需要的訓練資料遠小於Google Vision API。除了 Big Tech 外,一些傳統的影片搜尋方案也是競爭物件,例如 LogoGrab 的精度更好但是需要非常多人工干預,精度和速度無法平衡。
從 startup 的角度來說,暫時並未 mapping 到產品功能和客戶群體相似度高的 startup,最相近的是 Gloss AI,其次是細分場景的 comp,具體如下:

此外,對客戶而言,Twelve Labs 的替代方案主要是自行構建影片搜尋系統,這需要大量的工程投入和時間。具體過程包括使用影片轉錄服務將影片轉換為嵌入資料,然後使用 Pinecone、Vectra 或 Perplexity AI 等工具(或開源工具如 FAISS 和 Annoy)進行資料儲存和搜尋。雖然這種方法是可行的,但確實需要耗費大量的工程資源和時間。
Twelve Labs 的潛在競爭者
Twelve Labs 最大的風險來自於 Big Tech 正在研發、而未進入成熟商業階段的模型。Big Tech 在多模態模型的研究範圍很廣,從 Twelve Labs 的三個主要業務:Search、Generate(影片智慧問答)、Classify 來看,Big Tech 各有相應的可比/功能相似的模型。由於模型眾多,我們從客戶訪談以及公司主要對比的 benchmark 中選取了重要對比模型,例如(1)搜尋方面有 Google 的 Gemini Pro (1.5)、VideoCoCA、 Vid2Seq、VATT;北大和騰訊合作的 LanguageBind 等。(2)影片問答方面有 Google 的 Gemini Pro (1.5);Allen AI 研究所的 MERLOT Reserve;以及 Video-ChatGPT、VideoChat2 等。(3)影片標記、內容推薦、搜尋推薦領域則有 YouTube、Spotify 多年深耕其中、應用成熟。
雖然功能相似的模型很多,Twelve Labs 和 Big Tech 的區別主要在於:1/ 從較高的層次來看,Big Tech 主要聚焦的是多模態的研究,只是其中必然或多或少涉及到影片檢索或生成,但他們並不是直接針對影片搜尋、生成的市場,所以影片搜尋、生成只是其研究中的一個小部分,或者只是一個小測試。從目前客戶的反饋上看我們認為這些處於研發階段的模型沒有產品功能、客戶群體、應用成熟度能與 Twelve Labs 同步的。2/ Twelve Labs 在不同的訪談中都有提到,公司長遠的願景的讓 AI 像人類一樣理解世界,而公司採取的第一步是 "影片優先" 的策略。所以我們可以認為,Big Tech 和 Twelve Labs 長遠的 vision 是相似的,不過 Big Tech 的研究 "全面覆蓋" 的,而 Twelve labs 的策略是 "以點破面" 的。當然這也與其商業位置有關,Big Tech 也許並不著急商業化,而作為初創的Twelve Labs需要先做出產品生存立足,再往大的vision 發展。3/ 在影片搜尋中,建立索引和搜尋的成本/時間佔比大約 8:2,因此建立索引的技術路徑是不同多模態模型的主要區別,相應的策略和技術有很多種路徑。4/ 從公司公佈的模型測試上來看,Twelve Labs 模型在三個核心產品對應的任務上,其效能優於主要的可比模型。

Search、Generate、Classify 產品的可比模型
09.
融資歷史
公司於 2020 年成立。至今融資超過 8700 萬美元,最新輪次是 A 輪,由 NEA 和 Nvidia 領投(公司是 NV 投的第一個韓國的初創公司)。公司股東還包括 Intel Capital,Samsung NEXT Ventures,Index Ventures,Radical Ventures,Korea Investment Partners 等,此外公司還吸引多位學術界、業界的知名人士投資,例如李飛飛,Alexandr Wang(Scale AI 創始人)等。

團隊與投資人

融資歷史
**本文僅作為科普分享及學習資料,不構成任何投資建議或金融產品推薦,並且及不應被視為邀約、招攬、邀請、建議買賣任何投資產品或投資決策之依據,文中所涉及的分析、觀點及結論均為作者基於公開資訊的研究和主觀判斷,不代表任何投資機構或金融機構的官方立場,亦不應被詮釋為專業意見。投資有風險,入市需謹慎。**


排版:Doro
—延伸閱讀—