5億美金估值,TikTok想“消滅”它,最會賺錢的AI應用憑什麼?

轉載自公眾號「Founder Park」

兩天時間開發,成功的關鍵是抓住了痛點

a16z 釋出的 2025 年全球 100 大 AI 消費級應用報告中,Captions 被認為是最會賺錢的 AI 音影片應用之一。
憑藉 AI 生成 3D 虛擬形象、AI 剪輯、AI 對口型等功能,Captions 在 2023 年實現快速增長,僅移動端下載量就超過 1000 萬次。
2024 年 7 月,Captions 獲得了 Index Ventures 領投,a16z 等跟投的 6000 萬美元 C 輪融資,這輪融資後,它的估值達到 5 億美元。據第三方資料,其年營收估算高達 900 萬美元。
Captions 目前的使用者數量超過了 1000 萬(大部分是創作者),月活使用者達到 300 萬,而且這些使用者中很大一部分是付費使用者。在獲得這些成就的同時,它的團隊成員還沒超過 100 人。
最關鍵的是,Captions 的競爭對手是 CapCut(剪映國際版)。
Captions 的創立源於創始人 Gaurav Misra 領導 Snap 設計工程團隊的經歷。期間他見證了社交媒體影片的演變——從 TikTok 到 Instagram Reels,再到 YouTube Shorts。他注意到"口播影片"這類創作者直面鏡頭的新形式正在崛起。2020 年,Misra 離開 Snap,與辭去高盛職務的前同事 Dwight Churchill 共同創立 Captions。
最近兩位聯合創始人 Gaurav Misra 和 Dwight Churchill 接受了著名科技播客 Colossus、Lenny 的採訪,就 AI 應用如何尋找 PMF、如何做產品增長與功能迭代等進行了深入的探討,Founder Park 對兩期播客進行了編譯處理。

兩天時間開發,

成功的關鍵是抓住了痛點

Colossus:談談你們為什麼選擇在那時(2020 年)開始,業務是如何發展的?
Gaurav:我們創辦公司時,第一個推出的應用就是 Captions,它是一個為內容創作者打造的影片創作平臺。
我之前在 Snap 工作過,Snap 曾多次嘗試過類似的事情,但都不算成功。影片編輯器的商業化程度很高,你能做的創新幾乎都來自盡可能壓低成本,要在這一領域競爭確實非常困難。
我們最初的想法是透過 AI 來輔助創作影片,利用這個差異化點,人們才會選擇我們。我們發現市場上有語音轉文字的需求,那時這個技術已經相當成熟,但普通人並不瞭解它的精準度有多高,尤其是在處理專有名詞和一些冷僻術語時。
所以,我們的第一個產品,核心功能其實是「自動給影片加字幕」,它是用一個週末的時間臨時拼湊出來的,然後我們就把它放到了 AppStore 上。當第二天早上醒來,發現它已經衝到 AppStore 榜單的頂端了,而我們沒做任何宣傳。我醒來後,給 Dwight 發了一條簡訊,「現在每分鐘人們用這個應用製作 600 個影片。」
這幾乎是一個瞬間成功的故事。但即便是在週末短短兩天的工作中,我們也將應用設計得足夠好,以便能持續收集資料,並且透過這些資料不斷訓練更好的模型,來提供更優質的使用者體驗。
從第一天起,我們的計劃就是:這是一款 AI 應用,使用者使用時,資料會用來不斷改進模型,從而提升使用者體驗
隨著時間推移,我們為應用加入了更多的功能,涵蓋了從指令碼創作到錄製、影片編輯,再到影片分發的整個領域;AI 在所有環節中都發揮作用,而這些環節中都有資料可以收集,用來改進模型。
這正是我們的獨特之處,因為其他公司並沒有像我們這樣注重資料收集,更多的是隻關注生成輸出。因此,他們不得不從網際網路上抓取資料來提升他們的模型。而我們更注重的是透過擴大使用者基礎,讓資料能支援模型更好、更精確的發展。
透過將影片資料直接輸入到影片生成模型中,為我們帶來了顯著的優勢。我覺得這種模式類似於 Facebook 或 Google 的商業模式——提供一個免費的大眾消費產品,而資料則被用來推動 B2B 付費產品的發展。
Colossus:過去,分發渠道通常非常貴,但當工具變得好 10 倍、甚至 100 倍時,分發可能會相對容易,我認為你們就是從中受益的一方。看到收入、使用者以及這一切快速增長是什麼樣的感覺?
Gaurav:對於任何做產品的人來說,我覺得沒有什麼比看到「我做了一件事,第二天就產生了影響」更激動人心了。我認為我們能做到這一點是因為建立了一個優秀的團隊,吸引到很多優秀的人才,這使我們有了成功的基礎。
但對我來說,最有趣的部分也許是,你看到市場上的全新領域被解鎖,而這些領域目前沒有任何競爭者
正是這種情況導致了快速的增長:我們在一段時間內是唯一可以做某些事情的公司。隨著更多使用場景的解鎖,競爭會逐漸增多,但那可能是幾年後。
至少現在,我們看到的現象是:我們透過解鎖更多的使用場景,激發了新的市場。到目前為止,我們認為已經解鎖的市場還只是 1% 到 5% 的範圍。隨著市場的增長,更多全新的領域會被開啟。
是的,他們完全願意付費,他們蜂擁而至——我們甚至不需要推銷它,而我們是唯一的選擇。這樣一來,增長會非常快。我認為,這可能是我最興奮的地方。

TikTok 多次想「消滅」我們

Colossus:你感覺你們現在和其他公司之間處於軍備競賽中嗎?

Gaurav:在某種程度上是的。很多新公司都在出現,大家都在做相同的事情。舉個例子,我曾在 Snap 工作,而有其他五個人也從 Snap 離職,嘗試創辦同樣的公司。

但我喜歡這一點——因為從某種意義上來說,大多數人都在模仿我們,這其實是個好兆頭,說明我們做的事情是對的。我們儘量避免過多關注其他公司。我們的產品策略和我們構建的東西,完全是由我們的使命和願景來決定的,而不是看別人怎麼做。別人可能根本沒有一個完整的戰略。

我們的重點是專注於我們的北極星,無論是從技術角度,還是從產品和使用者體驗的角度。我覺得這才是最有趣的地方。什麼時候我們能有機會從底層到頂層,重新發明整個技術棧,甚至包括硬體層面的創新呢?

比如說 NVIDIA 驅動中的 bug,還有硬體層面的一些問題。我們有機會從根本上重新發明使用者體驗——人們將如何與這些東西互動。我覺得很多人還沒有意識到這一點。大家只是把模型拿過來,放到 UI 上,然後讓使用者「按一下按鈕,輸出結果」。

如果它有更多互動呢?如果你能看到生成過程中的每一步,或者在生成過程中進行預覽,並根據自己的需求即時調整呢?還有很多未解鎖的潛力。無論是設計師瞭解技術,還是技術人員學習市場營銷,這個領域的演進和整合將會更加深刻。這就是我們專注的方向。

Dwight:我認為軍備競賽的核心在於,我們要確保提供的產品遠遠超出客戶今天的需求每當我們釋出新功能時,它都會在第一天就直接投入商業化使用,而不是先與一小部分人測試,看是否真的解決了問題。我們是在為他們的工作打造這些產品。無論是大企業還是免費的消費者,我們都深度融入他們的工作流程。

最終,正如 Gaurav 所說,透過重新發明設計模式和使用者與新模型互動的方式,我們在鋪設未來工作方式的道路。這就是我認為的軍備競賽,但它並不僅僅是與其他公司之間的競爭。

Colossuss:當一個公司被別人當成「敵人」時,它就進入了某種成熟階段。你們是如何應對這個的?

Gaurav:當然有。在這種情況下,我們通常會說,「我們只管自己的使命,不去擔心別人做什麼。」但是很多人確實關心我們在做什麼。我們處於一個競爭與合作並存的位置,和很多社交網路都有合作關係,因為我們對它們的增長有幫助。

我們創造內容,而所有社交網路都需要內容。當 Instagram 推出 Reels 時,它們的大部分內容搬運自 TikTok,帶著 TikTok 的水印。但在我們的平臺上,我們每天生成成千上萬條沒有水印的內容,這些內容會被上傳到社交媒體。

我們最終成為了許多社交網路的有價值合作伙伴。從這個角度來看,我們看到了社交網路格局的變化。很多風險資本家會問:「如果 Facebook 抄襲你們怎麼辦?如果 Google 抄襲你們怎麼辦?」我認為我們開始看到的現象是,Google 和 Facebook 不再是抄襲公司了;現在 TikTok 扮演這個角色。

TikTok 成了 Facebook 曾經的模樣,在每一個市場中「捕捉、消滅、摧毀一切」。

他們的領導層非常清楚我們的存在,並且他們曾多次嘗試「消滅」我們。值得肯定的是,他們是第一個意識到我們存在的公司。

Colossuss:他們試圖「消滅」你們的表現是什麼樣的?是單純地抄襲產品嗎?

Gaurav:就是字面上的抄襲我們的 App Store 描述、我們的網站,把這些內容一字不差地放進他們的新聞稿,精準複製我們的品牌色,假裝是我們。竟然有這麼大的公司採取這種策略,真是瘋狂。
但歸根結底,他們創造的軟體是平庸的;它之所以有效,是因為他們透過 TikTok 擁有了強大的分發渠道。我認為我們會勝出,因為我們有更好的產品。

MVP 模式,

每週都有產品迭代

Lenny:作為 Captions 的領導者,面對各類熱點不斷,有沒有新工具、流程或方法,來幫助大家持續保持專注,避免被每一個新奇事物吸引干擾,從而真正把產品做出來呢?
Gaurav:這關乎漸進性。我們目標就是每週推出產品工程上要求每位工程師每週推出有市場價值的產品——展示給使用者,他們可能僅憑這個產品就訂閱、付費或者使用應用。
像文字處理器裡自動排版、文字對齊這種基礎功能,其實不會吸引使用者使用產品。但如果是獨特的功能,就算應用裡缺少常見功能,使用者也會因為獨特功能而使用應用,比如忽略它的文字對齊,只是為了使用你在產品中打造的這些新工具和新功能。所以我們力求每位工程師每週推出一個這樣有市場價值的功能。
當然,很多功能可能並不奏效,但也有不少有效。對有效的功能,我們加大投入開發。人們常抱怨產品剛推出時不完善,確實,我們推出的是極致精簡的最小可行產品(MVP),刪減設計直到產品保留最核心的可用性,然後我們把產品推出。
如果一切順利,人們會使用這個產品,儘管它可能存在各種問題。然後人們會抱怨,我們就會得到一長串問題清單,這樣我們就明確下一步工作方向。所以,這就是一個起點。只要每週推出產品,就會有大量功能、產品及發展方向湧現,之後捨棄大部分,僅對保留的部分進行拓展。這種方法非常有效,能讓團隊保持專注。
Lenny:對很多公司而言,要求每位工程師每週推出有市場價值的功能或產品,聽上去會讓一些人感到壓力巨大,可能也有人覺得這正是理想的工作方式、是公司應有的產品打造模式。那你們如何確保質量,讓所有產品保持連貫一致呢?
Gaurav:大多數時候,質量是不能妥協的雖說在質量上存在戰略性妥協,但通常得設定質量標準,功能應該是可用的。人們常犯的錯是,時間緊迫時,工程師、產品經理、設計師傾向降低質量標準,而非縮小產品範圍。
我們採用的方法是縮小產品功能範圍。審視每個需要花費時間來開發的元素,想想去掉它,產品還能用嗎?重複這個過程,直到去掉所有可去的部分,當再去任何東西產品就無法使用時,這便成為了一週的專案。
這種方法真的很有效,它能讓你聚焦於你真正想要實現的核心內容。比如開發影片新增圖片的功能,常規設計流程可能包含從相簿匯入、去背景、調色調飽和度等。但其實可以去掉背景去除、色調飽和度調整等額外功能,只保留核心的從相簿選圖並新增到影片的功能就夠了,可能只是需要一個包含很多選擇的選擇器,可以從雲端甚至硬盤獲取圖片,沒有 UI 也無妨。
如果這個核心功能不可用,基於它構建的其他功能也沒有意義,這就是我們開發產品的方式。
Lenny:最後一句話對這個過程至關重要。這是在你對某件事投入大量精力之前,先推出小的迭代功能的核心思想,目的是先弄清楚這個功能有價值嗎,它值得花幾周時間去開發嗎?
Gaurav:完全正確。這種方法最棒的地方在於,使用者使用產品後,最先抱怨的就是最困擾他們的問題。是色調飽和度、背景去除,還是從雲端選圖方面的問題?你會收到關於這些方面的最多抱怨。我們會覺得很好,因為人們直接指出問題,比如「這功能太糟了,連背景去除都沒有,算什麼圖片新增功能」。收集這些反饋後,下週更新時就能推出使用者抱怨的功能。
Lenny:這樣一來,使用者就會感嘆:「哇,這團隊更新速度真快,對我的問題回應太及時了!」使用者對產品抱怨,往往是產品與市場契合的常見跡象,因為抱怨意味著他們在意產品,所以說有人抱怨其實是個很好的訊號。
Gaurav:非常正確。如果沒有人抱怨,那就意味著一個危險的訊號。
Lenny:我非常欣賞每位工程師每週推出有市場價值產品這個方法,這和我們開頭討論的如何在眾多產品中脫穎而出直接相關。答案之一就是不斷推出產品,持續驚豔使用者,比如推出超棒的新影片功能,吸引大家目光。
Gaurav:沒錯。我認為這絕對是關鍵,而且有足夠的空間和範圍來實現這一點。在正常時期,可能無法如此迅速地制定出這麼多產品規劃。但我認為,由於背後有如此多的創新,所以才有這樣的空間,產品規劃似乎是無限的。
Lenny:你們的工程師在多大程度上使用 Cursor 等工具,AI 對你們的團隊有多大幫助?
Gaurav100%! 每個人都在使用,非常有用。而且我們還在使用 Devin,它更高階,可以解決漏洞問題。
Lenny:Devin 的成本是每月 500 美元,就像在 Slack 上與 AI 工程師聊天。你認為這種 AI 管理者的層級結構會取代傳統管理嗎?
Gaurav沒錯,未來可能會有多個 Devin 協同工作,甚至有專門的管理者來管理這些 Devin。
Lenny:我在設想,管理者層級結構會逐漸被 AI 管理者取代,這將是最終的變革。

兩條產品路線圖:

公開和私密的

Lenny:在你們運營、打造產品的流程或架構方面,還有哪些獨特、有趣且值得他人借鑑學習之處呢?
Gaurav:我們的產品開發流程很有意思。有設計、產品經理團隊,這倆還處在初創階段。還有工程團隊,涵蓋 iOS、安卓、網頁端、後端、機器學習、研究等領域。開發產品時,通常會採用產品經理主導的方式,先明確要解決的問題、涉足的新方向,然後制定產品規格說明書;有時則相反,在情況不確定的情況下先設計很多不同的內容,再與產品經理探討並且審視這些設計,挖掘有趣的想法,這常能發現僅關注指標和資料難以察覺的東西。這就像是把流程顛倒了一下,但往往容易找到獨特的想法。
在制定路線圖方面,我們也很獨特。一般公司只有一個路線圖,我們卻分為兩個不同的部分。公開路線圖收集使用者反饋,梳理功能需求,比如背景去除、撤銷重做、上傳長影片功能等等,依據影響人數、市場規模等因素排序,按計劃逐個實現。但這些功能是競爭對手也都知道的,需求是公開的,難以憑藉這個取得決定性優勢。
所以我們還有秘密路線圖,上面的功能是從來沒有人提過需求的。給使用者展示,他們可能表示不需要,不會用。但這是基於我們對問題、使用者群體和技術的獨特理解想出的創意,是真正能改變使用者使用產品方式和行為習慣的創意。人們一直用一種方式做事,如果我們能向他們展示另一種方式,並且一旦他們嘗試了就再也回不去,這就是一款成功產品的意義,這就是成功。
我們把這類創意放在秘密路線圖裡。這些內容我們從不公開討論,也不會告訴任何人,我們直接宣佈並把它們呈現給使用者,然後觀察效果。全公司每季度頭腦風暴產生這類創意,涵蓋各個團隊。大家提出想法後投票、排名,產品團隊再考量可行性、技術等許多細節,整合各方資訊(如社交媒體熱門內容、技術進展),形成一個獨特的內部路線圖。思考如何利用這些不同的技術進步來創造價值。這就是我們的總體方法。很多時候,最大的成功往往來自於秘密路線圖,這才是能改變遊戲規則的東西,而不是使用者的常規需求。
Lenny:我很喜歡「秘密路線圖」這個稱呼,感覺特別有趣。確實,這是個秘密。我不會打聽路線圖上的內容。我好奇的是,能否說說從秘密路線圖中誕生的,對你們而言十分關鍵的一個功能是什麼呢?
Gaurav:太多了。舉個早期的例子。應用剛取得成功時,最早新增的 AI 功能中有個「眼神交流」功能。很多新手錄製影片可能照著螢幕外的指令碼或提詞器念,效果不佳。我們開發的這個功能,能讓眼睛看起來像直視攝像頭,而且我們是第一家開發這個功能的公司,是與英偉達合作完成的這個專案。
最初聯絡英偉達時,他們不太理解這個需求,但出於如何將技術應用到實際產品裡感興趣,就很爽快地答應合作。我們發現了創作者領域這個獨特應用場景,把這個頭腦風暴產生的創意納入計劃並推出,結果大獲成功,展示它的影片廣告在社交媒體廣泛傳播,幾乎被翻譯成各種語言,至今仍然能有數百萬瀏覽量,轉發也能獲得大量瀏覽,因為大家覺得創意很棒。如今很多應用都有了這個功能,這就是秘密路線圖誕生的創意之一。

不能為了用 AI 而用 AI

Lenny:現在的技術能夠讓我們打造出以前無法實現的所有東西。但難處在於,讓人們關注並持續使用產品。畢竟現在打造產品容易,而且各類產品都很棒、有趣。如何讓人們關注並長期使用產品,你有哪些經驗可以分享呢?
Gaurav:沒錯,當下確實有很多炒作,在一定程度上推動了不少公司發展。從使用者獲取和營銷的角度來看,幾年前,如果你的產品很新穎,去推銷,使用者可能不買賬;現在只要說「用 AI 重新打造」,就會吸引很多人嘗試。當然,得兌現承諾,做不到使用者就會流失;做到了,就有機會大規模獲客。這種情況能持續多久不好說,但當下確實是一個不同的時期。
我也認為,打造產品的核心是解決問題有個誤區就是,很多人誤把產品做得酷炫,以為這樣就能留住使用者。可如果只是建了個「遊樂場」,使用者玩一陣就走,算不上生意。所以,解決實際問題始終至關重要。
Lenny:解決人們的問題,說起來容易做起來難,但確實重要。我好奇像你這樣的人,如何做到不被海量資訊壓垮,如何明確關注重點並保持專注。對於那些每日面對新熱點,感覺無所適從、被資訊淹沒的人,你有什麼建議?
Gaurav:這在某種程度上確實是產品開發的新問題,你可選的路徑、想法太多,可做的事情也太多了。優先順序排序向來重要,如今更關鍵。
首先必須弄清楚哪些事情是不需要關注的。我們一般透過找使用者需求來確定優先順序,而檢驗使用者需求最簡方法是看事物的傳播性。人們樂於分享、談論的東西,往往蘊含真正有趣的核心元素。雖說這些元素未必適用於所有方面,可能只是一次性使用場景,無法用於構建訂閱業務,但能引發共鳴。識別出該核心元素並融入業務,是確定有效事項的好辦法。
而且我們現在有這些工具,我們不需要打造任何東西,你只需要談論一下,人們就會分享,分享這個想法。你甚至可以在真正打造產品之前,就衡量出這個產品可能會受到怎樣的歡迎。所以這是我們用於確定優先順序的一個很好的工具。
我們花了很多時間在社交媒體上。顯然,我們的應用經常用於社交媒體,所以我們的很多員工都會花很多時間在社交媒體上。我們會關注有哪些趨勢,正在發生什麼事情。基於這些,我們可以很好地判斷出哪些東西可能會引起人們的共鳴。
Lenny:感覺你們在維持產品熱度、持續引發使用者興趣上做得很棒。畢竟當下新鮮事層出不窮。你們是如何讓人們始終覺得「哇,他們做的東西真有意思」,並一直保持這種有趣感的呢?
Gaurav:關鍵在於不能為了用 AI 而用 AI,不能只圖興奮、炒作和新奇,而要用能切實解決實際問題的 AI。打造產品的基本原理沒有改變,分三步:明確使用者的問題、運用技術解決問題、找到有這個問題的使用者。做到這三點,在任何環境都能打造出好產品
現在的不同之處在於技術方面發生了太多變化,能做出從前做不出的產品、解決從前解決不了的問題,這就是機會。在影片領域,機會無窮,我們雖然剛開始,但是目標明確,我們不打造專業工具,不是為專業人士打造產品,而是面向那些以往因為缺工具、技能或時間無法制作影片的人,幫他們跨越技能和時間差距,比如沒時間但要成果的企業主。總之,要解決的問題還有很多。
Lenny:你們的團隊有沒有和基礎模型公司進行合作呢?AI Agent 有沒有參與到你們的規劃裡?
Gaurav:老實說,我希望能朝著這個方向發展,但主要因為上下文的問題,目前還沒有實現。理解使用者和應用場景所需的上下文很抽象,即便我覺得我很瞭解我們的使用者,但我很難確切地用語言表達清楚為什麼會這樣。我花了很多時間和產品經理、設計師交流,傳授我自己積累的經驗也是個挑戰,畢竟我自己都很難用語言表達清楚。如此一來,向 LLM 提供這些上下文資訊更是難上加難。這是我需努力克服的問題。
以我在 Snap 工作時為例,我認為 Snap 和它的 CEO Evan Spiegel 最獨特的地方之一,就是他對使用者有著無人能及的理解。在公司成立的十年裡,沒有人能像他那樣理解使用者。他會提出一些大家都不認同的想法,然後我們推出這些想法所對應的產品,結果卻大受歡迎,一個接一個的成功。大家都會鼓掌稱讚,但沒人知道原因。很多事情都是事後才恍然大悟。比如 Snap 曾宣稱自己是相機公司,遭到大家嘲笑,我們是要做數碼相機之類的東西嗎?為什麼是相機公司呢?實則 Snapchat 開啟直接進入相機介面這一微小決定,成了公司的競爭優勢。因為當你的朋友正在做一些有趣的事情,你需要立刻捕捉這個瞬間的時候,Instagram 等應用開啟不是相機介面,人們就會選擇 Snapchat。Instagram 無法模仿,否則指標會下降。所以這種對使用者的深刻理解,我也是很久後才領會,影響深遠。

AI 創業,

先解決有邊界的問題

Colossus:你們是這一波創業最早 AI 商業化的公司之一,在建立 AI 公司的過程中,哪些經驗或教訓是與普通軟體公司不同的?
Gaurav:首先需要問的問題是,我們到底在 AI 革命中實現了什麼?今天的 AI 和之前的 AI 有何區別?
現在的這場 AI 革命,核心其實是更大規模模型的訓練。要做到這一點,我們需要更好的硬體、更先進的機器學習架構:Transformer、Diffusion model 等新型架構的突破;還有一些其他新技術的引入。
事實證明,當我們將模型做得越來越大時,它們能解決更多問題——無論是文字生成、朝著 AGI(通用人工智慧)發展,還是影片生成、媒體生成等領域的應用。關鍵是,最終重要的因素是資料;很多公司現在都在抓取網際網路的資料,然而網際網路資料總有上限。
從長遠看,我們需要找到可持續的資料來源,以支援更大規模模型的訓練。我認為這是決定哪些公司會在 AI 領域脫穎而出的根本問題。
對我們來說,專注於影片生成和影片編輯,問題就變得非常具體:影片資料比文字或音訊資料尺寸更大、更稀缺、建立難度高,因此訓練成本更大。在這個領域,我們面臨的挑戰是,如何建立一個數據飛輪,使我們能持續地獲取越來越多的資料,進而推動模型不斷壯大,從而保持在技術前沿。
我還想特別指出,當前市場上不同 AI 公司的基本區別。
以文字生成公司為例,很多公司其實並不單純解決文字生成問題,嚴格來說,它們是在解決一個完全不同的挑戰——智慧問題。
智慧問題至今沒有被解決。雖然我們在模型中發現了某種程度上的智慧,但距離真正的智慧仍有很長的路要走。也許我們永遠無法讓 AI 模型達到人類智慧的水平。那麼是否有可能有比最聰明的人還要智慧的 AI?也有可能。但那是一個我們尚未到達的邊界。
但如果我們看待音訊生成、影片生成或音樂生成等問題,它們更多的是在解決一個已經被「解答」的問題。
以影片為例,CGI 技術(計算機生成影像)已經存在,我們可以製作虛擬人物、場景。AI 的作用,實際上是讓我們更容易、更高效地解決這些問題——不僅是「稍微」提高,而是提高數百倍。這意味著,影片生成技術將變得更加易用,市場也會更廣泛。
這是一個根本的區別。
我們把 AI 公司分為兩類——一種是致力於解決 AGI 問題的公司,另一種是從事媒體內容生成的公司。前者更像是在追逐一個無邊界的智慧問題,投入大量資本,訓練出一個好模型,但這個模型很可能很快被下一個更新的模型所取代,而這個過程可能永無止境。
但如果是從事媒體生成的公司,它們創造的實際上是一個資產,而且很可能很快就會達到一個「足夠好」的水平,甚至接近完美。到那時,技術就是一個穩定的資產,開發成本巨大,但一旦存在,它將持續創造價值,並且不會輕易貶值。
那哪些因素會讓這些模型越來越好呢?我認為,首先是更多的資料精細調優,針對具體的應用場景(比如廣告、電影、社交媒體等)進行最佳化。
但也許在不久的將來,技術會達到一個「非常好、非常真實」的水平。我們現在正在思考的一個重要問題是,如何啟動資料飛輪,推動技術達到那個階段。
Colossus:想象力與輸出之間的代溝已經不存在了,唯一的問題是成本。所以,實際上你們的目標就是降低成本。你認為這一目標何時能夠實現?
Gaurav:很多人都看過威爾·史密斯吃義大利麵的影片 meme,它很快就從非常糟糕變得質量非常不錯。
我覺得大概一年到一年半的時間,影片生成的內容就會達到「非常真實」的水平。將文字模型與影片模型作比較,文字模型的規模現在已經進入了 4000 億引數的範圍,人們已經更好地理解如何擴大語言模型的規模,而擴散模型的引數規模仍然只有幾十億,還遠未達到文字模型的水平。
但隨著技術的進步,影片模型毫無疑問會越來越好。而且專家們已經知道如何去最佳化,只是很少有公司擁有足夠的資金和專業知識來實現這一目標。所以這是一個需要時間的問題,而非一個沒有解的問題,我們會看到這些模型變得越來越好,特別是在影片領域。
Dwight:影片模型對視覺工作的影響——重塑工作流程、更新設計思維等方面,實際上涉及的是設計問題和產品問題的結合。雖然目前仍處於非常早期的階段,但我認為,我們離徹底改變人們日常工作方式的時刻已經不遠了。
Colossus:你們的 AI 模型訓練的具體過程是什麼樣的?模型訓練的目標是什麼?這與「預測下一個 Token」有多相似或不同?在影片中,所謂的「預測下一個 X」是如何工作的?
Gaurav:我們訓練的模型是擴散模型(Diffusion Model)。這些模型的訓練方式是從噪聲開始(字面意義上的噪聲),就像你在電視上看到的靜態影像一樣。在每一步中,根據提供的文字,模型會檢視噪聲,並嘗試在噪聲中預測出一個清晰的圖層。例如,「穿藍色襯衫的男人」,於是模型開始從噪聲中繪製出一個穿藍色襯衫的男人。隨著模型訓練的每一步,它會不斷揭示出「穿藍色襯衫的男人」更多的細節。這就是文字條件化(text conditioning)幫助它決定如何達到「穿藍色襯衫的男人」這個目標的方式。
我們仍然處於擴散模型訓練的早期階段,目前我們處於數十億引數的範圍內。Meta 的 MovieGen 模型大概有 30 億個引數。
但很多工作都集中在這些模型的擴充套件上。與文字不同,影片本身很大,它消耗的空間和訓練所需算力都非常龐大。我們光下載影片的費用就可能達到一百萬美元,它帶來了不同的挑戰。
Colossus:影片模型相對於文字模型在資源上的上限如何?在風險投資領域,人們有一個重要討論就是 GPU 叢集的規模需要多大。為了讓影片模型達到完美的程度,它們是否比文字模型更消耗 GPU 資源?
Gaurav:它實際上是比文字更容易解決的問題。文字問題涉及的是智慧,而影片問題更多的是渲染,而我們已經知道渲染的成本。
那麼,我們是否能做得更高效呢?這是可能的。今天的影片渲染模式可能不是最有效率的,或許 AI 的渲染比常規渲染更便宜、更快速。
儘管現在還是初期階段,但我們大致瞭解它應該往什麼方向發展,現在我們不需要做上百次的擴散就能得到一個清晰的影像,隨著技術的提高,擴散模型的成本效率可能會高一個數量級,例如 10 倍。
Colossus:我很喜歡你之前對智慧的無界問題和影片等有界問題的框架劃分。
Gaurav:我認為這個框架同樣適用於技術領域。即使在文字處理方面,你也可以把它應用到某些有界的問題上解決。
比如,我們是否需要通用人工智慧來解決編碼問題?不一定,因為它所做的事情本質上就是在翻譯。想想計算機的演變過程。我們過去曾經使用穿孔卡片,後來寫組合語言。然後我們寫 C++,接著出現了像 Python 這樣的現代程式語言。
然後我們就可以說,「新的程式語言就是英語。」這並不是一個瘋狂的跳躍。它其實是一個非常有界的問題——本質上是在發明一種新的程式語言,而且這種語言對人們來說更加易於理解,因為大家本來就已經懂得它。

專注「角色生成模型」,

更容易達到 PMF

Colossus:在構建產品過程中,你們做出了哪些權衡?影片是一個很大的類別,既有《指環王》級別的電影,也有普通影片內容。
Gaurav:我們有意識地將目標範圍縮小了很多,正如你所說,影片涵蓋的範圍太廣,問題也太多,我們不可能解決所有問題。所以我們的重點是圍繞「交流」來製作影片,這些影片的主要是內容是人物口播。大部分內容傾向於營銷、銷售、教育,或者培訓。
我們要做的是製作能夠講述真實故事的影片,不只是「兔子在火星上跳躍」之類的內容。我們的目的是講述故事、推銷產品,或表達其他需要溝通的資訊。
這使我們在產品與市場契合度(PMF)上有很大潛力。我們是目前唯一一家訓練「生成角色」這一類基礎模型的公司。儘管市場上有其他公司,但他們並沒有訓練基礎模型,所以我們將對這個領域未來的發展拭目以待。
Colossus:目前這些模型能做的,或者在一年後可能能做的,有哪些限制?比如說,人與物品的互動。
Gaurav:我認為在六個月內就會實現,我們很快就會看到這一技術的初步版本。
Colossus:那是怎麼運作的?是透過某種方式建立這個物體的 3D 表現嗎?要創造這樣的效果,需要哪些步驟?
Gaurav:你得找到已有的人與物體互動的影片——比如一個人在喝罐裝可口可樂,然後你要識別這些物體,並用它們作為條件輸入。
以 Fiji 水瓶為例,它有一個非常獨特的設計。除非模型之前見過這個瓶子,否則它可能無法準確地復現它,僅用文字描述可能不足以傳達它的外觀。所以你可以使用影像來做提示:「這是一個 Fiji 水瓶的圖片」,然後附加文字說明:「穿藍色襯衫的人拿著 Fiji 水瓶。」模型將透過這些資訊推測出其他細節。
因為模型已經看過瓶子,所以當你給出這個瓶子某個角度的圖片,它可以推測出從另一個角度看起來的樣子。如果你旋轉它或移動它,模型也能猜測它從其他角度的樣子,準確度相當高。當然,如果我們提供多角度的瓶子影像,這能進一步提高準確性。
Colossus:你認為隨著生成這些影片的成本和門檻降低,它們的價值會如何變化?你們所做的事情是否會引發其他連鎖反應?
Gaurav:回顧 2010 年代,那是設計大發展的階段,不僅 Canva 和 Figma 在那個時期出現,還有很多公司在做「只需點選幾下就能製作精美網頁」這類工具,而且它們都不是 AI 驅動的。
那是一個大規模的趨勢:如果你想在網際網路上賣東西,或者經營任何業務,你就需要一個設計得很漂亮的網站;如果你的網頁看起來像是 90 年代的產物,沒人會買任何東西。
Dwight:我覺得現在這類網站又回潮了。
Colossus:是的,所有的東西都是週期性的。
Gaurav:影片是最近十年發展起來的,我們將看到越來越多的人採納它,因為影片生態中的創作者比例會增加。
所以我並不認為影片的價值會下降,如果你想做營銷或者銷售,擁有高質量的影片是必須的。但我認為影片的其他方面將變得更加有價值。
舉個例子,肖像的生成。如果模型可以隨意生成不存在的人的肖像,而這些虛擬人看起來非常好,適合代表你的品牌——你可以擁有這個虛擬人的肖像作為公司智慧財產權,讓他成為公司的代言人。
但這意味著普通肖像的價值會降到零,因為任何人都能憑空創造一個肖像。所以,這對肖像的成本或者在高階領域的影響會是什麼?我認為這會取決於誰更出名——那些廣為人知的肖像,現在會變得更有價值。
Colossus:這些技術有哪些限制?
Gaurav:我們都看過影片模型在處理人物時的困難。
Colossus:手指。
Gaurav:對,手指。還有手臂。
Dwight:喝水。
Gaurav:運動。
Colossus:吃義大利麵。
Gaurav:我們採取了一種獨特的角度,專門訓練模型來生成「人」。我們的資料全是關於人的,我們專注於生成人的影片。我們也計劃使用「條件輸入」技術——例如提供一個骨架:「這是我想要你表演的 TikTok 舞蹈。」模型就會完成它。
這使模型更好地學習人體結構,瞭解什麼是正常的,什麼是不正常的。有時候模型會生成 6 個手指的人,這種情況確實存在。當然,這並不是因為訓練資料造成的,而是它可能並沒有見過足夠多、各種配置下的手,去理解所有的細節。所以,我們的目標是解決人物生成的問題。
Dwight:稀缺性也是一個關鍵點。一部邁克爾·貝的電影:有 2.5 億美元的預算,可以在電影裡把洛杉磯的一半都炸掉,但是像變形金剛這樣的大片,票價也只有 25 美元。
低預算電影,如果能進院線,它的票價也是一樣的。
所以我很期待能看到低預算的電影製作人和影片創作者可以製作更多、更復雜的內容,不再受預算的限制。這對電影製作人和創作者來說,是一個巨大的突破。這會幫助影片製作人們提高創作水平。

最適合基礎模型的商業模式是什麼?

Colossuss:你認為 AI 產品在未來如何定價?2500 億美元的埃森哲(諮詢公司),它是靠出售昂貴而重要的勞動價值。你認為 AI 應用程式會將勞動預算取而代之,還是最終會像所有軟體一樣定價?
Gaurav:我不確定我們完全理解這個問題。某種程度上,現在去判斷還太早,因為我們無法完全替代工作流中所有不同環節的勞動,我們還不知道人們願意為此付出多少錢。我們現在可能只處於使用案例圖譜的 3% 或 5% 的地方——非常早期,我們還無法完全取代一些操作性繁重的公司流程。但我們會慢慢去實現這一目標。
一個大問題是,ToC 和 ToB 的定價如何劃分?我認為 ToC 定價已經相對明確,趨向於訂閱制,而且似乎人們願意付出比以前更多的費用。
例如,AppStore 或 Web 應用中的影片相關應用,歷史上價格大約在每月 7.99 美元到 12.99 美元之間。這是正常的免費增值模式。但是很長一段時間,我們沒有免費產品。
在以前,這是行不通的,人們會說,「我不想付錢,」然後轉向下一個產品。現在,人們的付費意願更高,AI 影片生成產品的價格範圍各不相同,但有些人甚至願意為消費者訂閱支付每月 2000 美元。
在 ToB 端,一大問題是企業是否會購買基於授權資料訓練的模型,他們對這種模型有一定付費意願,但這個問題尚未確定。我計劃全面授權,我們大規模收集資料,因此可以訓練完全授權的模型,這是我們獨特的優勢。
我的感覺是,在最終階段,擁有完全授權的模型會變得很重要,因為你可以輕鬆地贏得交易,人們會為這種保證和授權的聲譽支付更多費用。
除此之外,真正的問題是你能夠涵蓋多少個使用場景。我們今天覆蓋了 5%,但最終可以覆蓋多少場景?我的猜測是,我們可以做到接近 100%,因為這是一個已解決的問題。
Dwight:目前熱議的話題是基於產出的定價,但我認為,大家可能想得太超前,可能仍然有更多的「超額利潤」可以從傳統訂閱方式中獲取。不過這當然是很酷的,我相信我們會找到某種均衡點。
Colossusss:我想談談商業模式。基礎模型公司面臨兩個問題:鉅額的模型預訓練成本和鉅額的推理成本。僅憑 20 美元/月的訂閱費用,毛利率都是負的。雖然推理成本在過去 18 個月內已經下降了 100 倍左右。
AI 模型公司會說:「這是一個無止境的競爭,我每次都得花 10 倍的錢去做下一個東西,那我什麼時候能賺錢?」似乎解決更有邊界的問題的公司,會有相對正常、優秀的商業模式,有更高的毛利率,你怎麼看這個問題?
Gaurav:我們對於公司業務的思考方式是,解決某個問題會有一個有界限的成本,可能是數億美元,它可以讓我們得到一個合理的解決方案——能夠生成任何一個 CGI 工作室可能做的東西。我們現在需要的就是這個水平。
基礎模型會繼續發展嗎?會的。
我們需要對模型進行微調,但微調比從零開始訓練一個基礎模型便宜得多。
我們構建了一個數據飛輪機制:用海量資料來持續訓練模型(後訓練),讓它能夠感知今天發生的事情,以及人們今天可能想生成的內容。但這只是增量微調,成本相對較低,這構成了業務的基礎。
此外,推理成本正在下降,AI 公司將越來越像傳統軟體公司。能真正解決某個問題的公司將會擁有一段時間的護城河,我們同時也在建設資料護城河,以便始終保持領先。
然後,一旦足夠多的資料出現,並且足夠多的公司獲得更多資金,嘗試相同的打法,並訓練模型,這就會變成一場軟體競賽。
構建工作流,打造產品,進入各種各樣的應用場景,我認為這才是未來競爭的焦點所在。
隨著時間的推移,必定會出現真正的贏家,贏家將由誰擁有最佳的模型來決定,這個模型能持續超越所有其他模型;而模型的能力受資料獲取,以及它所產生的飛輪效應的影響,這會不斷提升模型的能力。
從本質上講,你可以想象有一系列基礎模型,能解決跨越影片甚至其他媒體的整個工作流所面臨的問題。包括各種不同型別的應用場景,比如電影、電視、短影片、配音、後期製作——有很多不同的潛在應用場景。
Dwight:我考慮的是,最終這些業務的成熟階段會是什麼樣子。我相信,這些業務可以變成非常高毛利的公司,無論是由於 GPU 價格的下跌,還是計算需求本身的下降。
歷史上,隨著一個新技術的釋出,它的價格基本都會快速下降,因為其商業模型就是透過讓技術變得更高效、更強大等方式來降低某種服務或功能的價格。
有趣的是,當你處於初創階段,真正的問題並不在於盈利或虧損,而是你是否能夠得到足夠的資料來保持模型前進,保持業務增長,能夠更有效地開發新功能,迎合更多的客戶需求。我認為這才是我們真正面臨的挑戰。

創業公司應該多揹負技術債務

Lenny:對於耗時數週的長期專案,以及像後端工作這類基礎設施方面的事務,你們是如何處理的?能否講講對長期專案的考量,以及怎樣開展那些使用者不太關注的後端工作?
Gaurav:沒錯,通常我們會專門安排時間處理這類事務。比如,對我們而言,第四季度一般是基礎設施建設季,會集中精力打造各類基礎設施。第四季度一般來說,我們已經推出了大量產品,對這一年的其他時間的工作也感覺很不錯。事情逐漸進入收尾階段,顯然節假日也快到了。所以我們會花所有時間來償還技術債務。
實際上,我認為在技術債務這個問題上有一個獨特的思考角度。作為一家初創公司,你的任務就是承擔技術債務,因為這是你比大公司運營得更快的方式。大公司不會承擔技術債務,他們通常會立即償還,或者他們正在償還自己在初創時期積累的技術債務。而且他們當時積累了很多。像我在 Snap 工作時就有不少這類情況,其他公司想必也如此。
我們會思考:這是當下必須解決的問題,還是能讓第 50 名、第 100 名或第 500 名工程師解決的問題?如果能交給未來的工程師,就將問題後置,實際上,我們就是這麼做的。如果公司失敗了,那個工程師也永遠不會被招聘進來,那麼所有這些也就無關緊要了。從很多方面看,技術債務類似財務債務,承擔財務債務能創造槓桿效應,比如貸款買房,能買到超出當前支付能力的房產。同理,戰略性承擔技術債務,能讓小團隊做出原本做不出的產品,是積極有益的
Lenny:哇,這個想法太酷了。我想到的是,那個未來的工程師可能是一名 AI 代理工程師。專門解決問題,正好符合你的思路。
Gaurav:完全正確,多年後的第 500 名工程師可能會因為解決了那些早期不太出色的工程師遺留下來的大問題而獲得晉升。
Lenny:顯然,這是有界限的,你肯定不想承擔過多的債務,不然就會引發大問題。關於如何把握這個平衡,比如承擔多少債務算過多,以及怎樣判斷是否已經足夠用於核心功能的工程開發,你有什麼想法嗎?
Gaurav:一般而言,經驗法則是承擔的每筆債務都要付「利息」。採用快速開發方式承擔債務,每天會有 1% – 2% 的時間用於處理因之產生的漏洞、問題、重啟和崩潰等狀況。如果債務實在太多,每天可能 80% – 90% 的時間都耗在這些事上,就沒時間開展新工作,只能支付「利息」,這是初創公司失敗的原因。某種程度上存在一條技術債務的「跑道」,一旦債務過重,而且在相應時間內沒有創造足夠價值聘請工程師支付「利息」或償還債務,就會陷入困境。
Lenny:我喜歡這個觀點。這是一個很好的啟發,讓我們知道什麼時候該對某件事進行投入。有時候你必須做出一些重大的技術決策,可能會影響到未來所有產品的構建方式。對於這些決策,你會花更多時間去認真考慮。
Gaurav:是的,我認為只要這個決策是可逆的(雙門決策),你就可以按自己的想法去做。這是一種經典的方法,如果這是一個不可逆的(單門決策),那就值得認真思考,並且儘可能正確地做出決策,至少要考慮到這個不可逆的決策在未來對你的重要程度。

產品經理應該懂營銷

Lenny:說回 Snap,社交網路領域中,除 TikTok 外,Snap 基本是最後一個成功推出且站穩腳跟的,而我認為 TikTok 更像內容平臺,人們互動較少。Snap 於 2011 年推出,距上一個成功的社交網路已過去約 15 年。除了 Evan 的智慧,從宏觀角度看,你認為 Snap 成為成功的面向消費者的社交網路的核心因素是什麼呢?
Gaurav:Snap 有幾個方面表現出色。社交網路方面,核心產品與市場的契合度能達到很高水平。從根本上講,人們下載它的原因、它的傳播、使用者邀請朋友或者傳送快拍的方式等等,這種產品與市場的契合度有時候會非常高,以至於實際開發產品變得很困難,因為你很難判斷你正在開發的東西是推動了產品的增長,還是實際上在阻礙它。
基本上,你不知道產品的增長是不是與你所做的工作無關,甚至會讓人學到錯誤經驗,錯把反常規的做法當成正確的,即便公司仍在增長。
我認為 Snap 做得好也是它需要做好的,就是持續創新面臨激烈競爭,而且社交網路有壟斷性,Facebook 等很多公司也曾試圖阻止 Snapchat 發展。而 Snap 避免被壓制的辦法就是創新。其核心在於獨特架構,公司 CEO 注重產品,而且自己就是設計師,組建了核心設計團隊,只有 10-12 個人,規模相當小,即便公司五六千員工時,設計團隊規模依然最小。
Lenny:Snap 在有五六千名員工的時候,設計團隊只有 10 到 12 人?而且在很長一段時間裡都沒有產品經理
Gaurav:Snap 最初沒有產品經理,隨著公司重視盈利,產品經理才被引入併發揮作用,如今各部門都有足夠數量的產品經理。在很長一段時間,尤其創新階段,公司粉絲少,而且公司由設計師主導。但這些設計師不普通,他們還承擔著產品經理的職責,這是關鍵。他們身兼設計和產品管理雙重任務,責任重、工作量大,卻讓 CEO 能精細把控應用推出內容和位置。因為 CEO 可以和這 10 到 12 名設計師會面,瞭解每個影響使用者的變化。
當時公司有很多改進工作,比如基礎設施、後端、最佳化排名和效能提升等,不過 CEO 主要關注應用新增的 UI。新增 UI 需要設計,但公司除這幾個能直接與 CEO 溝通的設計師以外沒有其他設計師,這使得公司對推出內容把控細緻。所有內容都需 Evan 批准,未經批准不會發布,所以設計團隊在這方面權力很大。
Lenny:在 Snap,有設計師承擔產品經理職責這個亮點。可能很多人會覺得,那隻需聘請設計師就行,傳統產品經理只會拖後腿、一味說「不要做什麼」。你能否講講這些設計師的能力水平,是什麼讓他們在沒有產品經理的情況下也能如此成功呢?
Gaurav:是的,當時對設計師的要求不止於設計技能。他們都是無下屬的獨立貢獻者(IC)設計師,所有設計工作親力親為。此外,他們還得有領導能力,能制定路線圖、撰寫文件,與不同團隊協作確定釋出計劃,不僅要懂技術工程,還要熟知使用者體驗(UX)、使用者介面(UI)和產品需求,明確做事目的並牢記路線圖,需考慮的事情繁多,工作量極大,這些人工作十分努力。並且他們薪酬豐厚,比一般設計師、產品經理或工程師的薪酬高很多,還有季度獎金等各類福利。
而且他們的薪酬也很高。我記得,他們的薪酬比你想象中設計師、產品經理或工程師的薪酬要高得多,還有季度獎金之類的各種福利。
Lenny:這很有意思。人們會想為什麼沒有產品經理呢,畢竟產品經理的工作總得有人做,他們並非閒著沒事。要知道,承擔產品經理工作的人,得既擅長又熱愛這份工作。可很多設計師並不想做撰寫文件之類的,還要協調利益相關者並達成共識。
Gaurav:完全正確。這就是為什麼很難找到既能夠做設計又能承擔產品經理工作的人。實際上,我認為融合不同職能的技能,往往能催生創新,一人身兼兩職或具備相應能力時會有其獨特意義。
以我在 Snap 的經歷為例,起初我在工程團隊,最後兩年加入設計團隊,期間建立了「設計工程」職能,即設計師兼工程師,這類人既能構思使用者體驗、完成設計,又能構建釋出產品。我們讓設計師學工程,工程師學設計,目的是在公司規模擴張時維持創新。
隨著公司工程師從 500 名增長到 3000 名,做事變得困難,專案耗時久、資源投入大,創新試錯成本高。尤其是像 Snap 這樣的公司,因為大家都在模仿它的做法。Evan 並不抵制那些被抄襲的東西,他更多追求擴大市場份額,所以必須不斷創新,創造新的東西,突破界限。於是我們組建小團隊,由設計工程師快速搭建產品早期版本,嵌入 Snapchat 應用,在澳大利亞或幾所高中測試,獲取產品表現資料,類似初創公司開發產品的流程,之後再與工程團隊合作規模化開發。
這一過程產生了意外好處。在大型組織中,達成共識是難題,產品經理重要職責就是促成共識,這工作量很大,因為你要與所有利益相關者溝通,讓他們達成一致。而我們發現,公司規模大時可透過內部傳播達成共識。如果你和某個人分享一些有趣的東西,他們會因為覺得有趣而分享給其他人。我們建立原型產品分享,在公司內部引發傳播,工程師、經理等紛紛關注,所以這是一個很好的方法。一旦我們真正瞭解到這個產品確實有良好的動態效果,並且我們已經進行了測試,這就是一個很好的方式,讓所有人都瞭解這個產品,並營造出一種「嘿,我們都在朝著這個未來努力」的氛圍。
Lenny: 不少公司都是這樣,比如 Stripe,在聘請第一位產品經理前就有數百名工程師,工程師承擔著產品經理的工作,Snap 也是如此。但感覺你的公司不是這樣運作,而是有傳統的產品經理、工程師、設計師。能講講為什麼決定不採用那種模式嗎?
Gaurav:我確實認為產品經理是一個非常有價值的職能。但我認為在 Snap 不聘請產品經理可能是一個成功決定,但畢竟相關工作總得有人做,否則無人負責,事情難落實,也缺乏問責機制,這不是合理架構。
話雖如此,設計師如果有產品經理思維,就有獨特的優勢,同理,工程師具備產品經理思維也是一樣。進一步看,產品經理如果兼具設計和工程思維,那就更好了。我覺得核心在於,每個人都要全面、基礎地瞭解自己工作涉及的所有職能。
在 Captions,我們甚至更進一步。為什麼產品經理不應該瞭解市場營銷呢?找到有產品所針對問題的使用者,是產品經理的關鍵工作。從某種程度上講,產品經理應負責到市場營銷環節。因為市場營銷是拓展產品覆蓋範圍,比如搜尋營銷、臉書廣告,從使用者點選應用的按鈕開始,所有的資料就產生了,開啟了整個使用者旅程,這和產品工作所需技能相似,理解這一節點的使用者至關重要。
所以我的核心觀點是:各職能部門應儘可能深入瞭解其他職能,甚至具備相應工作能力。這樣,公司在微觀層面做出的所有決策,就更有可能針對不同人負責的整個業務流程的各個環節進行最佳化。
Lenny:我十分認同。Irene Lee 因為將所有產品經理頭銜改為產品營銷經理而知名,原因就在於她認為產品經理不僅要打造產品,還應負責營銷。對我而言,產品經理的工作就是推動產品發展,被使用者接受並受到喜愛。可人們並非都這麼想。
顯然,掌握付費增長、SEO、產品營銷、資訊定位等技能並非易事,但這確實是打造產品的關鍵。打造產品不能僅做出產品就聽之任之。我想你招聘產品經理時,會尋找有營銷直覺和相關經驗的人。
Gaurav:完全正確。至少要具備學習這些的能力和直覺。
Lenny:我在思考產品團隊裡產品經理、工程師、設計師構成的三角關係。在 Snap,似乎利用了這個三角的邊,比如有設計工程師,還有設計兼產品經理。我猜工程師本身也挺有產品導向,近似產品經理。那你們有設計工程師兼產品經理這種職能嗎?
Gaurav:我覺得工程師兼產品經理應該是一種常見的模式,或者說每個工程師都應該努力去理解產品。

何應對一個全是 AI 生成影片的時代?

Lenny:感覺我們快到或者已經到了這種情況:難以分辨影片是真實還是 AI 生成的。我很好奇,一是你覺得我們離這種情況還有多遠?二是在一個可以生成任何你想要的影片的世界裡,會有哪些影響?
Gaurav:歸根結底,其實影片、影像、音訊無法被信任的時代已經存在一段時間了以前還沒有影片、音訊或影像,大多數情況下,事情都是靠「他說、她說」來證明。如果所有內容都能生成而且真假難辨,那麼我們可能真的會回到那個舊時代。
我覺得這既可怕,又帶來解決問題的新機會。目前創造完全逼真的影片已很接近,一些前沿模型差一點就能實現,但完全無法區分真假可能還需要幾年,而且受應用場景驅動。就拿 Captions 公司來說,我們對想要專注的影片型別有獨特的看法。當下影片生成大多是無聲、類似備用鏡頭的影片,很多電影、電視劇、社交媒體帖子或廣告,實際上都包含對話或獨白,是人們相互交流、對著鏡頭說話、互動,這才是關鍵。目前在這個領域開展的工作並不多,這還是個尚未解決的問題。
我們正在努力接近目標,不過當前模型有一些分歧。當前有公司用神經渲染技術製作虛擬人影片,該技術獨立於 Transformer 和擴散模型,和 AI 發展也沒有關係,只是能碰巧產生半真實的輸出,但存在一定侷限性,而且必須對每人單獨訓練,生成針對個人的影片。還有很多公司做無音訊的通用文字轉影片,大型生成模型的能力有待提升。在研究領域,雖然這些問題可解決但目前缺乏人們投入時間。
Captions 公司核心專注於用於說話影片的大型生成模型。從安全形度,我們有獨特的思考框架。一般來說影片分兩類:
  • 一是記錄類,如個人聚會影片、記者記錄事件影片等,主要為了留下回憶; 還有一種非個人版本,比如記錄犯罪事件、自然災害等等,客觀記錄涉及時間地點人物,這是為了留存歷史,我們想知道發生了什麼。AI 生成這一類影片全是負面影響,生成虛假的現實場景欺騙人沒有任何好處,我們要杜絕被用於這類場景。
  • 二是敘事類,像廣告、社交媒體帖子、電視節目等,它們是為了娛樂和趣味而設計的,人們不會「相信」,知道這是虛構的。如果能讓更多人講故事、娛樂並傳播資訊,就是積極的。
在產品設計上,需思考如何讓產品很難被用在不良用途,同時便於在積極的方面使用,這是真正的挑戰。
Lenny:字節跳動剛釋出了個超厲害的模型。我看到輸入一張照片,它就能生成這人以多種方式說話的影片。那這個模型屬於你剛才說的哪一類呢?
Gaurav:我覺得它正屬於我們關注的生成人物說話影片領域,這也是字節跳動的目標。它是大型公司釋出的首個能生成對話或獨白影片的大型模型之一。你見過了我就不細說了。它的表現力強,看起來不像虛擬人影片,原因是它採用的是真正的大型擴散模型,與多數做虛擬人技術公司使用的基礎技術有本質區別。
Lenny:從 Will Smith 的義大利麵影片出現到現在過了多久?看看事情發展得有多快。
Gaurav:天啊,發展太快了,太驚人了。我覺得大概一年半到兩年吧。
Lenny:我在想象,如果是一個社交網路,人們通常想知道這些人是誰。我不在乎陌生人分享狀態更新,但我能想象一個全是 AI 生成內容的抖音(TikTok)。
Gaurav:完全正確。
Lenny:內容完全根據你的喜好定製,全是隨機影片。
Gaurav:因為你看抖音的影片流時,你現在甚至都不知道誰是真實的,對吧?它感覺不真實。
Lenny:我會這樣做,去抖音上傳 AI 生成影片,嘗試搭建這樣一個網路。未來真是瘋狂啊。

播客連結:https://joincolossus.com/episode/building-captions/


相關文章