對話PixVerse王長虎:AI影片生成可能通向新平臺,Sora只領先幾個月

“抖音就是從 15 秒的影片做起來的。”
文丨王與桐
編輯丨程曼褀
今年 2 月 OpenAI 釋出了由影片模型 Sora 生成的影片,時長可達 60 秒並且影片內容絲滑、連貫、逼真。 

一張梗圖在 Sora 釋出後流傳於社交媒體:Sora 是坐在寶座上的巨大神像,下面跪著一眾渺小的膜拜者,包括 Runway、Pika、SVD、PixVerse 等十多個影片生成模型或產品。
Sora 出現後,這張梗圖開始流傳。
“能被放在第一排,我們很高興。” 推出 PixVerse 的愛詩科技創始人兼 CEO 王長虎說。
PixVerse 是 “膜拜者” 中唯一一個由中國公司開發的產品,網頁端產品在今年 1 月上線,根據第三方監測平臺 SimilarWeb 資料,PixVerse 3 個月內達到了超過 140 萬的月訪問量,去年 11 月上線的 Pika 現在是超 200 萬的月訪問量。
做出 PixVerse 的愛詩科技由王長虎在 2023 年 4 月創立。2017 年初 ,王長虎加入字節跳動,擔任 AI Lab 視覺技術負責人。作為在微軟亞洲研究院學習和工作十餘年的計算機視覺專家,王長虎帶領技術團隊,研發了抖音、TikTok 相關的影片理解和多模態技術。
去年剛創業時,王長虎感到市場 “冷”;這周,愛詩科技剛拿到了螞蟻集團上億元人民幣的新投資。
初出茅廬的創業公司,身處一個巨頭都在加碼的市場,為數不多的武器就是 think different。王長虎有一些不同於他人的觀點:
  • 他認為 Sora 目前還是賣家秀,處於 GPT-2 到 GPT-3 之間。影片生成真正的 ChatGPT 時刻是普通人都能用起來,技術上是能即時、幾秒內生成高質量影片內容。
  • Sora 那樣生成單鏡頭 60 秒的影片並不是真實的使用者需求。抖音是從 15 秒影片做起來的,絕大部分影視作品中單鏡頭長度也小於 15 秒。
  • GPT-4 的成功和 Sora 之間目前沒有強相關性,語言模型是在模擬人腦,視覺模型是模擬外在世界。
  • 一些人相信如果內容形式不變,平臺機會仍在抖音、快手,不在新產品。王長虎說,實際上一些平臺現在對數字人主播就比較謹慎,因為 AIGC 內容對使用者留存和廣告收入可能都有負面影響,這是大平臺的包袱,是創業公司的機會。
AIGC 被普遍認為是一次重要的技術進步,但它接下來該如何發展、能帶來怎樣的使用者價值、構建怎樣的商業迴圈,都沒有定論。新老公司以各自的姿態跳入競爭,試圖在資本市場的耐心耗盡前找到可行的路徑。
我們會持續與這個領域的創業者、大公司管理者、投資人、科學家對話,呈現參與者的不同思考。
以下是《晚點 LatePost》與愛詩科技創始人王長虎的對話:
“幾秒內生成高質量內容,才是影片生成的 ChatGPT 時刻”
《晚點》:現在創作者分享影片生成產品的使用體驗時,最常提及的就是 Runway (去年 3 月釋出了 Gen-2 模型)、Pika(去年 11 月釋出)和 PixVerse(今年 1 月釋出) 。PixVerse 目前的使用者、增長情況和市場位置是怎樣的?
王長虎:除了訪問量,我們的訪問時長、頻次和留存都比 Pika 好,平均停留時長是 Pika 的兩倍多。月訪問量也是一個數量級的,Pika 超過 200 多萬,我們是 140 多萬,Runway 會更大一點。(注:Runway 的網頁端月訪問量目前超過 600 萬,同時有 App 產品。)
國內所有公司的產品加起來的訪問量可能是 PixVerse 的三分之一,我們應該是全球 top 3 的影片生成平臺了,而且還在保持快速增長。
《晚點》:OpenAI 今年 2 月釋出 Sora 後,有人說創業公司間的競爭沒那麼重要了,因為你們都被 Sora 碾壓了。
王長虎:Sora 是用比我們多數十倍的資源做出來的,我們有信心在未來幾個月內實現趕超。
我們在一年前創業 All in 影片生成時,市場還很冷,當時很多人都不認為 AI 影片生成在幾年內能做成,更多資源還是給了大語言模型,剩下的不多資源是在做文生圖。
Sora 的出現其實讓大家達成了共識,這對我們反而是利好:第一,這證明之前市場冷時我們就有超前認知,驗證了我們的技術路線正確;第二,Sora 的 DiT(2022 年底發表的新型擴散模型架構 Diffusion Transformer,它被認為是 Sora 背後的架構)路線,我們在一年前就已在規劃、佈局;第三,Sora 的出現也會減少我們的試錯成本。
《晚點》:怎麼評估 Sora 現在和你們的差距?
王長虎:Sora 展現了更長的影片生成能力和對世界更好的建模,但我和我接觸的所有人都還沒用過 Sora。它本質還是一個賣家秀,開放的賬號非常有限,是個位數,甚至好萊塢的導演都沒有。
當然我們相信 OpenAI,Sora 比過去已有的影片生成模型肯定有了大幅提升,但還不清楚 Sora 展示的內容是如何生成出來的,比如有沒有抽卡?就是多生成幾次內容,只放效果最好的出來。
《晚點》:你之前說過你認為 Sora 還沒到影片生成的 ChatGPT 時刻,那怎樣才算是呢?
王長虎:我覺得 Sora 依然處在 GPT-2 到 GPT-3 之間。現在的影片生成,更多還是專業創作者和發燒友在用,他們已經能創作出好看、好玩的大片,甚至去商業化和獲利了。
比如前段時間我們去某省級電視臺交流,在場一半編導是我們的使用者,他們用 PixVerse 做的宣傳片已經在電視臺播放了。但普通 C 端使用者還是很難用起來。
當普通使用者也能用起來時,才是 ChatGPT 時刻。從技術上來看,就是能做到即時、幾秒內生成高質量影片內容。
《晚點》:如果你覺得影片生成還沒到爆發的臨界點,為什麼去年 4 月創業選了這個方向?當時主流還是語言大模型、文生圖。
王長虎:源於我們對影片的信仰。我認為影片內容是最接近使用者的,過去幾年的國民級產品裡,跟語言相關的有哪些?跟圖片相關的有哪些?
跟影片相關的一定是最大的:抖音、快手、TikTok、Youtube。我們團隊過去幾年就是在做抖音、Tiktok 背後的影片 AI,也積累了大量解決影片領域難題的能力。
《晚點》:在位元組積累的哪些能力是現在做影片生成模型可以複用的?
王長虎:AI 生成不是新概念。位元組的使用者每天上傳數億影片,我們需要幫使用者更簡單、方便地創作出好玩、可用、能帶來流量的影片。平臺上還有海量廣告,幫助中小廣告主自動創作廣告影片,也是生成的一部分。
除了生成,還有理解影片的能力,比如做自動化內容稽核需要甄別內容等。生成和理解背後的技術有時空建模、多模態對齊、長時記憶等能力,這都是 AI 影片生成的基礎。
事實證明,經過幾個月的發展,我們相比當時最好的創業公司,包括 Pika、Runway,用更少的資源、更少的人、更少的錢,更快做出了同一水平的產品。
《晚點》:Pika 的人不是更少嗎?他們釋出產品時只有 4 個全職員工。
王長虎:它比我們做得更早,融的錢也更多。而且他們有一部分工作,比如資料標註是外包的。
《晚點》:怎麼判斷你們和 Pika、Runway 到了同一水平?Runway 已可以生成 18 秒的影片,PixVerse 目前能生成 4 秒的影片。
王長虎:Runway 並沒有直接提供 18 秒的影片生成,而是通過幾個 4 秒片段拼接而成。
現在大語言模型出現了很多評測,也有很多行業領袖也在噴評測。測評結果不重要,最重要的是使用者用腳投票,使用者數。我們產品上線更晚,我們其實吸引了一些用過 Pika 的人。
我們也會做評估,比如讓使用者盲測不同產品,隨機生成影片看效果。能力評價維度還有影片時長、物理運動的絲滑程度、解析度高不高、是不是符合使用者意圖等等。
“做好語言模型才能做好影片模型,這不成立”
《晚點》:也在做影片生成的崑崙萬維 CEO 方漢對我們說,如果沒有 GPT-4V 就做不好 Sora,沒有 GPT-4 又沒有 GPT-4V。不少人與他觀點相似,認為只做影片生成模型,不做基礎語言模型的公司會處於劣勢。你怎麼看?
王長虎:這不成立。OpenAI 做 Sora 的團隊也都是視覺背景的。之所以現在大家會把語言模型和影片模型放在一起討論,是因為語言模型先做出來了,然後擴充套件到了多模態。
但在我看來,語言和影片是不同的內容:語言是經過了人類高度抽象的內容,它更容易被建模,而視覺內容在人類出現之前就存在,山就在那、水就在那;語言建模是在模擬人腦,視覺是建立世界模型,構建外在於人的世界空間,二者有很大差別。
你說語言模型會不會幫助影片生成?我覺得一定是有益的,包括 Sora 用到了很多語言模型標註的資料,但並非沒有語言模型,Sora 就做不起來。
《晚點》:現在影片生成模型普遍能做到的生成時長是 4 到 7 秒,但 Sora 能到 60 秒,而且連貫性很好。
王長虎:如果能把 15 秒的影片做得非常絲滑,相當於找到一個可擴充套件的時空建模能力,能夠在長時間之內保證主體、背景的一致性,之後再擴大就可以。
而且不同的生成方式都能支撐影片時長從 15 秒到 60 秒,一鏡到底只是其中一種。用 15 秒最後的幾秒再生成後面 15 秒,這也是方法之一。15 秒的影片和 60 影片之間的 gap 沒那麼大。
單鏡頭 60 秒也不是真實的使用者需求,電影、廣告、短影片都很少是一鏡到底的,大部分鏡頭長度小於 15 秒。
抖音就是從 15 秒影片做起來的,15 秒就能呈現一套完整動作,傳達一段有意義的內容,能讓使用者去消費和傳播了。現在網上流傳的 Sora 影片,更多的不是 60 秒,而是 20 秒。
《晚點》:另一家中國創業公司生數科技也推出了 Vidu 模型,它能生成 15 秒的影片,到了你說的 15 秒節點。
王長虎:我們內部早就具備生成 15 秒或更長影片 demo 的能力,但我們的目標是提供讓每個人都能使用的產品。
《晚點》:在生成人的手指等畫面細節時,PixVerse、Pika 和 Runway 的影片都有一些問題,比如貓會出現好幾根尾巴、人只有 4 根手指,這怎麼最佳化?
王長虎:人有五根手指,貓有一條尾巴,都屬於物理規律。目前的影片大模型,都是直接從影片資料裡學習物理知識,但真實影片中往往包含很多資訊,很難分別把每個物理規律精確地學習好。
但如果我們給模型輸入視覺畫面的同時,再單獨加入人手、動物尾巴的 3D 建模資訊作為約束,就可以輔助大模型學習,這能最佳化效果。
另外現在有些用法也能部分解決問題。比如大家還需要 “抽卡”,很可能一次生成不好,要生成幾次,拿其中比較好的來用;也有很多專業使用者會先用 Midjouney 生成一張圖,再用 PixVerse 讓圖片動起來,這樣生成質量也會更高、可控性更強。
《晚點》:之前很多人不認為影片能快速出成果,是因為影片資料相比語言更少或更難獲得,你們怎麼解決?
王長虎:公開資料是無限的,問題不是資料量,而是如何從海量的影片資料中,自動化地、高效地篩出有效資料。
比如世界上最多的影片類別是監控影片,但不能拿來做影片模型的訓練。能夠做訓練的影片資料,要能呈現物體的運動、場景的運動,並且內容豐富。不同團隊篩選、清洗資料的能力,也是能否提升模型效能的重要因素。
《晚點》:你認為專門做影片生成模型的公司要跑出來,至少得融多少錢,獲得多少資源?
王長虎:賬戶上有上億資金,能做千卡級訓練。
過去我們做 PixVerse 只有百卡級別,現在新融資可以支撐我們到千卡級別。Sora 出來之後,一些沒有及時拿到更多融資,做不到千卡級別的公司,未必有機會繼續留在牌桌做影片大模型了。
“AI 影片生成,可能催生新內容平臺”
《晚點》:Google 和位元組等大公司今年都調高了影片生成模型的優先順序,巨頭開始快速跟進,對你們的壓力是什麼?
王長虎:2017 年我加入位元組時,位元組也還是創業公司,創業公司的優勢是決策鏈條更短,可以沒有業務包袱地 all in 一件事。所以即使那時 BAT 有人才有資金,也沒有抖音做得快。
現在位元組是大公司,我們是創業公司,我們也有自己的優勢,比如認知更領先、做得也更早。
《晚點》:科技巨頭現在都很重視 AIGC,它們與創業公司間的行動時間差縮小了。
王長虎:大家會覺得大公司在每個時間點都會通透地看清所有事,事實上這不成立。以 AI 影片生成為例,過去一年很多大公司也看走眼了。去年大廠在聚焦什麼?
我們有一個錯覺,所有人對未來的判斷會很一致,其實未必如此。技術如何演進?做產品時如何平衡和已有業務的關係?往後每一步都要做選擇,這些對大公司都是不確定的,所以這是創業公司的機會。
《晚點》:同樣是創業公司,頭部大模型創業公司比你們融資多十倍,現在也在做影片生成模型。
王長虎:第一,聚焦還是都做,每個大模型公司的判斷不一樣。比如王小川說過,百川的很多人在 Sora 出來後想做影片,但他還是決定聚焦做大語言模型。
第二,大模型公司拿到了更多錢,但不會都拿來做影片生成,影片生成只是大語言模型之外的一個業務而已。
《晚點》:還有更輕、更專注的做法,比如去年走紅的 Heygen,就不自己做模型,組合了 GPT 等模型,讓趙本山流利地說英文。而你們是既做模型,也做直接面向用戶的產品。
王長虎:我們的目標一直是做全球最領先的影片生成大模型和應用。現在技術發展非常快,只做應用層很容易被快速發展的技術顛覆。
我們也不會只做模型層,影片產品是最接近使用者的,只做模型不去變現,這也不是我們的目標。
《晚點》:你們可以提供 API 給別的產品和應用公司用,這樣也能變現。
王長虎:早期一些移動 App 也用過一些計算機視覺公司的 API,但這些 App 做得更大後,就開始用自建的。基因影響團隊認知,我們想直接服務海量 C 端使用者。
《晚點》:to C 又有兩種做法:可以做類似剪映那樣的生產工具,也可以做 AIGC 內容平臺。你們的目標是什麼?
王長虎:最終我們還是希望服務廣大普通使用者,具體產品形態需要去試,平臺是一種可能性。
現在的影片生成能力還不能直接滿足普通使用者的需求,所以先服務專業創作者,基於新的內容生成正規化去做下一代的工具:比如把拍攝時的演員、場景、攝像機取代了,這意味著生產要素被技術給囊括了。
隨著影片生成技術的發展,使用者的圈層會逐漸擴大,就會產生巨大的機會,比如當年的 B 站、小紅書。
《晚點》:為什麼你認為這個機會屬於新平臺?抖音已經有這麼大流量,在已有資訊流里加 AI 生成內容,不是比另起爐灶更容易嗎?
王長虎:抖音為什麼要在資訊流里加 AI,這會帶來哪些影響?
數字人也是 AI,但短影片平臺對數字人現在比較謹慎。因為當主播都變成數字人時,對使用者留存,廣告收入可能都是負向影響。加 AI 要面臨非常多類似的問題。
包括短影片最初興起時,為什麼長影片公司不加短影片?如何加?加了之後哪個更重要?資源怎麼分配?預測未來時是沒辦法判斷的。現在也是這樣,未來依然不確定。
《晚點》:就現有內容形式看,大量 UGC 影片是記錄生活的實拍內容,好像也不需要生成技術。
王長虎:我們看到新技術誕生後,總想把它套在熟悉的產品裡。就像短影片早期,很多人認為短影片會是土豆、騰訊影片等的形態,這樣思考的人沒有抓住短影片的機會。
AI 影片生成也是這樣。如果單獨做 AI 的內容平臺,它就不會是現有平臺的樣子,而會形成新的生態。
PixVerse 的使用者場景並非是記錄生活,而是實現普通攝像頭難以拍攝的效果,有的使用者用它創作香水廣告、啤酒廣告等廣告影片,有的使用者用它創作科幻大片。
《晚點》:這聽起來還在滿足專業人士的需求?
王長虎:主流短影片平臺裡創作影片的使用者比例也只有個位數。因為雖然拍攝門檻雖然降低了,但創意、製作和質量依舊是門檻。
AI 生成影片能極大降低使用者的創意和製作門檻,當長輩、孩子都可以用語言的方式直接生成高質量內容時,就會有大量現在想象不到的內容出現,也需要有很多不同的平臺和 App 去承接這類內容。
“AI 時代就應該做全球產品”
《晚點》:你們現在是國內和海外市場一起做,但很多人認為只選一邊更合理。
王長虎:做 AI 時代的產品就應該做全球產品。現在我們國內的產品和海外的產品是兩個產品,每個產品的形態要符合當地的法律法規。我在位元組的經歷讓我在跨國經營方面也有很多經驗。
《晚點》:為什麼愛詩不像 Heygen 那樣整個團隊出海?
王長虎:現在最重要的短影片產品很多發源於中國,這也為中國培養了最好的影片 AI 人才。所以我們選擇 base 在國內,服務全球市場。
《晚點》:你們現在的海外使用者更多,如何避免在部分海外市場,如美國市場可能遇到的風險?
王長虎:我們目前還沒有到被關注的體量。
《晚點》:什麼時候會加大投放力度?
王長虎:如果商業化能賺錢,我們算得過來 ROI,會加大投放。
使用者規模意味著成本,所以我們並沒有努力去做使用者增長。短期我們也不會去設使用者目標,還是希望能夠把影片生成能力做到讓越來越多的使用者滿意。
《晚點》:國內大語言模型的使用者投放競爭現在更激進,是因為大語言模型的技術和商業化進展都更快嗎?
王長虎:他們去年也不急,今年是因為有人捲起來了。大語言模型產品其實也沒找到 PMF( Product Market Fit,產品與需求的契合點),比如 ChatGPT 是沒有長期留存的,從 Data.ai 的資料看,ChatGPT 30 日留存不到 5%。
《晚點》:你們現在的人員規模還很小,其中多少做模型,多少做產品?
王長虎:研發佔比超過 70%。我們團隊非常精簡,未來我們也會長時間控制規模,一方面這樣管理成本比較低,另一方面我在位元組時經歷了快速發展期,用幾十人的規模做出了 Google 上百人才能做出來的事,所以我覺得人數本身不重要。關鍵是找到有創業意願的、高潛力的人才。
《晚點》:今年 AI 影片生成變熱後,怎麼繼續留住優秀的人才?
王長虎:現在很多優秀的 AI 人才都是離開成熟大公司加入新公司。如果不是想創業,他們也不會加入早期公司。
《晚點》:有看過愛詩但沒投的投資人告訴我們:王長虎不夠年輕,不相信他能做好 to C 產品。
王長虎:首先我沒看到這種傾向,其次創業就是要膽大、創新、尋求突破,所以創業者的心態都是年輕的。
現在大家分類創始人時,更多會討論這是學術界出來的,還是工業界出來的,我兩個基因都有。在微軟亞研院的經歷讓我可以從海量科研論文裡精準識別極少的、對我們有幫助的資訊;在工業界我打過硬仗,參與過國民級影片產品的建設、有使用萬卡 GPU 的經驗,這些對創業也至關重要。
《晚點》:你會怎麼形容這一年?
王長虎:我覺得現在的狀態就很像去年在西北戈壁徒步,走到中途,前後都看不到人。
Sora 的出現意味著走著走著發現前面還有一個人,我的開心大過緊張,因為這個方向是對的,我沒有走偏,並且還有機會超過它。
題圖來源:PixVerse 生成

·  FIN  ·

相關文章