
推薦人

石允豐 五源副總裁
工具和需求並不總是相輔相成,我認為在GenAI中工具一定是先行於需求的。今天仍然是發明和改善新工具的階段,只有當工具足夠成熟的時候才會進入解鎖new use case的階段。
不能因為上一代短影片的成功,而理所當然預期影片生成產品快進到產生新的media format, 定義出新的消費閉環。相反,影片生成 still in very early day, 用什麼樣的資料配方和演算法架構去scaling都仍然有足夠大的exploration space。
我覺得只有方法論還存在非共識、不確定性的新模態,才是適合像Haiper團隊一樣頂尖的研究員、工程師去啟動創業的好時機。歡迎更多“不成熟”階段的同學聯絡我一起explore:[email protected]
影片生成的「ChatGPT時刻」究竟有沒有到來?
今年2月Sora釋出時,不少人認為這個時刻到來了。OpenAI使用基於Transformer的擴散模型(Diffusion Model),使得Sora的生成長度可達1分鐘,當時Pika的生成時長僅為3秒,Runway也只能生成18秒的影片。而且,Sora生成的影片比Runway等模型生成的「動」得更多,看起來更像真正的運動,而非Gif圖片。不過,直到現在,Sora的所有釋出也只是展示(Demo),僅面向少數人開放測試,而沒有像ChatGPT那樣把功能開放給所有人體驗。
多倫多影片製作團隊Shy Kids的後期製作成員Patrick Cederberg在試用後稱,Sora生成的300個影片中,大約只有1個是可用的,這意味著Sora的「抽卡率」(即「良率」)不足。
如果影片生成市場上存在著時長派和良率派兩個派別,而Sora是時長派的代表,位於倫敦的初創公司Haiper就是良率派。Haiper創始人繆亦舒對「新皮層」稱,Haiper的影片模型目前只能生成8秒的影片,但「Haiper抽卡率相當高,大約每2個影片中就有1個被使用者下載使用了」。
在繆亦舒看來,之所以更追求良率而非時長,是因為使用者並不期待超長影片,影片生成的「最佳時長」仍在探索中。而目前4秒的生成長度可以為使用者做的事情已經很多了,比如作為廣告影片或用來講個小故事。
不少人對於影片生成的期待是出現GenAI時代的TikTok,區別是影片不再來自相機拍攝,而是來自AI生成。繆亦舒也相信這樣的平臺將會出現,不過他認為目前的模型即使解決了良率問題,仍不足以解決story telling的問題,高質量創作仍然是最難的。目前來看,這項工作仍然需要人類的介入才能完成。因此整體而言,影片生成目前只相當於語言模型的GPT-2階段——能夠生成像自然語言、影片的內容,但「內容是否有意義」的問題尚未解決。
Haiper正在籌建一個社群,讓專業人士和小白可以交流影片生成經驗。用繆亦舒的話說,這個社群更像小紅書,而不是TikTok,對於影片生成來說,前者更像是一個交流影片生成經驗的學習社群,後者則是一個AI影片的成品交易平臺。在成為GenAI時代的TikTok之前,Haiper試圖先成為GenAI時代的小紅書。
文章轉載自新皮層與繆亦舒的對話,他談到了Haiper和Sora在受眾定位上的區別,談到了Haiper目前的產品定位,以及當前影片模型競爭中各家公司的競爭要素。此外,他還談到了在DeepMind工作期間的收穫,以及他對DeepMind為什麼會被OpenAI後來居上的理解。
相較於時長,
更重要的是影片生成的成功率
新皮層:作為一家影片生成公司,Haiper的技術路線更接近於Runway、Pika還是Sora?
繆亦舒:
我不確定其他公司採用的具體技術,但可以肯定的是,不同公司的影片生成模型在架構細節上會有很大不同。影片生成是一個複雜的工程系統,從資料層面到模型架構設計,再到最終的輸出選擇,與很多因素相關。
我們使用的是Latent Diffusion Model(潛在擴散模型)+Transformer。目前還不能簡單地說使用某個架構就能形成技術優勢。這是一個需要不斷研究和混合的過程。
因為AI產品的UI/UX設計接近,我們的產品在早期可能與Runway和Pika看起來相似,但使用後會發現有很大的不同。
新皮層:Sora釋出之後,國內影片生成公司的方向似乎都轉變為要成為下一個Sora。在矽谷或倫敦市場,影片生成領域是否還有不同的技術路線嘗試?
繆亦舒:我認為未來一段時間內,影片生成領域不會出現單一主流技術,可能會有類似語言模型的通用架構,但內容的多樣性會帶來影片生成模型的多元化,像YouTube、Bilibili和Netflix等平臺在內容層面就具有明顯的差異。
技術上,目前影片生成行業還在非常早期的階段,並沒有形成技術共識,需要不斷推動研究。比如我們可能提出了一個影片架構,但之後在這個架構上擴充套件遇到了瓶頸,就會迫使我們提出新的網路架構。這個過程會因為新的演算法而變得複雜,之前的訓練可能就會無效。
新皮層:Haiper的目標不是成為下一個Sora嗎?
繆亦舒:在我看來,與其說Sora是一個影片產品,不如說它是OpenAI在追求AGI(通用人工智慧)路線上的一個重要節點。而這個專案最終要變成成熟的產品,距離普通使用者仍然有距離。
對於初創公司來說,我們需要比大公司更接近使用者,考慮他們為何要生成影片以及影片的用途。使用者需求的不同會導致我們採用的技術路線不同。我們或許可以走把模型不斷滾大的路線,但更難的是在訓練過程中考慮使用者使用速率和模型迭代效率。
挑選出一個優秀的demo影片相對容易,但要達到產品級別,確保使用者滿意度,這完全是另一回事。真正將模型商業化,並將其部署到雲上供所有使用者使用,這需要經過市場的驗證。
新皮層:在當前的影片模型競爭中,各家公司的競爭要素是什麼?是時長、清晰度、連貫性、穩定性,還是與使用者指令的符合度?
繆亦舒:這些競爭要素都是重要的,但會有側重點。專業使用者可能更看重高畫質和時長,而普通使用者可能更看重語言理解、連貫性和內容趣味性。當這些要素匯聚到產品中時,服務的使用者型別不同,就需要產品有所取捨。
新皮層:目前,Haiper最長能生成8秒 ,與Sora相比在影片長度上還有差距?
繆亦舒:在技術上,我們已經實現了不限時長的影片生成,但還沒準備好推向市場。其實一味地拉長影片的長度不難,但隨著生成長度增加,影片內容的質量會下降。(注:7月17日,Haiper釋出其影片生成模型的1.5版本,可生成影片時長從4秒增加到8秒。此外,新模型中加入了解析度提升器(upscaler),可以將低質量影片提升至1080p解析度,改善畫質和細節。同時,模型將新增影像生成功能,在使用者生成影片前先檢查影像效果,提高生成的成功率)
新皮層:時長在目前的影片生成的競爭中意味著什麼?
繆亦舒:在影片生成領域,目前已經落地的產品通常不支援生成過長的影片,而支援生成長影片的產品尚未達到落地標準。
我的觀點是,初創公司不應該一開始就追求過大的模型和過長的時長,這可能會背離應用落地的目標。除了技術方面的原因,我認為使用者實際上並不期待超長影片。不考慮影片質量和使用者體驗,單純討論模型能生成多少秒的影片是沒有意義的。
之前有報道提到,與Sora合作的工作室最終釋出的影片是經過後期編輯的結果。針對某一個鏡頭,Sora生成的300個影片中只有1個是可用的。這樣的成功率對於產品級的應用來說遠遠不夠,因為普通使用者不可能等待生成300個影片然後選一個使用。所以我認為,Sora面向的其實是專業使用者,但我們的策略不同,我們的目標是提供給普通使用者使用。
對於面向C端的產品,在早期追求影片時長並不是一個明智的選擇,追求生成長時間影片意味著需要更大的模型,這會導致使用者的等待時間更長,生成錯誤影片的機率也會增加。
我們希望讓普通使用者在短時間內獲得滿意的素材,降低使用者嘗試使用的成本,目前最佳化的方向包括語言理解、創造性風格組合等,但最重要的還是成功率。高成功率是我們產品的一個重要優勢,它意味著使用者能夠更快地得到滿意的影片結果,減少等待和篩選的時間。
新皮層:成功率具體是指什麼?
繆亦舒:成功率在使用者中間也被稱為「抽卡率」,是指連續生成的多個影片中可用的數量。例如,如果我們連續生成10個影片,其中有一半是可用的,成功率(抽卡率)就是50%。目前,根據使用者的下載率來推斷的話,Haiper的成功率相當高,大約每2個影片中就有1個被使用者下載使用了。
即使AI可以幫使用者生成影片了,
story telling的工作仍然需要人做。
新皮層:Haiper目前的產品定位是做工具,還是構建社群,或者是技術攻堅實現AGI?
繆亦舒:我們目前是在構建社群的狀態,實現AGI是我們的長期使命。在還沒有想清楚影片生成AGI的具體形態前,討論AGI還太遠。我們做AI的最終目標不是為了AI本身,而是在實現AGI的道路上找到自己的路徑,這是我們的長遠方向。但我們不會放棄產品落地,這有助於我們與使用者互動,獲得來自現實世界的反饋,而不是僅在技術層面自娛自樂。
我們看重普通使用者在享受AI的過程中創造的內容,而不是僅為好萊塢電影製作人提供工具。早期,我們的產品看起來可能更像是一個工具,但我們下一步的主要努力方向是構建社群,希望最終從社群發展到平臺。
新皮層:你們怎麼看待不同使用者的審美多樣性?
繆亦舒:使用者對影片內容的欣賞能力是一個問題,但並不困擾我們。AGI必然會與人類存在分歧,這是我們必須接受的現實。AI生成的內容有時與使用者的期望不符,但這種分歧和審美差異是不可避免的。
AGI是一個智慧的集合,它會有自己的觀點,但不必讓所有人滿意。我們做AI產品的目標是滿足大部分使用者的需求,而不是追求讓所有人都滿意。
新皮層:不提供太多可能性,這可能是更好的商業化路徑?
繆亦舒:對,專業使用者的審美的確不容易在一個模型中體現和表達。AGI無法滿足所有人的共識,但它可以達到大部分人的審美期待。
新皮層:社群的定義聽起來很廣泛,它是一個像TikTok那樣的社群,還是像Character AI那樣的社群?
繆亦舒:TikTok已經是一個成熟的平臺,使用者可以建立和消費內容。我們所說的社群更早期一些,主要是為使用者搭建交流和分享的渠道,建立專業使用者和普通使用者的交流,降低生成AI影片的門檻。我們的社群可能更像小紅書,使用者可以分享生成影片的心得、使用的提示詞、設計思路等,其他使用者可以在此基礎上進行二次創作。
新皮層:構建這種社群是否意味著目前用影片模型生成可被消費的內容的門檻還很高?
繆亦舒:對,在做平臺之前需要先做一個社群,主要是因為影片生成的確有門檻,普通使用者很難一步到位地創造出高質量的內容。目前,我們還沒有達到大多使用者只消費而不參與創作的階段,鼓勵使用者積極創作是很重要的。最終我們希望社群能夠發展成為一個平臺,它不僅可以支援使用者創作和消費內容,還能吸引新使用者透過這些創作內容來參與消費,形成一個自我增長的生態系統。
新皮層:抖音等短影片平臺也在開發影片生成工具,試圖提供給使用者,你們的產品與他們的有什麼區別?
繆亦舒:大公司可能會專注於構建工具,圍繞現有平臺構建生態,我們的側重點在於探索一種新的創作方式。儘管許多人使用過TikTok等平臺,但真正成為創作者的人並不多,因為創作門檻相對較高。目前這類短影片平臺上的內容創作還是需要攝像鏡頭的介入。而我們更傾向於一步到位地利用AI生成影片,不需要相機,我們提供的服務能讓使用者直接用文字和圖片創作影片,這與現有的主流創作方式不同。
新皮層:Haiper目前生成的影片只有4到8秒,這個時長能夠做什麼?
繆亦舒:4秒的影片能做很多事,例如作為廣告影片或講個小故事。如果要講更長的故事,可能需要拼接和剪輯過程。
新皮層:透過一鍵生成的方式,目前能生成可被消費的影片嗎?
繆亦舒:一鍵生成影片是奢求,目前的技術更適合多段式的表達。並不是因為對於4秒很難,是story telling這件事本身很難,對內容理解的要求極高,你很難在4秒裡講一個完整的故事或實現一個小的幽默。
新皮層:AI是否降低了使用者的影片創作門檻呢?
繆亦舒:工具上的門檻降低了,但story telling本身的門檻沒有降低,高質量創作仍然是困難的。這不是工具的問題,而是創作能力的問題。做story telling是AGI可以做的事情,在AGI到來之前這是最難的。
新皮層:story telling的工作是否可能由另一個AI來做?
繆亦舒:有可能,但現在還不行。AI如果能做story telling,那標誌著AGI已經到來了。在AGI到來之前,story telling是我們認為最難的事。
新皮層:你們是否會考慮在社群中加入story telling的agent?
繆亦舒:我們一定會嘗試。
影片模型的ChatGPT時刻還沒有到來
新皮層:目前影片類產品在使用者群和活躍度上與語言模型存在差異,這是什麼原因?
繆亦舒:首先,影片模型本身的產品成熟度不如語言模型。此外,市場教育也不足,使用者可能還沒有意識到AI可以在影片內容方面做很多事情。
不過,雖然影片模型不成熟,已經有一些實際應用案例出現,比如在廣告等領域的商業應用。早期的語言模型比如GPT-2主要應用於情感分析、分類或內容稽核等,並沒有大規模應用。與語言模型相比,影片模型更接近消費者,即便技術和產品還不成熟,其生成的內容也有更大的價值。
新皮層:影片生成是否已到達「ChatGPT時刻」?
繆亦舒:還沒有。ChatGPT時刻起碼意味著所有人都可以使用這項技術,而目前Sora等產品的釋出帶來了新體驗,但它們還只是demo,沒有大規模應用。
新皮層:影片生成技術目前相當於GPT的哪個階段?
繆亦舒:大致是GPT-2,但我認為它在應用方面並不像GPT-2那樣初級。
新皮層:語言模型領域存在一種觀點,認為只要投入足夠的時間和資料量就能夠達到預期效果,在影片模型的發展中是否也有相同的情況?
繆亦舒:我之前有過語言模型方面的經歷,其實語言模型並不像大家想象的那樣簡單,儘管時間和資料量是重要的,但僅僅增加這些並不足以保證成功。首先,工程實施方面存在很高的門檻,僅僅增加資料量、擴大模型規模或使用更多的計算資源,並不能完全解決問題。例如,一個模型在不同數量的GPU上訓練會產生不同的結果,這涉及到模型擴充套件的複雜性。
而影片模型相比語言模型需要考慮更多的問題,影片模型需要適應GPU記憶體,處理大量的元資訊,考慮影片的時長、風格和內容的多樣性等。這些因素都增加了影片模型開發的複雜性。
因此,雖然擴大規模是一個發展方向,但實際上它並不是一件簡單的事情。人們可能會試圖為scaling law(規模定律)找到一個簡單的解釋,但這是一項龐大的系統工程,需要綜合考慮多個方面的因素。
新皮層:你怎麼看影片生成在實現AGI過程中扮演的角色?和語言模型相比,哪個更容易通往AGI?
繆亦舒:我傾向於影片,因為語言雖然是智慧的載體,包含了許多邏輯,但它並不能代表所有的智慧。維特根斯坦曾說,語言的極限就是我的世界的極限。如果我有一個朋友躺在醫院,無法出門,我可以每天用語言描述我看到的世界給他聽,但這並不能代表他也真正看到了這個世界。總有一些用語言無法描述的東西,它們構建了我們對世界的獨特理解,這就是多模態性(multimodality)。
現在的大語言模型可以理解和讀取影片,但生成影片是另一回事。理解影片,將影片作為輸入、文字作為輸出是容易的,因為它可以成為一種表達方式。但感知是一項更加多元和先進的能力,是AGI路徑上的重要一步。如果我們的AI停留在邏輯層面的智慧,和物理世界沒有連線,只以文字形式與人類交流,我認為這樣的AI還不能被稱為AGI。視覺內容生成是AGI路線上不可或缺的一部分。
DeepMind教會我們如何分配資源
新皮層:Haiper將辦公室設在了倫敦的國王十字(King’s cross)地區,為何眾多技術公司,如Google、Facebook等也選擇了這裡?
繆亦舒:King’s cross確實已經成為技術產業的聚集地。自2012年起,Google來到King’s cross,帶動了這一趨勢,之後吸引了Meta、Uber、Waymo等公司,形成了自然的聚集效應。
新皮層:與矽谷相比,倫敦在AI領域的發展情況如何?
繆亦舒:由於DeepMind的影響,倫敦在AI人才方面儲備充足,尤其是研究科學家類的人才儲備,並不比矽谷少。但是倫敦的創業文化相對落後,畢業生很少選擇直接創業。
此外,與矽谷相比,倫敦偏好的研究方向也有差異,英國有探索科學與人關係的傾向,所以對AI安全等課題有較為強烈的興趣。
不過,一個有趣現象是,儘管矽谷是許多技術人才夢寐以求的地方,但倫敦有很多人不願遠赴美國。我的很多同事都對歐洲有著深厚的文化歸屬感,他們鍾愛歐洲的生活方式。他們最多會前往巴黎尋求新機會,但很少有人會去美國工作。
新皮層:你們考慮過在灣區開設一個辦公室嗎?
繆亦舒:考慮過,但現在還不是時候。我們確實希望能在灣區觸及全球頂尖人才,但管理一個新的辦公室需要有經驗的經理來規劃。我們可能不會很快開設,但確實在探索這一方案可能性和合理性。
新皮層:你和另一位合夥人王子聿之前都有過在DeepMind工作的經歷,DeepMind教給了你們什麼?
繆亦舒:我和子聿10年前就認識了,他是我在牛津的同學,我們在學校屬於同一個課題組,我做語言模型,他是做最佳化和深度強化學習的。我在DeepMind主要是做語言模型,當時這還是一個很冷門的方向,大家覺得語言模型就是用來做翻譯的。經常有同事開玩笑說,語言模型很有趣,但有什麼用呢?
DeepMind的確教給了我們很多,作為企圖實現AGI的先驅,DeepMind有著非常完整的專案管理和科研管理體系,明確區分了研究科學家和研究工程師的角色,專案的領導者也非常有遠見,能夠預見專案的發展情況,合理配備所需資源,確保團隊成員之間的溝通。
Deepmind沒有趕上這一輪生成式AI的發展先機,可能是因為在「get your hands dirty」這一點上做得不如OpenAI這樣的公司。
新皮層:你們現在的分工是怎樣的?
繆亦舒:疫情期間,我和子聿重新聯絡後,決定一起做些事情,因為我們在多模態和視覺內容生成方面有豐富的經驗。目前我的工作更多是產品、商務和管理,而子聿負責大模型系統和基礎研究。
新皮層:目前Haiper在倫敦和加拿大的團隊規模如何?
繆亦舒:倫敦團隊有15人,涵蓋產品、工程和機器學習,而加拿大團隊約6人,只負責機器學習。
新皮層:去年,你們團隊的發展方向從3D轉向了影片生成,這個轉變是如何發生的?
繆亦舒:轉變的發生一方面是基於我們對內容的判斷,另一方面也和我們團隊的技術積累相關。在3D領域,我們已經有了較成熟的技術積累,我們是最早在3D領域應用神經輻射場(Neural radiance fields,NeRF)的團隊,並且推出了iOS端的使用者產品。
我們創立Haiper的初衷是構建一個有影響力的產品,讓普通使用者也能享受到技術帶來的快樂。但從去年年初開始,我們意識到3D內容的創作和消費都更傾向於專業使用者,主要應用場景和輸出場景更傾向於面向企業的服務,比如遊戲或AR/VR領域。對於普通使用者來說,3D內容的創作門檻很高,並不容易欣賞或者消費。我們評估後認為影片生成將是一個有競爭力的市場,影片內容更接近實際應用場景,更容易被使用者消費,也更貼近我們對內容生成的最終目標。
此外,我們也對團隊在影片方面的技術儲備有信心,我自己有語言模型的背景,算是最早一批做大語言模型的人,對語言模型有深入的瞭解。關於如何scale up,如何從資料到模型層面進行最佳化,擴大模型規模,我們都有相應的技術儲備。
新皮層:這個轉變有特定的契機嗎?是否受到市場上的某個產品或模型啟發?
繆亦舒:我們並沒有被某個具體事件觸發,而是在3D內容渲染到影片的過程中意識到,如果有足夠強大的影片生成模型,我們就不需要3D模型了。我們的研究也證明了,3D和2D的影片在本質上是可以互相轉換的。此外,我們也看到了市面上同類產品的生成效果,我們覺得自己可以做得更好。
新皮層:3D生成和影片生成背後的技術是否相同?
繆亦舒:兩種技術背後的路線都與Diffusion Model(擴散模型)相關,但側重點不同。影片生成技術需要構建更大的模型,這是不可避免的。而3D技術不一定需要如此大的模型規模,3D模型的引數還沒有到瓶頸。不過兩種技術在本質上存在相通之處,早期的影片生成技術和3D技術的相關性更高,但現在隨著影片生成技術的快速發展,兩種技術已經有很大不同了。
新皮層:Haiper目前已經有了一些商業合作案例,比如京東和倫敦藝術大學。你們與這些組織的合作主要是什麼形式?
繆亦舒:首先,我認為生成式AI最大的潛力還是在C端。為企業定製相對閉源的模型是一個可以突破的市場,但目前還不夠成熟,原因在於它涉及到一系列的流程和挑戰,並不像LLM(大語言模型)那樣直接。我們目前主要透過API的形式提供服務。
新皮層:你們的客戶既有電商,也有大學,看起來很分散,到底什麼樣的行業才是你們的目標客戶?
繆亦舒:我們在選擇合作伙伴的行業時會有所挑選,但目前更多還是在廣泛探索、強調廣度的階段。我們希望和不同行業接觸,探索我們的模型在哪些領域能夠發揮作用。最終,我們的合作物件可能會逐漸收斂到特定的行業,但這個過程並不是事先規劃的,而是透過不斷地探索和磨合形成的。
