作者|James
刊前語

“歲寒,然後知松柏之後凋也。”2024年,娛樂行業迎來了更加複雜的局面。國內短劇超過電影,海外短劇超過傳統影視,直播演藝超過遊戲,團播秀場吸收了大量的綜藝團隊,一切的娛樂形式發生了翻天覆地般的交融。
面對這些挑戰,監製王紅衛堅持刀刃向內、姚曉峰導演高呼“思變”,優酷副總裁沈嚴直言“平庸就是原罪”……
為此,娛樂資本論在2025年度CEIS娛樂產業年會之際推出一本專刊,與10位業內大咖展開對話,這些聲音如同松柏,不僅是對過去一年的總結,更是對未來的自省。讓我們集結這些智慧與勇氣,共同挑戰娛樂行業新春前的寒冬。
在經歷了2023年ChatGPT橫空出世帶來的“炸裂”“顛覆”“革命”等精神衝擊後,娛樂行業逐漸找到了如何參與AIGC浪潮的一些門道,其中“文生影片”是AI與娛樂業結合最緊密的一個案例。
今年春節期間,Sora放出演示影片,給影視和廣電行業投下震撼彈,沒想到最後卻是“起個大早,趕個晚集”。可靈、Vidu、清影、海螺、即夢、通義、混元等AI影片生成產品的湧現和競爭,標誌著影片生成領域最終是國內率先佔據了領先地位。
在國內,早期AI藝術家在文生圖時期,就開始探索動態漫等形式的能力整合。在影片生成模型出爐後,他們更是率先探索全流程的AI影視作品。模型開發商也跟著名導演、影視平臺等合作,加速促進技術與產業的融合。相對好萊塢,國內影視從業者對技術的態度總體上也更開放,進一步加速了國內影片模型“彎道超車”。
生數科技在今年4月就釋出了長影片大模型,7月上線影片生成工具Vidu,是影片生成模型的行業代表之一。它也和《毒液:最後一舞》、《熊貓計劃》等影視作品展開官方合作。
生數科技投融資負責人樊家睿對娛樂資本論表示,影視行業對影片生成的清晰度、可控性、一致性有極高的要求,而Vidu的一大優勢就是影片生成的一致性。公司正在積極幫助影視、動漫和網際網路娛樂等行業客戶滿足專業需求。

如何保持影片生成內容的一致性
娛樂資本論:請簡單介紹一下生數科技Vidu的主要特色。
樊家睿:Vidu影片生成模型今年4月釋出,7月面向全球上線。它是“中國首個長影片生成模型”,“全世界首個對標Sora的成果釋出”。
如何保持影片生成內容的一致性,一直以來都是專業創作者的核心痛點。而Vidu是全球最早陸續突破面部一致性、主體一致性、多主體一致性的影片模型。
Vidu生成速度也是極快的。行業平均生成一段4秒鐘的影片需要3-5分鐘,Vidu生成同樣時長的影片只需不到30秒,並會進一步實現量級性的提升。
Vidu也可以更準確理解並遵循您輸入的指令意圖,根據提示詞進行完整的視覺呈現,生成的內容創意性十足。
娛樂資本論:您提到Vidu的影片一致性特點,是否有更通俗的解釋?
樊家睿:Vidu能夠實現對主體的精確控制,這個“主體”不僅可以指面部特徵的一致,也可以指衣服、背景的一致,而且在任何角度下都不變形。
Vidu在上線之初,僅透過一張參考圖,就可以實現人物的面部輪廓一致。9月,進一步將面部一致拓展到髮型、衣服、整體形象的一致,再將人物的一致拓展到動物、商品、虛構角色等的一致。
11月13日的升級後,Vidu湧現出了“多主體一致性”的新能力。使用者可以用多張圖指定多個“主體”,也可以提供一個主體的三檢視。還有使用者的玩法是,把很多個不同角色的三檢視拼起來,拼成三張圖,再輸入進去。

使用者可以自主決定多個角色的形象、穿著及動作,並將固定角色投放到新場景中,實現靈活多變的故事發展,同時生成的每個角色都不混淆,不變形。
“多主體一致性”既意味著可以“多人表演”,更可以指定背景板、環境等跟使用者參考圖的一致。這種靈活的任意組合,多主體的融合與互動,是全球首次實現。
例如在文旅場景,把人放入特定景點“打卡”。此時人的特徵不變,人穿的衣服不變,同時環境特徵也不變,文字、數字、標識等都是不會亂碼的。這就極大地降低了編輯和修改成本,甚至有可能一次性生成效果就非常好,不用多次“抽卡”再拼到一起。
這個多主體一致性功能,未來可能會擴充套件到更抽象的層面,像藝術風格的抽離與再現、音色聲音的捕捉與重現、拍攝手法的學習與復刻。比如生成一段“某某藝術家風格”的影片,它連藝術手法與拍攝技巧,都可以“學習領會”。

AI影片生成在影視娛樂業的應用
娛樂資本論:生數的商業化進展和典型客戶案例有哪些,特別是在影視娛樂業?
樊家睿:很多新需求都來源於老場景。對於有的傳統行業,新技術與新內容是可以很好地解決困擾它們多年的問題的,而網際網路娛樂業顯然屬於此列。所以,在9月末B端商業化開展以來,生數迅速擴充套件了泛網際網路娛樂行業的客戶版圖。
國內知名的廠商、出海產品,和源自海外的團隊,都主要透過呼叫Vidu API的方式來接入我們的影片生成能力。在追求爽感的網際網路娛樂特效玩法上,主要要求是:生成速度快、動作自然流暢、人物一致性要保持好。
我們的影片生成技術讓客戶非常滿意,它們現在終於有條件做影片版的“拍立得”、定製賀卡、穿越時空互動等等場景了,這是以前的技術條件下難以想象的。
同時Vidu也迅速拓展了廣告營銷、影視、動漫類的標杆客戶,它們要求很高,但我們可以提供高效、高質量的影片生成。
在7月末釋出Vidu的C端產品以後,專業和半專業創作者可以透過訂閱、買積分等方式,將Vidu融入自己的AI影片工作流。免費使用者也有試用積分,可以完整體驗相對於付費版“不打折扣”的能力。
我們觀察到,無論專業程度如何的使用者,都在積極擁抱AI影片生成技術,活躍地使用Vidu,他們的反饋是我們不斷提升產品和服務質量的重要依據。
Vidu上線第一天就是面向全球釋出的。從總體使用者量、影片任務生成量、社媒轉發量等指標,都能看到市場的積極反響。許多基於Vidu創作的影片一發布就爆火。來找我們的海內外專業團隊和企業也有很多了。
AI影片生成技術門檻更高、付費價值更大、商業化場景更廣泛。我覺得它的商業化能力,在未來相當長的時間內都是非常強勁的,更有可能從中誕生新時代的內容平臺。
娛樂資本論:具體地說,Vidu如何幫助影視、動漫和網際網路娛樂等行業?
樊家睿:一些場景的正片現階段更多是與AI混合拍攝,替代其中特效、空鏡、補鏡內容的工作。大銀幕方面,我舉兩個合作案例。一個是今年9月,Vidu與貓眼娛樂合作,在國慶檔電影《熊貓計劃》中,為主角熊貓“呼呼”的官方賬號生成每日釋出的影片,比如熊貓吃竹子、互動玩耍的畫面。

相比傳統動畫製作更長的週期,現在社交媒體可以做到影片“日更”甚至“小時更”,而這隻需要幾張“呼呼”的照片就可以。在國內的院線電影中,生數科技也是第一個與影片官方合作的AI影片生成技術支援單位。
在今年10月,我們和索尼中國、布樂科技合作,完成了《毒液:最後一舞》的AIGC電影宣傳片。這是全球首個國際知名IP與藝術家全鏈條授權的AIGC生成式短片、國內大模型與國際IP首次商業合作、也是漫威宇宙首箇中國水墨風格AIGC宣傳片。

該片的製作用到了Vidu首尾幀功能,來實現“毒液”基於中國水墨畫風的千變萬化。AI有隨機性的美感與創造力,許多變換過程讓傳統技法的創作者歎為觀止。該片全部的素材,僅用1.5個人在2天時間內就全部生成完成,10天內完成了全片製作,大大提升了整體制作效率。

中國AI領先,是國內客戶的優勢
娛樂資本論:影視行業使用者與其他行業使用者相比,需求上有何特殊性?
樊家睿:影視行業的特殊性在於,對輸出高畫質、可控性強、一致性好、細節豐富的高質量影片內容有嚴格的要求。我們已經實現了一部分,在努力滿足更多這些需求。
目前各家在生成清晰度上都有所突破,手機端使用者1080P的直接需求可以充分滿足,PC端也可以透過超分等辦法實現更高解析度。而要想直出銀幕級的影片效果,現在還有段距離。當然也看這類場景需求有多迫切、市場有多廣闊,我們會根據行業真實需求,來調整我們迭代的優先順序。
娛樂資本論:假設我是一家影視公司的決策層,如何說服我嘗試和選擇Vidu?
樊家睿:其實現在有一點是肯定的:與文字聊天不同,影片效果的好壞非常直觀,一目瞭然,讓Vidu專業團隊根據影視公司需求來演示一下實際效果,就知道行不行、哪裡行、哪裡不行。
我們也已經對接過很多機構和行業專家,傾聽了他們的意見和訴求。Vidu擁有一個專業的美學創作團隊,成員們兼具深厚的藝術創作經驗和對AI技術的前沿理解。
客戶跟Vidu團隊溝通以後,通常能明確AI的技術邊界在哪,也就是行不行、哪裡行、哪裡不行。現在不行的地方,我們也會最快速度給反饋、並最佳化升級我們的模型。
跟去年相比,今年我們發現:一方面,整個市場對AI影片生成的認知都有極大提升。另一方面,我們的技術升級速度也在加快。很多幾個月前、一年前覺得很困難的事情,現在可以實現了。所以,對於當下看到的一些卡點、痛點、難點,未來也有可能更快地被攻克,對這一點不妨抱有信心。
現在中國團隊比海外廠家在AI影片生成領域更領先,這對於本土影視團隊和技術團隊都是有極大優勢的,因為我們之間溝通會更順暢、頻繁、深入。我們一定會用好這個優勢,更多傾聽本土客戶的反饋,讓我們的產品更好滿足中國市場的需要。
娛樂資本論:廣電總局對AI魔改經典影視劇釋出了指令,Vidu是否會相應做出調整?
樊家睿:我們注意到了這條新聞。在內容安全方面,我們已經有嚴格的稽核機制,對於內容合規性一直都是滿足相關規定和要求的。
娛樂資本論:你們對2025年有什麼展望?
樊家睿:我們預計Vidu在生成速度、多元一致性和多模態真正融合方面會有重大突破。
生成速度方面,Vidu將進一步“逼近極限”。把速度提上來,意味著把價效比提上來,AI影片生成會更普及、更高效。
多元一致性方面,除了已經實現的單主體-多主體一致之外,我們還會提煉更抽象的藝術風格、手法、技巧上的一致,讓每一次視覺輸入都能被完整學習、精準重現。
此外,影片與音訊、3D等多種模態更通用的一致性表達,可以讓產品更好用更豐富。簡單說,就是你的“提示詞”將不再只是現有的文字和影像。
更進一步講,可以期待一下AI影片的延時互動,乃至即時互動。當生成影片所需的時間,比你做出來的影片時長還要短的時候,使用者看AI影片,跟緩衝一段網路影片,從體驗上就分辨不出來了。
未來可能不再需要點選“生成”按鈕,話還沒說完,影片內容已經生成出來了,並能永續。所見即可生,所思即可在,所想即可感。大家可以想象一下哪些新應用、新場景、新品類將被解鎖出來,這有可能是AI影片生成的“iPhone時刻”。
