
距離 OpenAI 在 2024 年 12 月正式向付費使用者推出 Sora 服務,已經過去了一百多天。如果說,Sora 最初的問世是 AI 影片生成領域的一個里程碑事件,點燃了全球範圍內的技術競賽和商業探索。那麼它的最終上線,卻並未帶來我們預料之中的巨大影響。一百多天後,當我們再次審視這個賽道,會發現格局已悄然生變。當初 Sora 帶來的震撼和“霸主”預期,正被日新月異的技術迭代、層出不窮的競爭者以及新的行業格局變化所稀釋。AI 影片生成,已經卷入了更深、更廣的維度。

多種路線並行,開源異軍突起
在過去幾個月,AI 影片生成技術取得了顯著的整體進步。具體來說,當前的先進模型在幾個關鍵方面有了長足發展。首先是時間一致性,相比早期模型,現在生成的影片在保持主體(人物、物體)身份和外觀的連續性上有了很大改善,尤其是在鏡頭運動和主體有遮擋時,大大減少了“閃爍”或形態突變的問題。
其次是對基本物理規律的遵循度有所提高,物體間的互動、重力影響、運動的合理性等方面表現得更加可信,儘管對於流體、複雜碰撞等精細物理模擬仍有待加強。再者,模型對複雜文字指令的遵循能力也顯著增強,諸如 Veo 2、Kling 2.0 等模型能更好地理解並執行關於鏡頭角度、特定動作、人物表情乃至整體場景氛圍的細緻要求,從簡單的內容生成向更具指導性的敘事創作邁進。
影片丨在 X 上很火的一個影片:“這兩年來 AI 的進步”(來源:X)
在這樣的整體進步背景下,技術發展的態勢也呈現出一些新的狀況。
縱覽這些模型,由 Sora 引領的 Diffusion Transformer(DiT)架構依然是當前技術研發的主流方向,眾多參與者在此基礎上持續最佳化與演進。谷歌的 Veo 2、Runway 的 Gen-3/Gen-4、快手可靈等,或多或少都受到了 DiT 架構的啟發,或直接採用了類似的技術路線進行研發和最佳化。
與此同時,也有一些玩家也在嘗試各種新的技術路線。例如最近 Sand.ai 推出的 MAGI-1 模型,作為首個公開的自迴歸擴散影片生成模型,就提供了一種不同的思路。它不是一次性生成整個影片,而是透過逐塊預測影片序列來生成,這有助於保證時間上的連貫性,並支援“無限續寫”和秒級時間軸控制。這種架構在物理行為預測和時間一致性方面顯示出潛力,也為未來的即時生成應用提供了基礎。
另一方面,開源的力量正在該領域扮演越來越重要的角色。相較於 OpenAI、谷歌等巨頭傾向於閉源研發、構建技術壁壘的策略,中國市場明顯展現出更為積極擁抱開源的態度。阿里萬相、騰訊混元、階躍星辰的 StepVideo 等模型均選擇了開源,吸引了更多開發者和中小企業參與,也促進了技術的普及和迭代。更重要的是開源模型的效能也在快速進步,根據 VBench 等第三方評估基準顯示,萬相 2.1、混元等開源模型在某些關鍵效能維度上,已經能夠與頂尖的閉源模型相媲美,甚至在特定方面展現出領先優勢。

圖丨 V-Bench 1.0 榜單(來源:Hugging Face)

從“秀肌肉”到“搶蛋糕”
隨著技術能力的普遍提高,AI 影片生成領域的關注點,也正從最初的“能不能做出來”轉向“誰能讓使用者有效使用,並願意為此付費”。a16z 此前釋出的 AI 應用榜單也指出,“過去 18 個月,人工智慧影片一直處於真正可用(且輸出可靠)的邊緣,但過去六個月終於在質量和可控性方面取得了重大進展。”相比一些流行的通用 AI 應用,它們顯示出更強的吸引使用者付費的可能,例如海螺 AI、可靈、Sora 這三個代表產品就首次進入了 AI 應用榜單的前 100 名中。盈利能力,正成為衡量競爭力的重要方面。

圖丨 a16z 前 50 名生成式人工智慧消費者應用(來源:a16z)
在此背景下,產品的形態和商業策略也更加多樣和具體。在產品形態上,我們看到了多種服務模式。有專注於特定使用者群的獨立應用或平臺,例如 Runway 持續服務於創意專業人士,提供從內容生成到高階編輯的整合工具鏈;而快手的可靈、字節跳動的即夢(Dreamina)、生數科技的 Vidu 等,則以獨立的網頁服務或移動應用形式,直接面向更廣泛的內容創作者和普通使用者。這類產品通常功能更為全面和獨立。
另一種趨勢是將影片生成能力作為一項功能,無縫整合到使用者基數龐大、使用習慣成熟的現有平臺或軟體中,比如 Sora 被整合進 ChatGPT 的付費訂閱服務,Veo 2 則嵌入 谷歌 AI Studio 和 Gemini Advanced。一些傳統的影片編輯軟體,如 Wondershare Filmora,也開始積極引入 AI 影片生成模組,力求讓使用者在熟悉的工作環境中就能便捷地利用這項新技術。
此外,面向開發者和企業的 API 介面及平臺服務模式也日益成熟,Luma Labs、谷歌(透過 Gemini API 提供 Veo 2 能力)以及國內的 Vidu 等都提供了相應的服務,允許第三方將其 AI 影片生成能力整合到自己的應用或工作流中。更有甚者,還湧現出專注於特定垂直領域的平臺服務商,例如 HeyGen 和 Synthesia 聚焦於 AI 數字人影片的製作與應用,Creatify 則專注於 AI 廣告內容的快速生成與最佳化。
更重要的是,如今的 AI 影片模型,已經真正成為了“產品”而非技術。廠商們認識到影片創作的複雜性,紛紛投入資源開發配套的控制工具和最佳化創作流程。例如,為了解決純文字提示難以精細控制的問題,Luma Dream Machine 引導使用者使用關鍵詞互動選擇運鏡,可靈 AI 增加了運鏡控制和運動筆刷,Vidu 允許框選參考主體。這些工具旨在讓創作更直觀、更可控。
部分廠商如 Runway 和字節跳動即夢,甚至開始探索全流程的 AI 原生創作體驗,提供線上編輯環境或故事分鏡模式,以更好地適配創作者的工作習慣。
商業模式的探索也呈現出多元化。在早期,許多廠商都是透過提供基礎的免費使用版本來吸引大量使用者嘗試,再透過付費解鎖高階功能(如更高解析度、去水印、商用授權等)來實現盈利。但在生成的影片質量還有限的情況下,大多數使用者可能也只是用免費版本來“圖一樂”,而不會選擇進一步付費。
但到了如今,隨著 AI 影片真正能夠提高生產力,大多數使用者已經接受透過訂閱以獲得更高等級的功能許可權、生成配額或影片時長,國內外主流平臺如 Runway、Vidu、可靈、即夢等均提供了階梯式的訂閱方案以滿足不同使用者的需求。

圖丨可靈的付費計劃(來源:可靈)
按使用量付費或採用積分制也是一種重要的補充模式,使用者根據實際生成的影片時長、數量或消耗的計算資源購買積分或直接付費。Sora 最初便採用了積分制,雖然之後對 Plus/Pro 使用者取消了生成限制,但並未完全贏得所有使用者的認可。騰訊混元、即夢等產品也採用了類似的積分購買機制。
此外,針對開發者和企業使用者的 API 呼叫計費,以及為特定行業或大型客戶提供定製化的模型訓練、私有化部署和整體解決方案的企業級服務,也構成了 AI 影片生成商業版圖中的重要組成部分。
最後,培育創作生態也成為各廠商的共識。透過建立社群(如可靈的“創意圈”)、舉辦比賽(如 Runway 的 Gen:48),以及加強與藝術家和專業人士的合作(如快手與導演的共創計劃、OpenAI 的早期內測反饋、Runway 與獅門影業合作等),廠商們不僅在推廣產品,也在反哺模型訓練,試圖構建圍繞自身產品的良性迴圈和商業閉環。
總而言之,AI 影片生成領域的競爭已進入全方位較量階段,涵蓋技術、產品、商業模式和生態建設。各家廠商正依據自身條件和市場判斷,走上差異化的發展道路,力求在這片新興市場中佔據有利位置。

我們還可以期待什麼
儘管 AI 影片生成技術在過去一百多天裡取得了飛速進步,但其發展仍處在相對初級階段,面臨諸多挑戰。例如,在多主體或複雜互動場景中維持長期的邏輯與視覺連貫性仍需改進;對流體、柔性物體等複雜物理現象的模擬精度有待提高;穩定生成數分鐘以上的長影片並保證時間一致性是關鍵的技術瓶頸。
影片丨提示 Veo 2 生成火星衛星撞擊巨石並將其化為塵埃的場景時,其渲染效果不錯,但對物理學的理解還有待提高(來源:Ars Technica)
同時,也有許多根本性的問題有待解決,如深度偽造的風險、AI 生成內容的版權歸屬、高昂的計算成本以及尚不完善的監管框架,乃至於當前的模型缺乏對物理規律的真正理解等,都是需要整個行業面對的問題。
不過,我們依舊可以期待,未來的 AI 影片將在不同層面取得進一步發展。
最顯而易見的是,影片質量與真實感將持續提升,解析度向 4K 甚至 8K 邁進,畫面細節、光影渲染、運動自然度將更加貼近真實世界,生成過程中的偽影和瑕疵會得到進一步抑制。
其次,使用者的控制能力將得到空前增強,未來使用者有望能夠更精細地操控影片的每一個方面,包括但不限於攝像機的運動軌跡與風格、角色的具體行為與情緒表達、場景元素的細節佈置、敘事節奏的起承轉合等。
多模態互動將成為主流,使用者可以透過結合文字描述、參考影像、影片片段、音訊提示,甚至動作捕捉資料等多種形式的輸入,來更精準、更直觀地傳達複雜的創意意圖。
再次,生成更長時長的連貫影片將成為可能,從當前的幾十秒到數分鐘,甚至未來可能觸及更長的敘事單元,例如前不久英偉達、美國斯坦福大學等機構的聯合團隊就基於測試時訓練生成了具有強時間一致性的《貓和老鼠》一分鐘短片。隨著生產時間的進一步提升,AI 影片的應用邊界也將得到更大的拓展,使其從短片、廣告、特效預覽等領域,延伸至更復雜的敘事內容創作。

圖丨上述研究生成的短片(來源:arXiv)
隨著模型效率的持續最佳化和新架構(如自迴歸模型)潛力的進一步挖掘,即時或近乎即時的影片生成與編輯有望成為現實,這或許將為虛擬直播、互動式娛樂體驗、即時創意輔助等應用場景帶來革命性的變化。
當然,在這些趨勢的合力下,AI 影片的市場規模,自然也會持續擴大。據 Fortune Business Insights 預測,2024 年全球 AI 影片生成市場規模約為 6.1 億美元,預計到 2032 年將增長至 25.6 億美元,年複合增長率將高達約 19.5%。
屬於 AI 影片的時代,才剛剛開始。
參考資料:
1.https://a16z.com/100-gen-ai-apps-4/
運營/排版:何晨龍



