Runway全新Gen-3影片生成模型獲網友盛讚:比Sora更好

編譯 | 核子可樂 褚杏娟
憑藉廣受歡迎的影片生成工具而聲名大噪的 AI 廠商 Runway 最近釋出了最新版本的 Runway Gen-3。Gen-3 Alpha 是 Runway 在專為大規模多模態訓練所構建的全新基礎設施之上,訓練出的模型家族的首位成員。與 Gen-2 相比,Gen-3 在保真度、一致性和運動表現方面迎來重大改進,並朝著構建通用世界模型邁出了堅實一步。
新模型目前仍處於 alpha 內測階段,尚未對外公佈。但從一系列演示影片的效果來看,與目前已經開放的 Gen-2 相比,下代模型生成的影片似乎在連續性、真實性以及提示詞遵循能力方面取得了重大飛躍。
  • 細粒度的時間控制
Gen-3 Alpha 由描述精細、時間密集的描述詞訓練而成,可實現富有想象力的過渡效果併為場景元素生成精確的關鍵幀。
  • 逼真的人類形象
Gen-3 Alpha 擅長生成具有各種動作、手勢及情緒,且富有表現力的人類形象,開拓出前所未有的敘事方式與空間。
  • 為藝術家而生,供藝術家使用
Gen-3 Alpha 的訓練由研究科學家、工程師及藝術家共同組成的跨學科團隊傾力完成,旨在詮釋各種視覺風格及鏡頭語言。
Gen-3 模型生成的影片,特別是包含大畫幅人臉特寫的影片,擁有極為逼真的畫面效果。這也不禁令 AI 藝術社群的成員們將其與 OpenAI 尚未釋出,但同樣備受期待的 Sora 進行了比較。
網友評價
一位 Reddit 使用者在 Runway Gen-3 討論主題下的高票評論中寫道,“哪怕目前展示的都是精心挑選的優質之作,效果看起來也要比 Sora 好得多。Sora 的效果和觀感仍有風格化痕跡,但這邊的影片則更真實,也是我迄今為止見過的最好的 AI 生成影片。”
另一位使用者則在擁有 6.6 萬成員的 Reddit AI Video 子頻道上寫道,“如果不告訴我,我肯定會覺得這些畫面是真實拍攝出來的。”
AI 電影製作人、自稱 Runway 創意合作伙伴的使用者 PZF 釋出推文稱,“這些 Runway Gen-3 片段在我看來吸引力十足——看起來很有電影的質感。畫面流暢、平實(我是說非常自然)而且相當可信。”

除了 Gen-3 影片生成器,Runway 還推出了一套微調工具,提供更靈活的影像與相機控制選項。該公司釋出推文稱,“Gen-3 Alpha 將為 Runway 的文字生影片、影像生影片以及文字生影像工具、現有控制模式(例如運動畫筆、高階相機控制及導演模式)以及即將推出的工具提供支援,以前所未有的精細方式控制結構、風格與運動形態。”

Gen-3 Alpha 是 Runway 在專為大規模多模態訓練所構建的全新基礎設施之上訓練出的模型家族的首位成員,代表我們朝著構建通用世界模型邁出了堅實一步。

Gen-3 Alpha 經過影片與影像的聯合訓練,旨在為 Runway 旗下各文字生影片、影像生影片及文字生影像工具、現有控制模式(如運動畫筆、高階相機控制、導演模式)以及即將推出的更多工具提供支援,以前所未有的精細方式控制結構、風格與運動形態。
Runway 宣稱,Gen-3 是其實現建立“通用世界模型”這一雄心勃勃目標的重要一步。這些模型使得 AI 系統能夠構建環境的內部表現,並藉此來模擬該環境中將要發生的未來事件。這種方法使得 Runway 有別於只關注特定時間軸內下一可能幀的傳統預測技術。
雖然 Runway 方面尚未透露 Gen-3 的具體釋出時間,但公司聯合創始人兼 CTO Anastasis Germanidis 宣佈 Gen-3 Alpha“將很快在 Runway 產品內現身”。他還透露,具體包括現有模態以及“一些目前只能藉助更強大基礎模型實現的新模態”。

Runway Gen-3 Alpha 將很快在 Runway 產品中現身,並將支援大家所熟悉的全部現有模態(文字生影片、影像生影片、影片生影片),以及一些目前只能藉助更強大基礎模型實現的新模態。
競品對比
Runway 的 AI 探索之旅始於 2021 年,當時他們與慕尼黑大學的研究人員合作開發出 Stable Diffusion 的首個版本。Stability AI 後來以幫助該專案承擔計算成本為由介入,並推動 AI 影片生成在全球範圍內掀起熱潮。
從那時起,Runway 就一直是 AI 影片生成領域的重要參與者,與 Pika Labs 等競爭對手並駕齊驅。然而,隨著 OpenAI 宣佈推出超越現有模型能力的 Sora,市場格局也隨之發生變化。好萊塢著名演員阿什頓·庫徹最近表示,像 Sora 這樣的工具可能會徹底顛覆影視劇的創作邏輯,此言一齣旋即引發轟動。
然而就在全球翹首期待 Sora 釋出之際,新的競爭對手也陸續嶄露頭角,包括快手打造的 Kling 以及 Luma AI 的 Dream Machine。
Kling 是一款來自中國的影片生成器,能夠以每秒 30 幀的速度生成最長 2 分鐘的 1080p 解析度影片,較現有模型實現了巨大改進。這套中文模型現已釋出,但使用者需要使用中國手機號進行註冊。快手錶示後續將為該模型推出全球版。
另一顆新星 Dream Machine 則是一套可供免費使用的平臺,能夠將書面文字轉換為動態影片,且生成結果在質量、連續性及提示詞遵循效果方面全面超越 Runway Gen-2。使用者只需提交 Google 賬戶即可完成登入,但目前由於人氣過高,內容生成速度往往很慢、甚至無法順利完成影片生成。
在開源領域,Stable Video Diffusion 雖然在生成效果上不算出色,但其開放屬性卻為模型的後續改進和發展提供了堅實基礎。Vidu 是由北京生數科技和清華大學開發的另一款 AI 影片生成器,採用名為 Universal Vision Transformer (U-ViT) 的專有視覺轉換模型架構,只需一次單擊即可生成 16 秒長的 1080p 解析度影片。
至於前面提到的 Pika Labs,由於尚未釋出重大更新,所以其目前的生成效果基本與 Runway Gen-2 持平。
參考連結:
https://runwayml.com/blog/introducing-gen-3-alpha/https://decrypt.co/235842/runway-gen-3-ai-video-better-than-sora
內容推薦
大模型已經在各種領域有著廣泛的應用和實踐,如BI、企業生產、AIoT、程式設計、資料分析等場景。各個企業當前的探索為大家在落地時解決各種問題提供了重要參考。「AI前線」整理了AICon 北京 2024上大模型在不同領域的應用探索和 Agent 實踐相關PPT以及資料。關注「AI前線」,回覆關鍵詞「應用探索」即可免費獲取。
 活動推薦
InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會,匯聚頂尖企業專家,深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
你也「在看」嗎?👇

相關文章