編者按:DeepSeek R1 面世之後,似乎整個 AI 行業再次被推入了一個前所未有的加速軌道。
「深度思考」成為模型的標配,Manus 這樣會幹活的 Agent 也開始介入我們的工作流,GPT-4o 的生圖功能讓每個人都能作出媲美專業的的風格。
今天凌晨,Runway 的新版本 Gen-4 又試圖解決 AI 影片的一個關鍵難題,讓 AI 影片更靠近電影級。
這一切都只發生在短短的 2 個多月內,很難想象今年 AI 會發展到什麼程度,或許今年將會是 GPT-3.5 後真正的 AI 爆發年。
這是一個導演醞釀了十餘年卻始終未能用 AI 實現的故事。
在此之前,要用 AI 打造這部影片,需攻克一系列難題:角色形象的連貫性、情感表達的細膩度、物理效果的真實感、敘事的連續性,以及整體風格的統一性。
直到老牌 AI 影片生成巨頭最新模型 Runway Gen-4 的到來,這款號稱全球首款實現「世界一致性」的模型橫空出世,意味著使用者可以建立具有一致環境、物體、位置和角色的連貫世界,才讓導演的夢想照進現實。
現在 Runway Gen-4 已向所有付費使用者和企業客戶開放。Runway 團隊還透露,用於角色、位置和物體一致性的場景參考功能即將推出。
世界一致性:能在多個場景中保持人物、場景和物體的一致性,無需額外精調。
參考圖能力:僅憑一張參考圖,即可在不同光線和場景中生成一致的角色或物體。
場景覆蓋:從任意角度重建和捕捉場景,只需提供參考圖和描述。
物理效果:模擬真實世界物理規律,呈現逼真的光照、陰影和動態效果。
生成式視覺特效:提供快速、可控的影片特效,可與實拍和傳統特效無縫融合。
Runway 聯合創始人兼 CEO Cristóbal Valenzuela Barrera 在 X 平臺發文稱:
我們新一代用於媒體生成與世界一致性的 AI 模型系列來了。歡迎 Gen-4 的到來。這個模型非常特別,我們從零開始完全為一個目標打造它:講述精彩的故事。
如開篇所說,Gen-4 的最大亮點在於實現了「世界一致性」——能夠在多個場景中精準生成人物、場景和物體,並保持其視覺特徵的一致性。
使用者只需設定好整體風格和視覺效果,模型就能在保持每一幀獨特風格、氛圍和電影質感的同時,維持連貫的世界環境。而這一切無需精調或額外訓練。
透過結合視覺參考和文字指令,Gen-4 能夠生成風格、主題、場景高度一致的影像和影片,大幅簡化了專業內容創作的流程,使用者現在可以製作 5 秒和 10 秒的 720p 高畫質影片片段。
為了展現 Gen-4 的潛力,Runway 團隊精心打造了一系列短片。
開場鏡頭設定了《The Lonely Little Flame》整個短片的基調、感覺和氛圍。在其中一個場景中,有一隻臭鼬在尋找什麼東西。藉助 Gen 4,創作者可以直接指導主體穿越場景。
他們為臭鼬設定了兩個關鍵標記點,精確控制其移動路徑——先移動到場景一側,再折返回來,成功營造出「尋找」的動態感。
「就像所有偉大的動畫一樣,你可以在角色設計和場景移動中看到豐富的表現力,」團隊成員解釋道,「同一角色在不同場景、不同光照條件下保持一致性,同時能夠表現不同的情緒和動作。」
為了製作這個片段,Runway 團隊的一名成員在幾個小時內生成了幾百個單獨的影片片段,然後將它們編輯成一個連貫的片段。音效是另外新增的。
在接受彭博社的採訪時,Runway 聯合創始人兼 CEO Cristóbal Valenzuela Barrera 表示,整個過程花了幾天時間。
傳統的視覺特效製作往往需要耗費大量時間進行建模、渲染和後期調整,Runway Gen-4 引入生成式視覺特效(GVFX)技術,能夠透過 AI 驅動的生成能力,大幅縮短了這一過程。
使用者只需提供簡單的視覺參考或文字描述,例如角色的動作、場景的氛圍或特定的特效需求,Gen-4 便能在短時間內生成高質量的影片片段。
一個具體的應用案例是 Runway 團隊在演示中展示的「木製玩具」場景。
Runway 團隊成員拿出一個木製玩具,用手機拍攝照片後匯入 Gen-4 作為參考,同時上傳了此前拍攝的紐約街景作為背景。透過一句簡單描述:「木製玩具靠在紐約街道的人行道旁」,Gen-4 迅速生成了四張影像。
挑選其中一張,挑選一張,併為畫面添加了行人從玩具前走過的動畫效果。「你可以將這個玩具放在任何地方——山脈中、沙漠裡,基本上你想做什麼都可以。」
《牛群》是一部扣人心絃短片,講述了一名年輕男子在夜晚被追趕穿越一片牛群的故事。僅憑 Gen-4 和幾張簡單的影像參考,Runway 團隊構建了角色的每個鏡頭以及霧氣瀰漫的牛群場景。
與此同時,Runway 還運用了 Act-One 技術,進一步增強了畫面的表現力與連貫性。
在這部短片中,製作團隊特別強調了兩大技術亮點:在牛的眼睛中可以看到人物的倒影,以及火焰在草地上蔓延的逼真物理效果。
這個案例展現了 Gen-4 如何利用一致的角色、物體和環境貫穿多個場景。創作者可以從一個精心設計的角色入手,構建氛圍與外觀,再生成全新影像,併為不同鏡頭和視角提供多樣變化。
《紐約》短片將紐約不同區域的真實照片結合動物的真實照片,清晰地展示了 Gen-4 對物理、動物重量、它們如何在表面移動以及與環境互動方式的理解。
影片創作的過程也能像滾雪球一樣逐漸壯大,Runway 團隊以一個音樂影片為例,最初只是一張普普通通的猴子影像,最終發展成一部內容豐富、節奏緊湊的完整音樂影片。
Runway CEO 去年曾做出過一個重要論斷,「AI 正在成為像電力或網際網路一樣的基礎設施。在今天稱自己為 AI 公司,就像在 2024 年稱自己為網際網路公司一樣。這沒有意義,因為人人都在用 —— 每家公司都使用網際網路;每家公司都將使用 AI。」
正如電力革命不是關於發電廠,而是關於電燈、電視和電冰箱如何改變生活。在他看來,Runway 不是一家 AI 公司,而是一家媒體和娛樂公司。
Runway 此前已為美劇《大衛王朝 》(House of David)生成影視場景,以及為 Puma 製作廣告等。
影視行業一直是 AI 影片生成工具攻堅的重要一環。去年 9 月,Runway 與著名電影製作公司獅門影業(Lionsgate)達成合作,這是首個大型電影公司與 AI 影片模型供應商直接簽訂的協議。
Runway 將利用獅門影業超過兩萬部影視作品的資料庫,包括《飢餓遊戲》等知名影片,構建一個定製的 AI 影片製作和編輯模型。該模型將應用於故事板製作、背景建立和特效製作。
一支好的鋼筆不會讓作家思考墨水流動的物理原理,優秀的 AI 創作工具也不應讓導演分心於演算法細節。
Valenzuela 也指出,公司在訓練其模型時,更多地參考了電影行業的術語,而不是過去的方式,目的是讓使用該模型的電影製作人在編寫提示時能夠更加自然。
我們後續將帶來 Gen-4 具體的實測,但無論此次實際效果如何,一個不爭的趨勢是,生成 AI 影片生成工具正在顛覆我們所知的電影和電視行業。
夢工場的聯合創始人傑弗裡·卡森伯格甚至表示,AI 可能會消滅動畫電影 90% 的崗位。
傳統動畫製作流程中的許多環節——中間幀繪製、背景設計、著色潤色——可能被 AI 大幅簡化或取代。但與此同時,新的專業崗位正在湧現,AI 提示工程師、視覺開發總監、AI-人類協作編導等角色未來也將出現在製作名單中。
能夠渲染影片,實現基礎生成功能——這是當前 AI 影片技術的普遍水平,而在 Runway Gen-4 此次的宣傳中,則強調 AI 能夠創作真實故事,製作出既美觀又有娛樂性,能夠引起情感共鳴的內容。
或許只有當工具變得足夠簡單,創作者才能真正關注重要的事情——講述觸動人心的故事。
我們正在招募夥伴
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)