


作者:Alex Shipps
編輯:吳海波



相信大家已經看了昨日5月21日凌晨Google I/O開發者大會上谷歌官宣Veo 3和Imagen 4,影片+影像AI全面升級,開啟一個全新的創意世界。但比這更驚豔的,是MIT與Adobe聯合研發的CausVid——一個能幾秒生成穩定高畫質短片的新模型,它究竟有多強?
傳統AI影片生成模型要麼慢但真實,要麼快但不穩定。而MIT與Adobe研究團隊聯合開發的CausVid模型打破這一困局,結合擴散模型的高質量與自迴歸模型的高效率,實現幾秒鐘內生成穩定、高畫質的影片內容。從文字生成影片、即時編輯,到遊戲開發和機器人訓練,它都展現出強大的適應性和前沿潛力。本文將帶你深入瞭解這一新一代影片生成技術的底層邏輯與應用前景。
尹天為(Tianwei Yin)是高效能影片生成模型 CausVid 的第一作者,並主導該模型的核心演算法架構與實驗驗證工作。他是麻省理工學院(MIT)電氣工程與計算機科學系碩士(SM ’25)與博士候選人(PhD ’25),現為MIT計算機科學與人工智慧實驗室(CSAIL)成員,主要研究方向為計算機視覺與生成式人工智慧,聚焦於高效影像與影片生成模型的設計與最佳化。他此前,他還提出了加速擴散模型訓練與推理的代表性方法 DMD(Distribution Matching Distillation),相關研究已被Adobe Firefly等實際系統採納。他本科畢業於得克薩斯大學奧斯汀分校,以最高榮譽(Highest Honors)獲得計算機科學與數學雙學位,並曾在斯坦福大學與加州理工學院開展合作研究。尹天為的多項成果已發表於CVPR、NeurIPS等國際頂級會議,並被廣泛引用與應用,展現出在人工智慧生成領域的深厚研究能力與持續創新潛力。




傳統的擴散模型(如 OpenAI 的 SORA 或 Google 的 VEO 2)雖然可以生成高質量、模擬度極高的影片,但它們一次性處理整個影片序列,過程緩慢且不支援即時修改。而自迴歸模型則像拼接定格動畫一樣,一幀一幀地生成影片,效率更高,但容易出現畫面不連貫的問題(稱為“誤差積累”)。

在人工智慧生成領域,擴散模型和自迴歸模型是兩種主流技術路徑。擴散模型透過“反向去噪”逐步生成內容,生成效果逼真但速度較慢;而自迴歸模型則像“按部就班寫劇本”,一幀接一幀生成,速度快但容易積累誤差。
CausVid 採用混合方法:使用完整序列的擴散模型作為“老師”,訓練一個逐幀生成的“學生”模型。這個學生模型能夠根據文字提示快速生成影片片段,比如將靜態影像變成動態畫面、延長影片內容,甚至在生成過程中即時修改場景。
比如,輸入提示“一個人過馬路”,隨後追加“他到馬路對面後開始寫字”,模型能即時更新內容。

CausVid 在多項測試中表現優異:

生成10秒高畫質影片時,比其他模型快達 100 倍,影像更加穩定。

在30秒影片測試中,CausVid在畫質與一致性上也優於 OpenSORA 和 MovieGen 等模型。

使用者更偏愛學生模型生成的影片,雖然內容多樣性略低,但速度優勢顯著。

在對 900多個文字提示的影片生成測試中,CausVid 取得 84.27 的最高總分,超越了業內領先的 Vchitect 和 Gen-3,在影像質量和人物動作真實性等方面表現突出。

由CausVid生成的影片展示了其製作流暢且高質量內容的能力。該動畫由研究團隊使用AI技術生成。

一段由 CausVid 生成的影片展示了其快速生成流暢、高質量內容的能力。這段由人工智慧生成的動畫由研究團隊提供,用於展示該模型的實際效果。原影片請點選閱讀原文觀看

研究團隊認為,除了為創作者提供便捷的影片生成能力,CausVid憑藉其高效、可控、可擴充套件的架構設計,還展現出在多個關鍵領域的廣闊應用前景,CausVid 可廣泛用於:

即時影片編輯與自動翻譯;

即時影片編輯與自動翻譯;

為機器人訓練生成模擬影片,提高學習效率。
未來,如果模型在特定領域的資料上進一步訓練,它可能會實現更快、更專業的影片生成,甚至實現“秒生成”甚至“無限生成”。

卡內基梅隆大學助理教授朱儁彥表示,這項研究突破了擴散模型在速度上的瓶頸:“它讓影片生成效率大幅提升,將帶來更快的流媒體體驗、更強的互動能力,以及更低的碳足跡。”

朱儁彥(Jun-Yan Zhu)是卡內基梅隆大學(Carnegie Mellon University)計算機科學學院助理教授,機器人研究所(The Robotics Institute)核心成員,主要從事計算機視覺、計算機圖形學及生成式人工智慧方向的研究。他曾在麻省理工學院計算機科學與人工智慧實驗室(MIT CSAIL)從事博士後工作,並曾任Adobe Research研究科學家。
CausVid 的研究得到了 Amazon Science Hub、Adobe、Google 和美國空軍研究實驗室等機構的支援。該專案將於今年6月在計算機視覺頂會 CVPR(計算機視覺與模式識別會議) 上正式釋出。

影片生成的新時代正在開啟。CausVid 的出現,不僅大幅提升了生成效率,也為創作者、開發者和研究人員提供了全新工具。未來,只需一個想法、一句話,便可瞬間構建出一個動態世界。這種從“指令”到“影片”的革新式跳躍,或將徹底顛覆內容創作的邊界。


