蒙娜麗莎戴墨鏡橫屏耍酷!阿里影片生成模型王炸開源,消費級顯示卡可玩

阿里通義Wan2.1-VACE開源:單模型覆蓋6大任務,14B版支援720P高畫質輸出。
作者 |  李水青
編輯 |  心緣
智東西5月15日報道,昨日晚間,阿里通義萬相團隊開源Wan2.1-VACE(Video All-in-one Creation and Editing model,影片編輯與生成統一模型)。
這是目前業界功能最全的影片生成與編輯模型。單一模型可同時支援文生影片、影像參考影片生成、影片重繪、影片區域性編輯、影片背景延展以及影片時長延展等多種生成和編輯能力,並支援多工組合生成。
例如,Wan2.1-VACE可將豎版《蒙娜麗莎》靜態圖擴充套件為橫版動態影片,併為其“戴上”參考圖中的眼鏡,一次性完成畫幅擴充套件、時長延展和影像參考三項任務。
該模型基於通義萬相V2.1基座訓練,本次共開源1.3B和14B兩個版本。其中1.3B版(輕量級)支援480P影片輸出,可在消費級顯示卡執行;14B版(滿血版)支援480P/720P,效果更優。
開發者可在GitHub、Huggingface及魔搭社群下載體驗,該模型還將逐步在通義萬相官網和阿里雲百鍊上線。
開源地址:
GitHub:https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/Wan-AI
魔搭社群:
https://www.modelscope.cn/organization/Wan-AI?tab=model
01.
單一模型搞定影片生成和編輯
Wan2.1-VACE定位為“影片領域的全能模型”,支援全部主流輸入形式,涵蓋文字、影像、影片、Mask和控制訊號,可以實現角色一致性、佈局、運動姿態和幅度等要素的控制。
主要能力覆蓋了:
1.影片重繪:支援透過景深、姿態、運動軌跡等多維度控制條件生成新影片。
2.區域性編輯:實現影片物件的增刪改,例如擦除人物、替換物體(如熊貓變獅子)。
3.影像參考生成:支援單圖/多圖作為主體或背景參考,例如將卡通形象與實景結合。
4.背景延展:自動擴充套件影片畫幅(如橫屏變超寬屏),或生成新背景替換綠幕。
5.時長延展:支援在時域上的生成變化,如幀延續、片段延續、相接等。
6.基礎生成:基礎的文生影片、圖生影片、首尾幀等。
02.
多工組合
一次性完成影片增刪改擴
Wan2.1-VACE的核心突破在於單模型支援多工靈活組合處理,無需傳統多模型串聯的複雜工作流。
其支援任意基礎能力的自由組合,使用者無需針對特定功能訓練一個新的專家模型,即可完成更復雜的任務,極大地擴充套件了AI影片生成的想象空間。
例如:在影片中框選區域替換為貓,同時參考原影片動作序列和新貓圖片,實現區域性編輯+動作遷移。
這種靈活的組合機制,不僅大幅簡化創作流程,也極大拓展了 AI 影片生成的創意邊界,例如:
組合圖片參考 + 主體重塑功能 → 影片中物體替換
組合運動控制 + 首幀參考功能 → 靜態圖片的姿態控制
組合圖片參考 + 首幀參考 + 背景擴充套件 + 時長延展 → 將豎版圖拓展為橫屏影片,並且在其中加入參考圖片中的元素。
03.
模型亮點解讀:
統一四大輸入,破解多模態難題
Wan2.1-VACE基於通義萬相文生影片模型研發,同時創新性提出了全新的影片條件單元VCU,它在輸入形態上統一了文生影片、參考圖生影片、影片生影片、區域性影片生影片4大類影片生成和編輯任務。
影片條件單元VCU將多模態的各類上下文輸入,總結成了文字、幀序列、Mask序列三大形態,在輸入形式上統一了4類影片生成與編輯任務的統一。VCU的幀序列和Mask序列在數學上可以相互疊加,為多工的自由組合創造條件。
同時,Wan2.1-VACE還進一步解決了多模態輸入的token序列化難題,將VCU輸入的幀序列進行概念解耦,分開重構成可變序列和不可變序列後進行編碼。
04.
結語:影片生成技術進化
從單任務向多工組合邁進
通義萬相Wan2.1-VACE的推出,體現了影片生成技術從單任務向多工組合邁進的趨勢。其開源策略或有望降低AI影片創作門檻,從而進一步推動生成式AI在影視、廣告等領域的應用。
自今年2月以來,通義萬相已先後開源文生影片模型、圖生影片模型和首尾幀生影片模型,目前在開源社群的下載量已超330萬,在GitHub上斬獲超1.1w star,是同期最受歡迎的影片生成模型。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章