實測萬相2.1,全球首箇中文文字生成開源模型,吊打Sora了?

DeepSeek開源周,其他人也沒閒著。
2月25日,凌晨Claude釋出了Sonnet3.7版本,白天的DeepSeek開源了DeepEP程式碼庫,晚上阿里的最新影片生成模型Wan2.1 亮相,真是熱鬧的一天啊!
相比於一個程式碼能力更強的語言模型,一個讓開發者更為興奮的底層的程式碼庫,影片生成模型顯然更讓普通人興奮。
仍然秉持著“能開盡開”的風格,這次萬相開源了14B和1.3B兩個引數的全部推理程式碼和權重,同時支援文生影片和圖生影片任務,全球開發者可在Github、HuggingFace和魔搭社群下載體驗。
並且採用了最寬鬆的Apache2.0協議,意思是生成的內容版權完全歸開發者所有,既可以用於免費渠道,也可以商用。
在評測集VBench中,萬相2.1超越了Sora、Luma、Pika等國內外開源模型。
它的效果到底如何?廢話不多說,我們先上評測!
1
模型實測
目前在通義萬相里體驗2.1極速版和專業版,兩個版本都是14B的,極速版生成速度約4分鐘左右,專業版的生成速度更慢一些,大概1個小時生成,但效果更穩定一些。
文生影片2.1專業版相比於極速版對於文字理解更精確,畫面的清晰度也相對高一些。但兩個版本生成的影片畫面都存在明顯變形,對於一些物理世界的細節理解有欠缺。
提示詞:參考盜夢空間拍攝方式,俯拍廣角鏡頭,酒店走廊以每秒15度角持續旋轉,兩位西裝特工在牆壁與天花板間翻滾格鬥,領帶受離心力影響呈45度飄起。頂燈碎片隨重力方向錯亂飛濺。

專業版

極速版

提示詞:紅裙女孩在蒙馬特階梯跳躍,每級臺階彈出舊物收藏盒(發條玩具/老照片/玻璃彈珠),暖調濾鏡下鴿子群組成心形軌跡,手風琴音階與腳步節奏精確同步,魚眼鏡頭跟拍。

專業版

極速版

萬相2.1是目前全球首個能夠直接生成中文文字的開源影片模型。雖然能夠準確生成指定文字,但只限比較短的文字,超出一定長度就會出現亂碼的情況。
提示詞:狼毫毛筆在宣紙上揮灑,墨跡暈染時文字“命運”逐筆浮現,字跡邊緣泛起金色微光。
圖生影片效果比較穩定,人物一致性較高,沒有明顯變形,但對提示詞的理解不完整,缺少細節。比如案例影片中珍珠奶茶裡沒有珍珠,石磯娘娘沒有變成大胖丫頭。
提示詞:油畫風格,一位穿著樸素的少女拿出一杯珍珠奶茶,輕啟朱唇緩緩品嚐,動作優雅從容。畫面背景是一片深邃的暗色調,僅有的光線聚焦在少女臉上,營造出神秘而寧靜的氛圍。近景,側臉特寫。
提示詞:石人手臂隨著步伐自然擺動,背景光線逐漸從明亮轉為昏暗,營造出一種時間流逝的視覺效果。鏡頭始終保持靜止,聚焦於石人的動態變化。初始畫面中那個小巧的石人,隨著影片的推進,體型逐漸增大,最終在結尾畫面中,變身成為一個圓潤可愛的石頭女孩。
總的來說,萬相2.1語義理解和物理表現還是有待提高的,但整體審美線上,而且開源後或許會加快最佳化更新速度,期待後續可以有更好的呈現效果。
1
低成本、高效果、高可控
在演算法設計上,萬相依然基於主流DiT架構,和線性噪聲軌跡Flow Matching,看著有點複雜,其實大家都差不多是這個思路。
意思是先生成一堆噪點(類似電視雪破圖),直到圖片變成純噪聲,模型再開始“去噪”,將每個噪點放在該放的位置,透過多次迭代生成高質量的圖片。
但問題在於,傳統擴散模型生成影片時計算量極大,需要不停的進行排序最佳化,這就導致了一生成時間長但影片時間不夠長、二佔記憶體耗費算力。
這時候萬相提出了一個新穎的3D時空變分自動編碼器(VAE),稱為Wan-VAE,透過組合多種策略,改進了時空壓縮,減少了記憶體的使用。
這個技術有點類似於《三體》中的“二向箔”,將人從三維變成二維。時空壓縮的意思就是壓縮影片的時空維度,比如將影片分解為低維來表示,從生產一個三維的立方體,到先生成一個二維的立方體再還原成三維,或採用分層生成來提升效率。
舉個簡單的例子,Wan-VAE可以把一本《三國演義》壓縮成大綱,在大綱裡保留恢復內容的方法,大大降低了對記憶體的佔用,同時可以透過此方法,記住更長部頭的小說。
解決了內容佔用問題,就順帶解決了長影片生產的難題,傳統的影片模型只能處理固定長度,超過某一長度就卡頓或崩潰,但如果只儲存大綱,並記住前後關聯,那麼在生成每一幀時,臨時儲存前幾幀的關鍵資訊,便可以避免從第一幀開始重新計算。理論上,按照這種方法,可以對無限長度的1080P影片進行編碼和解碼,而不會丟失歷史資訊。
這也就是為什麼,萬相可以跑在消費級顯示卡上的原因。傳統的高畫質影片(如1080P)資料量太大,普通顯示卡記憶體不夠用。但萬相在處理影片前,先降低解析度,比如把1080P縮放到720P,減少資料量,生成完成後在用超分模型提升畫質到1080P。
經過萬相的測算,透過將空間降取樣壓縮提前,在不損失效能的情況下進一步減少了29%的推理時記憶體佔用,且生產速度快,畫質不縮水。
這一部分的技術創新,解決的是此前影片生成模型一直無法大規模應用的工程化難題。但與此同時,萬相也在生成效果上做了進一步最佳化。
比如精細化的運動控制,此前Runaway的原生影片模型的單物體、多物體的相對運動控制都是靠運動筆刷繪製軌跡來完成,而萬相允許使用者透過文字、關鍵點或簡單草圖控制影片中物體的運動方式(例如指定"蝴蝶從左下角盤旋飛入畫面")。
萬相2.1將使用者輸入的運動軌跡轉化為數學模型,在影片生成過程中,作為額外條件引導模型。但這還遠遠不夠,物體的運動要滿足真實世界的物理規律,在數學模型的基礎上,引入了物理引擎的計算結果,以提升運動的真實性。
總的來說,萬相的核心優勢在於透過工程化能力解決實際生產場景中的難題,同時透過模組化的設計為後續的迭代流出了空間。對於普通使用者來說,實實在在地降低了影片創作門檻。
全面開源的策略也徹底打破了影片模型付費的商業模式,萬相2.1的出現,2025年的影片生成賽道,又有好戲看了!

點個愛心,再走


相關文章