超越Sora!阿里萬相大模型正式開源,消費級顯示卡也能跑!

整理 | 褚杏娟
2 月 25 日訊息,阿里雲旗下視覺生成基座模型萬相 2.1(Wan)重磅開源,此次開源採用最寬鬆的 Apache2.0 協議,14B 和 1.3B 兩個引數規格的全部推理程式碼和權重全部開源,同時支援文生影片和圖生影片任務,全球開發者可在 Github、HuggingFace 和魔搭社群下載體驗。
開源地址:
Github: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
魔搭社群:https://modelscope.cn/organization/Wan-AI
據介紹,14B 萬相模型在指令遵循、複雜運動生成、物理建模、文字影片生成等方面表現突出,在權威評測集 VBench 中,萬相 2.1 以總分 86.22% 的成績大幅超越 Sora、Luma、Pika 等國內外模型,穩居榜首位置。1.3B 版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯示卡執行,僅需 8.2GB 視訊記憶體就可以生成高質量影片,適用於二次模型開發和學術研究。
(萬相 2.1 以總分 86.22% 的成績穩居 VBench 榜單第一)
在演算法設計上,萬相基於主流 DiT 架構和線性噪聲軌跡 Flow Matching 正規化,研發了高效的因果 3D VAE、可擴充套件的預訓練策略等。以 3D VAE 為例,為了高效支援任意長度影片的編碼和解碼,萬相在 3D VAE 的因果卷積模組中實現了特徵快取機制,從而代替直接對長影片端到端的編解碼過程,實現了無限長 1080P 影片的高效編解碼。此外,透過將空間降取樣壓縮提前,在不損失效能的情況下進一步減少了 29% 的推理時記憶體佔用。
萬相團隊的實驗結果顯示,在運動質量、視覺質量、風格和多目標等 14 個主要維度和 26 個子維度測試中,萬相均達到了業界領先表現,並且斬獲 5 項第一。尤其在複雜運動和物理規律遵循上的表現上大幅提升,萬相能夠穩定展現各種複雜的人物肢體運動,如旋轉、跳躍、轉身、翻滾等;能夠精準還原碰撞、反彈、切割等複雜真實物理場景。
(萬相在 14 個主要維度測試中斬獲 5 項第一及平均分第一)
從 2023 年開始,阿里雲就堅定大模型開源路線,其千問(Qwen)衍生模型數量已超過 10 萬個,是全球最大的 AI 模型家族。隨著萬相的開源,阿里雲實現了全模態、全尺寸大模型的開源。
生成效果如何
下面我們可以看下萬相 2.1 的實際生成效果。
輸入 Prompt:
體育攝影風格,騎手在場地障礙賽中引導馬匹快速透過障礙物。騎手身著專業比賽服,頭戴安全帽,表情專注而堅定,雙手緊握韁繩,雙腿夾緊馬腹,與馬匹完美配合。馬匹騰空躍起,動作連貫且準確,四蹄有力地踏過每一個障礙物,保持速度和平衡。背景是自然的草地和藍天,畫面充滿動感和緊張感。4K, 高畫質畫質, 動作完整。
生成圖片:
輸入 Prompt
體育攝影風格,中國皮划艇運動員在激流回旋比賽中,於湍急的水流中用槳快速划水,靈活地繞過一個又一個障礙物。他身著專業運動服,肌肉線條明顯,表情專注而堅定,展現出出色的操控技術和頑強的拼搏精神。背景是清澈的河流和翠綠的山巒,畫面充滿動感與活力。近景特寫,運動員在空中翻轉滑板,動作完整,4K, 高畫質畫質。
生成圖片:
輸入 Prompt:
一段超速 POV 鏡頭,攝像機疾馳穿越一條陽光下的中國鄉村小路,鏡頭緊跟著一個在空中飛行的穿著休閒服休閒鞋的中國女子的背後,她身體直立展開雙臂,風吹動她的頭髮和衣服。
生成圖片:
會議推薦
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。
今日薦文
DeepSeek開源周第二彈:第一個用於MoE模型訓推的EP通訊庫,暫只支援英偉達卡
一群技術人拉橫幅圍堵 OpenAI,不禁 AI 就一直鬧!
奧特曼婚後首曬娃,納德拉祝賀;AI 矽膠娃娃爆火,不續費變“啞巴”;黃仁勳首度回應 DeepSeek 衝擊|AI週報
第一個明星 AI 硬體將變成電子垃圾
你也「在看」嗎?👇

相關文章