清華特獎得主團隊影片生成AI一夜刷屏!100%開源+61頁技術報告,還能無限擴充套件生成,網友:遊戲規則改變者

夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAI
新國產AI影片生成模型橫空出世,一夜間全網刷屏。
Magi-1,首個實現頂級畫質輸出的自迴歸影片生成模型模型權重、程式碼100%開源
整整61頁的技術報告中還詳細介紹了創新的注意力改進和推理基礎設施設計,給人一種影片版DeepSeek的感覺。
Magi-1將影片生成捲到了新高度,大片級品質直接鎖住大家的眼球,請看VCR:
其主打能力,一是無限長度擴充套件,實現跨時間的無縫連貫敘事:
二是能將生成時長控制精確到每一“秒
另外,Magi-1對物理規律也有更深度的理解,Physics-IQ基準測試56.02%,大幅領先一眾頂流。
現在看這張圖,Sora的時代是真的過去了。
這匹“黑馬”來自中國團隊Sand.ai,中文名聽著有點萌叫三呆科技,實力卻不容小覷。
創始人,清華特獎得主、光年之外聯合創始人。
目前大夥兒可在官網免費試玩Magi-1。GitHub更是一晚過後狂攬500+Star。
次開源了從24B到4.5B引數的一系列模型,最低配置一塊4090就能跑。
網友們激動轉發測試,評價也是相當高,看一下這個feel:
這絕對是令人驚歎的工作。將自迴歸擴散應用於影片領域不僅是研究上的一大步,更是為現實世界的創意領域開闢了新可能。Magi-1在生成質量和精度上樹立了新標杆。
開源特性+令人矚目的基準測試表現=遊戲規則改變者。

無限長度擴充套件,控制精確到每“秒”

還有更多官方效果展示,先來欣賞一波~
比如漂在水面上的貓,水面自然晃動,波光粼粼:
抽著雪茄的海盜船長,頗有大
片的感jio:
光影等細節滿滿:
網友們也都陸陸續續曬出了自己的實測效果:
畫質超清晰,VR頭顯上的細微反光以及狗的鬍鬚和毛髮細節都栩栩如生。
還有網友生成了正在跳舞的小動物,belike:
量子位自然不能錯過,第一時間上手實測了一波。
玩法上,開啟Magi-1,主打圖生成影片,且是以一個“專案”為單位:
上傳好圖片之後,Magi-1像一張畫布一樣,呈現節點式的互動介面,點選圖片側邊加號按鈕就能建立一個“影片塊”。
開始設定prompt,支援精確調整時長,一次最長10s,也可設定Variations一次性生成多個影片:
稍等片刻,一隻活蹦亂跳的吉卜力小狗就生成好了。
我們第一次嘗試就得到了下面醬嬸兒的效果,小狗的動作姿態整體比較符合物理規律,沒有離譜的扭曲以及突然出現的第五條腿(doge)。
影片左邊還有自動改寫增強後的prompt。
接著,對這段影片進行擴充套件,小狗搖頭晃腦活蹦亂跳在表達什麼呢?
原來是在講述它今天在河裡游泳玩耍的事情。
把這一個個鏡頭“組裝”起來,分分鐘就能打造出一部連貫的敘事短片。
另外Magi-1中還有“資產管理”板塊,可基於生成的影片再建立一個新專案,進行二次加工創作。

完整模型架構、推理基礎設施公開

Magi-1公佈的技術論文足足有61頁之多。
Magi-1整體架構基於Diffusion Transformer,採用Flow-Matching作為訓練目標。
訓練分為多階段,第一階段固定解析度(256×256,16 幀),第二階段引入可變解析度和影像-影片聯合訓練,並在推理時使用滑動視窗方法來支援任意解析度。
其最大的特點是不把影片當成一個整體去生成,而是透過自迴歸去噪方式預測固定長度的影片片段(chunk),每個片段固定為24幀。
當前一個片段達到一定去噪水平後,便開始生成下一個片段。這種流水線設計最多可同時處理四個片段,提高影片生成的效率。
同時,這種約束早期片段噪聲水平低於後期片段的設計,確保了影片前後的因果性,避免片段的資訊影響過去,導致時間一致性差(如物體突然消失或運動軌跡斷裂)
配合這種分片段自迴歸設計,Magi-1在Diffusion Transformer的基礎上融入了多項改進。
光是在注意力機制上就有多項創新。
Block-Causal Attention
  • 片段內全注意力:每個影片片段內的所有幀間進行全注意力計算,捕捉片段內短時序依賴(如單片段內物體的快速運動)。
  • 片段間因果注意力:僅允許當前片段關注之前已生成的片段,禁止未來片段資訊反向流入,確保因果性。
  • 3D RoPE 位置編碼:結合空間和時間位置資訊,學習可訓練的基頻引數,提升長時序建模能力。
Parallel Attention Block
傳統DiT架構中自注意力(處理視覺特徵)和交叉注意力(處理文字條件)序列執行,需兩次TP通訊(Tensor Parallel);並行塊將兩者的查詢投影Q共享,僅需一次通訊,減少GPU間同步開銷
QK-NormGQA
QK-Norm是源自視覺Transformer的技術,透過歸一化查詢(Q)和鍵(K)的範數,穩定注意力權重計算,避免梯度爆炸/消失。Magi-1將其擴充套件到時空注意力和交叉注意力模組,提升訓練穩定性,尤其在240億引數規模下效果顯著。
接下來的GQA、FFN 中的三明治歸一化、SwiGLU大家就很熟悉了。
到了具體軟硬協同層面,論文還提出了可擴充套件分散式注意力機制MagiAttention。
Flex-Flash-Attention
基於FlashAttention-3,將不規則注意力掩碼分解為多個 AttnSlice,使各種常用注意力掩碼可表示為多個AttnSlice的組合,從而支援靈活的注意力掩碼型別。利用英偉達Hopper 架構的TMA 特徵,引入Slice級並行和原子操作,在支援靈活掩碼的同時,保持與FlashAttention-3相當的計算效能。
計算負載均衡
將整個掩碼沿查詢維度均勻劃分為多個dispatch chunks,並分配到不同的上下文並行(CP)對應的bucket中,使每個bucket包含相同數量的dispatch chunks,避免因負載不均衡導致的計算資源閒置。
零冗餘通訊原語
針對現有環形點對點通訊原語存在冗餘通訊的問題,引入group-cast和 group-reduce原語。根據注意力掩碼的需求,精準地傳送和收集關鍵值(KV)及梯度(dKV)資訊,避免不必要的通訊,實現零冗餘通訊。透過使用all-to-all-v原語進行原型實現,並藉助核心融合減少預處理和後處理開銷。
自適應多階段重疊
為實現真正的線性擴充套件,引入多階段計算-通訊重疊策略,將每個rank的遠端 KV/dKV 通訊劃分為多個階段。
在正向傳遞中,先啟動group-cast核心預取下一階段的遠端KV,然後非同步執行Flex-Flash-Attention(FFA)核心進行部分注意力計算;
在反向傳遞中,除了預取 KV,還在啟動 FFA 核心前,透過group-reduce核心減少上一階段的dKV。透過引入可調節超引數num_stages,根據不同訓練設定、微批次以及正向和反向傳遞的計算-通訊比率,自適應地控制重疊粒度。
所有這些改動作為一個完整的MagiAttention專案,程式碼也在GitHub上開源。
推理基礎設施方面,主要針對兩種場景進行設計:即時流式影片生成和在 RTX 4090 GPU 上的經濟高效部署,以滿足不同應用需求。
在即時流式影片生成上採用異構服務架構,將T5(提取文字Embedding,為影片生成提供語義資訊)和Magi-1部署在高效能GPU 上,VAE部分部署在經濟高效的硬體上,實現Magi-1推理和VAE解碼併發執行,並透過分析效能資料來分配資源,提升整體吞吐量。
針對RTX4090部署場景,借鑑語言模型將KV快取儲存在CPU記憶體中,根據需要動態載入回GPU。針對RTX4090的PCIe匯流排頻寬限制,提出Context Shuffle Overlap(CSO)技術,最佳化通訊與計算的重疊,提升計算資源利用率,使4.5B引數模型在單塊RTX 4090 GPU上部署時,峰值記憶體佔用控制在21.94GB;24B模型在8塊RTX4090 GPU上部署時,峰值記憶體佔用控制在19.29GB,且最大MFU(浮點運算數利用率)達到 58% 。
最後,評估結果分為內部人工評估、自動評估(VBench-I2V基準)、物理理解能力評估三部分。
人類評估中Magi-1與海螺、騰訊混元、通義萬相Wan2.1相比,尤其是在指令跟隨和運動質量方面有優勢,與閉源模型可靈1.6在視覺質量上還有一些差距。
在VBench-I2V基準上:MAGI-12×解碼器)以總分89.28排名第一,尤其在動態程度(Dynamic Degree)上有優勢,平衡運動幅度與影像質量。

曹越執掌的團隊,已完成三輪融資

Sand.AI創始人曹越,博士畢業於清華大學軟體學院,2018年獲清華大學特等獎學金。
讀博期間在微軟MSRA實習,2021年以Swin Transformer共同一作身份獲ICCV最佳論文“馬爾獎”
2022年,曹越與王慧文等共同創辦光年之外,後加入智源研究院領導多模態與視覺研究中心。
2023年曹越創辦Sand.ai,在很長一段時間保持隱身模式。
2024年7月,其投資方今日資本“風投女王”徐新的一條傳聞把Sand.ai炸出水面。
當時有人發帖稱“今日資本撤離一級市場”,徐新發朋友圈闢謠時透露,2024年5月今日資本領投了Sand.AI的早期融資。
到現在據瞭解,Sand.AI已完成三輪融資,主要參與方包括今日資本、經緯創投等。
創新工廠創始人李開復剛剛也發帖推薦了Sand.AI與Magi-1,稱“很高興看到繼 DeepSeek 之後,又有一家AI公司開發出世界一流的開源模型”。
目前Sand.ai具體融資金額,團隊規模等尚未可知,不過從MAGI-1論文附帶的貢獻者名單看,核心技術團隊至少有36人
其中很多成員與曹越在工作經歷上有交集。
創始成員方羽新,有微軟MSRA、智源研究院實習經歷,也是光年之外創始成員之一。
兩人在智源研究院期間在大規模視覺表徵預訓練模型EVA系列上多次合作。
核心貢獻者李凌志,也有MSRA實習經歷,曾擔任小紅書演算法主管和阿里巴巴集團達摩院演算法專家。
多位團隊成員在個人主頁等處介紹自己現在為一家隱形初創公司工作。
現在答案已經明瞭,他們在Sand AI,做AI影片生成界的DeepSeek。
線上試玩:https://sand.ai/
參考連結:[1] https://github.com/SandAI-org/MAGI-1[2]https://static.magi.world/static/files/MAGI_1.pdf[3]https://x.com/kaifulee/status/1914528611429966315
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章