11B模型拿下開源影片生成新SOTA！僅用224張GPU訓練，訓練成本省10倍

小明發自凹非寺

量子位 | 公眾號 QbitAI

224張GPU，訓出開源影片生成新SOTA！

Open-Sora 2.0正式釋出。

11B引數規模，效能可直追HunyuanVideo和Step-Video（30B）。

要知道，市面上諸多效果相近的閉源影片生成模型，動輒花費數百萬美元訓練成本。

而Open-Sora 2.0，將這一數字壓縮到了20萬美元。

同時，此次釋出全面開源模型權重、推理程式碼及分散式訓練全流程，開發者們可以看過來！

🔗GitHub開源倉庫：https://github.com/hpcaitech/Open-Sora

支援720P、24FPS高畫質生成

來看Open-Sora 2.0 Demo。

在動作幅度上，可以根據需求設定，更好展現人物或場景的細膩動作。

生成的影片裡，男人做俯臥撐動作流暢、幅度合理，和真實世界情況別無二致。

或者是讓番茄衝浪這種虛擬場景，水花、葉子船、番茄之間的動作也沒有違揹物理規律。

畫質和流暢度上，提供720P高解析度和24FPS流暢度，讓最終影片擁有穩定幀率與細節表現。

同時支援豐富場景切換，從鄉村景色到自然風光，Open-Sora 2.0生成的畫面細節與相機運鏡都有出色的表現。

11B引數規模媲美主流閉源大模型

Open-Sora 2.0採用11B引數規模，訓練後在VBench和人工偏好（Human Preference）評測上都取得與用高昂成本開發的主流閉源大模型同等水平，媲美HunyuanVideo和30B Step-Video。

在視覺表現、文字一致性和動作表現三個評估維度上，Open Sora在至少兩個指標上超越了開源SOTA HunyuanVideo，以及商業模型Runway Gen-3 Alpha等。以小成本獲取了好效能。

根據影片生成權威榜單VBench的評測結果，Open-Sora模型的效能進步顯著。從Open-Sora 1.2升級到2.0版本後，與行業領先的OpenAI Sora閉源模型之間的效能差距大幅縮小，從之前的4.52%縮減至僅0.69%，幾乎實現了效能的全面追平。

此外，Open-Sora 2.0在VBench評測中取得的分數已超過騰訊的HunyuanVideo，以更低的成本實現了更高的效能，為開源影片生成技術樹立了全新標杆。

實現突破：低成本訓練與高效能最佳化

Open Sora自開源以來，憑藉其在影片生成領域的高效與優質表現，吸引了眾多開發者的關注與參與。

然而，隨著專案的深入推進，也面臨著高質量影片生成成本居高不下的問題。為解決這些挑戰，Open Sora團隊展開了一系列卓有成效的技術探索，顯著降低了模型訓練成本。根據估算，市面上10B以上的開源影片模型，動輒需要上百萬美元的單次訓練成本，而Open Sora 2.0將該成本降低了5-10倍。

作為開源影片生成領域的領導者，Open-Sora不僅繼續開源了模型程式碼和權重，更開源了全流程訓練程式碼，成功打造了強大的開源生態圈。據第三方技術平臺統計，Open-Sora的學術論文引用量半年內獲得近百引用，在全球開源影響力排名中穩居首位，領先所有開源的I2V/T2V影片生成專案，成為全球影響力最大的開源影片生成專案之一。

模型架構

Open-Sora 2.0延續Open-Sora 1.2的設計思路，繼續採用3D自編碼器和Flow Matching訓練框架，並透過多桶訓練機制，實現對不同影片長度和解析度的同時訓練。在模型架構上，引入3D全注意力機制，進一步提升影片生成質量。

同時，採用最新的MMDiT架構，更精準地捕捉文字資訊與影片內容的關係，並將模型規模從1B擴充套件至11B。此外，藉助開源圖生影片模型 FLUX進行初始化，大幅降低訓練成本，實現更高效的影片生成最佳化。

高效訓練方法和並行方案全開源

為了追求極致的成本最佳化，Open-Sora 2.0從四個方面著手削減訓練開銷。

首先，透過嚴格的資料篩選，確保高質量資料輸入，從源頭提升模型訓練效率。採用多階段、多層次的篩選機制，結合多種過濾器，有效提升影片質量，為模型提供更精準、可靠的訓練資料。

其次，高解析度訓練的成本遠超低解析度，達到相同資料量時，計算開銷可能高達40倍。以256px、5秒的影片為例，其tokens數量約8千，而768px的影片tokens數量接近8萬，相差10倍，再加上注意力機制的平方級計算複雜度，高解析度訓練的代價極其昂貴。因此，Open-Sora優先將算力投入到低解析度訓練，以高效學習運動資訊，在降低成本的同時確保模型能夠捕捉關鍵的動態特徵。

與此同時，Open-Sora優先訓練圖生影片任務，以加速模型收斂。相比直接訓練高解析度影片，圖生影片模型在提升解析度時具備更快的收斂速度，從而進一步降低訓練成本。在推理階段，除了直接進行文字生影片（T2V），還可以結合開源影像模型，透過文字生圖再生影片（T2I2V），以獲得更精細的視覺效果。

最後，Open-Sora採用高效的並行訓練方案，結合ColossalAI和系統級最佳化，大幅提升計算資源利用率，實現更高效的影片生成訓練。為了最大化訓練效率，我們引入了一系列關鍵技術，包括：

高效的序列並行和ZeroDP，最佳化大規模模型的分散式計算效率。
細粒度控制的Gradient Checkpointing，在降低視訊記憶體佔用的同時保持計算效率。
訓練自動恢復機制，確保99%以上的有效訓練時間，減少計算資源浪費。
高效資料載入與記憶體管理，最佳化I/O，防止訓練阻塞，加速訓練流程
高效非同步模型儲存，減少模型儲存對訓練流程的干擾，提高GPU利用率。
運算元最佳化，針對關鍵計算模組進行深度最佳化，加速訓練過程。

這些最佳化措施協同作用，使Open-Sora 2.0在高效能與低成本之間取得最佳平衡，大大降低了高質量影片生成模型的訓練。

高壓縮比AE帶來更高速度

在訓練完成後，Open-Sora面向未來，進一步探索高壓縮比影片自編碼器的應用，以大幅降低推理成本。目前，大多數影片模型仍採用4×8×8的自編碼器，導致單卡生成768px、5秒影片耗時近30分鐘。

為解決這一瓶頸，Open-Sora訓練了一款高壓縮比（4×32×32）的影片自編碼器，將推理時間縮短至單卡3分鐘以內，推理速度提升10倍。

要實現高壓縮比編碼器，需要解決兩個核心挑戰：如何訓練高壓縮但仍具備優秀重建效果的自編碼器，以及如何利用該編碼器訓練影片生成模型。針對前者，Open-Sora團隊在影片升降取樣模組中引入殘差連線，成功訓練出一款重建質量媲美當前開源SOTA影片壓縮模型，且具備更高壓縮比的VAE，自此奠定了高效推理的基礎。

高壓縮自編碼器在訓練影片生成模型時面臨更高的資料需求和收斂難度，通常需要更多訓練資料才能達到理想效果。為解決這一問題，Open-Sora提出了基於蒸餾的最佳化策略，以提升AE（自編碼器）特徵空間的表達能力，並利用已經訓練好的高質量模型作為初始化，減少訓練所需的資料量和時間。此外，Open-Sora還重點訓練圖生影片任務，利用影像特徵引導影片生成，進一步提升高壓縮自編碼器的收斂速度，使其在更短時間內達到一定生成效果。

Open-Sora認為，高壓縮比影片自編碼器將成為未來降低影片生成成本的關鍵方向。目前的初步實驗結果已展現出顯著的推理加速效果，希望能進一步激發社群對這一技術的關注與探索，共同推動高效、低成本的影片生成發展。