2025.03.07

本文字數：1005，閱讀時長大約2分鐘

作者 | 第一財經鄭栩彤

大模型開源潮從文字模型蔓延到了影片生成領域。2月25日，阿里巴巴開源了萬相2.1影片生成模型，3月6日，騰訊開源圖生影片模型，階躍星辰也計劃在本月開源圖生影片模型。

據騰訊介紹，新開源的圖生影片模型總引數量130億，適用於寫實影片製作、動漫角色製作生成等，開源內容包含權重、推理程式碼和LoRA訓練程式碼。使用者上傳一張圖片，並簡短描述希望畫面如何運動、鏡頭如何排程，就能生成5秒短影片。使用者也可以輸入文字或音訊，讓圖片中的人物對口型說話或唱歌。

騰訊展示的影片生成案例包括愛因斯坦吃蘋果、梵高喝紅酒、機械馬走動、虛擬人物念繞口令等。從演示影片看，影片中的主體運動較為流暢，對口型也比較真實。

2月，阿里開源的萬相2.1影片生成模型則有14B（B為10億）和1.3B兩個引數規格，萬相2.1的特點包括支援無限長1080P影片的高效編解碼，以及首次實現中文文字影片生成功能。

就影片生成的成熟度和開源的作用，騰訊混元多模態生成技術負責人凱撒去年12月接受第一財經等媒體採訪時表示，影片生成開源生態不是很成氣候，最大的問題是開源的影片生成底模（基座模型）與閉源差距太大。影片生成所需算力、資料消耗量和影像生成相比是數量級的差距，業內不想把自己花大成本做出來的模型開源出來。而在這種閉門造車的情況下，很多人沒有用到最好的模型，混元於是在去年12月開源了文生影片模型。

此外，也有業內人士告訴記者，影片生成模型的技術路徑未完全清晰，行業還在摸索。在技術打磨階段，開源也能推動行業進步。

記者留意到，隨著近期多家大模型廠商推動開源，在能力較突出的影片生成大模型中，開源模型已佔有一席之地。記者在影片生成模型評測體系VBench榜單看到，萬相2.1模型目前列該榜單第一，總分86.22%，超過閉源的Sora。除此之外，排名前20的模型中還有另外6款模型標註為開源模型。騰訊去年12月推出的HunyuanVideo位列第12位，智譜旗下的CogVideoX1.5-5B位列第15位，這兩款均是開源模型。而在該榜單第20名至第50名中，開源模型的數量則遠超閉源模型。