2025.03.07

本文字數:1005,閱讀時長大約2分鐘
作者 | 第一財經 鄭栩彤
大模型開源潮從文字模型蔓延到了影片生成領域。2月25日,阿里巴巴開源了萬相2.1影片生成模型,3月6日,騰訊開源圖生影片模型,階躍星辰也計劃在本月開源圖生影片模型。
據騰訊介紹,新開源的圖生影片模型總引數量130億,適用於寫實影片製作、動漫角色製作生成等,開源內容包含權重、推理程式碼和LoRA訓練程式碼。使用者上傳一張圖片,並簡短描述希望畫面如何運動、鏡頭如何排程,就能生成5秒短影片。使用者也可以輸入文字或音訊,讓圖片中的人物對口型說話或唱歌。
騰訊展示的影片生成案例包括愛因斯坦吃蘋果、梵高喝紅酒、機械馬走動、虛擬人物念繞口令等。從演示影片看,影片中的主體運動較為流暢,對口型也比較真實。
2月,阿里開源的萬相2.1影片生成模型則有14B(B為10億)和1.3B兩個引數規格,萬相2.1的特點包括支援無限長1080P影片的高效編解碼,以及首次實現中文文字影片生成功能。
就影片生成的成熟度和開源的作用,騰訊混元多模態生成技術負責人凱撒去年12月接受第一財經等媒體採訪時表示,影片生成開源生態不是很成氣候,最大的問題是開源的影片生成底模(基座模型)與閉源差距太大。影片生成所需算力、資料消耗量和影像生成相比是數量級的差距,業內不想把自己花大成本做出來的模型開源出來。而在這種閉門造車的情況下,很多人沒有用到最好的模型,混元於是在去年12月開源了文生影片模型。
此外,也有業內人士告訴記者,影片生成模型的技術路徑未完全清晰,行業還在摸索。在技術打磨階段,開源也能推動行業進步。
記者留意到,隨著近期多家大模型廠商推動開源,在能力較突出的影片生成大模型中,開源模型已佔有一席之地。記者在影片生成模型評測體系VBench榜單看到,萬相2.1模型目前列該榜單第一,總分86.22%,超過閉源的Sora。除此之外,排名前20的模型中還有另外6款模型標註為開源模型。騰訊去年12月推出的HunyuanVideo位列第12位,智譜旗下的CogVideoX1.5-5B位列第15位,這兩款均是開源模型。而在該榜單第20名至第50名中,開源模型的數量則遠超閉源模型。

影像生成模型作為圖生影片模型的基礎,記者還從香港大學經管學院獲悉,該學院今日釋出了《人工智慧模型影像生成能力綜合評測報告》。在新影像生成內容質量(包括圖文一致性、美感等維度)方面,位元組即夢AI位列第一,在該榜單前20名內,包括DALL-E3、Hunyuan-DiT在內的多個模型是開源模型。
微信編輯 | 生產隊的驢(拉磨版)
推薦閱讀
超越DeepSeek!騰訊元寶登頂!

