一水 發自 凹非寺
量子位 | 公眾號 QbitAI
就在剛剛,騰訊版Sora補齊了又一重要拼圖——圖生影片。
而且還是熟悉的配方,和去年12月釋出的文生影片模型HunyuanVideo一樣,釋出即開源。

那麼,此次上新的「圖生影片」到底有多強呢?
有網友直接用它製作了一部電影:
可以看到,新功能在畫質、物體一致性等方面有了很大提升。
目前該功能已上線騰訊混元AI影片,人人都可免費體驗(有次數限制)。

話不多說,量子位一手實測走起~
實測騰訊混元「圖生影片」
有一說一,圖生影片這項功能本身在影片AI領域已不新奇,但難的是生成效果好。
而在各位玩家狂卷生成效果的途中,一些老大難問題逐漸“露面”,併成為檢驗和驅動影片AI進化的法寶。
所以,為了直觀展示騰訊版Sora的「圖生影片」能力,我們直接從這些難題入手。

難題1:是否符合現實物理規律
眾所周知,從影片AI誕生至今,生成符合現實物理規律的影片堪稱行業難題。
一不小心就各種手腳滿天飛,讓人直呼恐怖:

所以這第一關,我們直接來個大招——讓騰訊混元影片AI還原運動員跳水。
而且為了整活兒,選取的原圖就有“炸魚”的傾向了(doge):
(右側為AI生成的原圖和提示詞,選取2K影片)

最終效果be like:
首先,為了保證畫質,我們一開始就特意選了「2K影片」(預設為高品質),並選擇更通用的混元圖生1.0(另一個針對人像最佳化)。

從結果可以看到,整體畫面還是比較高畫質的,隨手一截都有點像體育頻道報道。
質量上,相比早期的“手腳亂飛”也明顯有很大進步,一眼看去沒有明顯錯誤。
然鵝,如果要拿放大鏡來看,一些細節還是經不起推敲。
比如運動員左手的大小比例在下面這個瞬間有點問題,手掌明顯過寬;另外手勢在變換的過程中,摳圖感明顯,能從這裡看出影片由AI生成。

所以,要想實現100%還原真實物理規律,大噶還得加油啊~
BTW,雖然生成的影片目前只有5秒,但不難想見這位小哥落水時即將炸魚了。

難題2:能否“無中生有”
Okk,難題繼續。
為了考驗影片生成AI的可控性,我們來看這樣一張原圖:(草原上沒有一隻動物)

輸入prompt,“圖中出現了一匹馬”,最終結果如下:
可以看到,影片中確實出現了一匹白色駿馬在草原上慢慢行走。
除此之外,我們繼續搬出大家心心念唸的一個功能來挑戰——在畫面中生成文字(中文或英文)。
個人多次實測後發現,目前暫時無法在影片中憑空生成文字(大家有成功案例可以在評論區補充)。
不過也有一種間接方法能夠實現:先在圖片中生成文字(可以用騰訊豆包AI的畫圖功能),再將圖片轉換成動態影片。

嗯,也是給量子位打上了賽博廣告(doge)~
所以,在讓影片“無中生有”這方面,除了新增文字不可控,其他元素已經可以輕鬆拿捏了。
難題3:能否準確遵循指令
接下來,圖片搭配文字提示詞,也能用來考察影片生成AI是否理解使用者意圖了。
騰訊混元影片AI,在上傳圖片後,可以透過正面(想要哪些畫面)和反面(不想要哪些)提示詞來設計整個畫面。

這裡我們又拿騰訊混元影片的“獨家藝能”來測試。早在文字生成影片的功能釋出後,他們就主推了在畫面主角保持不變的情況下自動切鏡頭的這項功能,當時號稱這是業界大部分模型所不具備的能力。
所以,我們這次的prompt如下:
一位外國美女穿著漢服,頭髮飄揚,背景是長城,然後鏡頭切換到正面特寫。

最終生成結果如下:
乍看之下,鏡頭從側臉切換到正臉銜接挺自然,連發絲都始終在空中飄揚。
但是一摳細節,後來的黃色髮夾有點突兀了,所以在整體一致性上仍有完善空間。
難題4:能否保證連貫一致性
當然,光是準確還原指令還不夠,更重要的是要讓所有元素自然鋪開。
換句話說,還要考察圖片轉化成影片後的動作、場景過渡是否自然流暢,有無明顯的卡頓、跳躍或不連貫的情況。
嗯,依舊上難度——鏡子題材下的運動一致性考驗。
穿著白床單的幽靈面對著鏡子。鏡子中可以看到幽靈的倒影。幽靈位於佈滿灰塵的閣樓中,閣樓裡有老舊的橫樑和被布料遮蓋的傢俱。閣樓的場景映照在鏡子中。幽靈在鏡子前跳舞。電影氛圍,電影打光。

最終效果如下:
一般來說,鏡子題材可以用來考驗模型對光影的理解,以及鏡子內外主體運動是否能保持一致。
而上面這個生成效果著實驚豔,當身披白床單的幽靈“手舞足蹈”時,鏡子裡的動作非常一致,而且連地上的光影變換也非常符合物理規律。
整體看起來相當絲滑~
Okk,幾個堪稱最難的測試到此告一段落。實測下來,騰訊混元的「圖生影片」新功能在這些最難挑戰上有了很大進步,但離100%符合物理規律和完全一致性仍有一段距離。
最後附上來自官方的寫prompt小tips:
用法1:提示詞 = 主體+動作 (相對簡短的表述效果更優)
主體:影片的主要表現物件要與與輸入圖片一致,可以為人、動物、植物、物品等,簡單描述即可,比如一個女孩、一個熊貓等。
動作:對主體動作或狀態的描述,用詞建議簡單且清晰具體,最好有動態感,比如戴眼鏡->用手戴上眼鏡,喝水->用手舉起杯子喝水。
用法2:提示詞 = 主體+動作 +運鏡方式
運鏡方式:鏡頭的運動方式,比如靜止鏡頭、鏡頭平移向右,鏡頭縮放等。

網友瘋狂試玩ing
與此同時,網友們的第一波鮮測也出爐了:

感興趣的童鞋可以玩起來了~
線上免費體驗:
https://video.hunyuan.tencent.com/
Github:
https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:
https://huggingface.co/tencent/HunyuanVideo-I2V
參考連結:
[1]https://x.com/TXhunyuan/status/1897558826519556325
[2]https://x.com/iamhk/status/1897557803755253850
— 完 —
評選報名|2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!

一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!