騰訊圖生影片全面開源，更懂物理規律，一手實測來了

2025-09-11 20:11 量子位

一水發自凹非寺

量子位 | 公眾號 QbitAI

就在剛剛，騰訊版Sora補齊了又一重要拼圖——圖生影片。

而且還是熟悉的配方，和去年12月釋出的文生影片模型HunyuanVideo一樣，釋出即開源。

那麼，此次上新的「圖生影片」到底有多強呢？

有網友直接用它製作了一部電影：

可以看到，新功能在畫質、物體一致性等方面有了很大提升。

目前該功能已上線騰訊混元AI影片，人人都可免費體驗（有次數限制）。

話不多說，量子位一手實測走起~

實測騰訊混元「圖生影片」

有一說一，圖生影片這項功能本身在影片AI領域已不新奇，但難的是生成效果好。

而在各位玩家狂卷生成效果的途中，一些老大難問題逐漸“露面”，併成為檢驗和驅動影片AI進化的法寶。

所以，為了直觀展示騰訊版Sora的「圖生影片」能力，我們直接從這些難題入手。

難題1：是否符合現實物理規律

眾所周知，從影片AI誕生至今，生成符合現實物理規律的影片堪稱行業難題。

一不小心就各種手腳滿天飛，讓人直呼恐怖：

所以這第一關，我們直接來個大招——讓騰訊混元影片AI還原運動員跳水。

而且為了整活兒，選取的原圖就有“炸魚”的傾向了(doge）：

（右側為AI生成的原圖和提示詞，選取2K影片）

最終效果be like：

首先，為了保證畫質，我們一開始就特意選了「2K影片」（預設為高品質），並選擇更通用的混元圖生1.0（另一個針對人像最佳化）。

從結果可以看到，整體畫面還是比較高畫質的，隨手一截都有點像體育頻道報道。

質量上，相比早期的“手腳亂飛”也明顯有很大進步，一眼看去沒有明顯錯誤。

然鵝，如果要拿放大鏡來看，一些細節還是經不起推敲。

比如運動員左手的大小比例在下面這個瞬間有點問題，手掌明顯過寬；另外手勢在變換的過程中，摳圖感明顯，能從這裡看出影片由AI生成。

所以，要想實現100%還原真實物理規律，大噶還得加油啊~

BTW，雖然生成的影片目前只有5秒，但不難想見這位小哥落水時即將炸魚了。

難題2：能否“無中生有”

Okk，難題繼續。

為了考驗影片生成AI的可控性，我們來看這樣一張原圖：（草原上沒有一隻動物）

輸入prompt，“圖中出現了一匹馬”，最終結果如下：

可以看到，影片中確實出現了一匹白色駿馬在草原上慢慢行走。

除此之外，我們繼續搬出大家心心念唸的一個功能來挑戰——在畫面中生成文字（中文或英文）。

個人多次實測後發現，目前暫時無法在影片中憑空生成文字（大家有成功案例可以在評論區補充）。

不過也有一種間接方法能夠實現：先在圖片中生成文字（可以用騰訊豆包AI的畫圖功能），再將圖片轉換成動態影片。

嗯，也是給量子位打上了賽博廣告（doge）~

所以，在讓影片“無中生有”這方面，除了新增文字不可控，其他元素已經可以輕鬆拿捏了。

難題3：能否準確遵循指令

接下來，圖片搭配文字提示詞，也能用來考察影片生成AI是否理解使用者意圖了。

騰訊混元影片AI，在上傳圖片後，可以透過正面（想要哪些畫面）和反面（不想要哪些）提示詞來設計整個畫面。

這裡我們又拿騰訊混元影片的“獨家藝能”來測試。早在文字生成影片的功能釋出後，他們就主推了在畫面主角保持不變的情況下自動切鏡頭的這項功能，當時號稱這是業界大部分模型所不具備的能力。

所以，我們這次的prompt如下：

一位外國美女穿著漢服，頭髮飄揚，背景是長城，然後鏡頭切換到正面特寫。

最終生成結果如下：

乍看之下，鏡頭從側臉切換到正臉銜接挺自然，連發絲都始終在空中飄揚。

但是一摳細節，後來的黃色髮夾有點突兀了，所以在整體一致性上仍有完善空間。

難題4：能否保證連貫一致性

當然，光是準確還原指令還不夠，更重要的是要讓所有元素自然鋪開。

換句話說，還要考察圖片轉化成影片後的動作、場景過渡是否自然流暢，有無明顯的卡頓、跳躍或不連貫的情況。

嗯，依舊上難度——鏡子題材下的運動一致性考驗。

穿著白床單的幽靈面對著鏡子。鏡子中可以看到幽靈的倒影。幽靈位於佈滿灰塵的閣樓中，閣樓裡有老舊的橫樑和被布料遮蓋的傢俱。閣樓的場景映照在鏡子中。幽靈在鏡子前跳舞。電影氛圍，電影打光。

最終效果如下：

一般來說，鏡子題材可以用來考驗模型對光影的理解，以及鏡子內外主體運動是否能保持一致。

而上面這個生成效果著實驚豔，當身披白床單的幽靈“手舞足蹈”時，鏡子裡的動作非常一致，而且連地上的光影變換也非常符合物理規律。

整體看起來相當絲滑~

Okk，幾個堪稱最難的測試到此告一段落。實測下來，騰訊混元的「圖生影片」新功能在這些最難挑戰上有了很大進步，但離100%符合物理規律和完全一致性仍有一段距離。

最後附上來自官方的寫prompt小tips：

用法1：提示詞 = 主體+動作（相對簡短的表述效果更優）

主體：影片的主要表現物件要與與輸入圖片一致，可以為人、動物、植物、物品等，簡單描述即可，比如一個女孩、一個熊貓等。

動作：對主體動作或狀態的描述，用詞建議簡單且清晰具體，最好有動態感，比如戴眼鏡->用手戴上眼鏡，喝水->用手舉起杯子喝水。

用法2：提示詞 = 主體+動作 +運鏡方式

運鏡方式：鏡頭的運動方式，比如靜止鏡頭、鏡頭平移向右，鏡頭縮放等。

網友瘋狂試玩ing

與此同時，網友們的第一波鮮測也出爐了：

感興趣的童鞋可以玩起來了~

線上免費體驗：

https://video.hunyuan.tencent.com/

Github:

https://github.com/Tencent/HunyuanVideo-I2V

Huggingface：

https://huggingface.co/tencent/HunyuanVideo-I2V

參考連結：

[1]https://x.com/TXhunyuan/status/1897558826519556325

[2]https://x.com/iamhk/status/1897557803755253850

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

騰訊版Sora來了！我們搶先實測：最懂鏡頭的AI，有《花樣年華》那味了

騰訊版Sora來了！我們搶先實測：最懂鏡頭的AI，有《花樣年華》那味了

《哪吒2》破140億！讓申公豹長毛太難，AI幾分鐘搞定，特效師含淚點贊

《哪吒2》破140億！讓申公豹長毛太難，AI幾分鐘搞定，特效師含淚點贊

Meta深夜炸場：首款天價AR眼鏡問世！真機上手，黃仁勳親自站臺

Meta深夜炸場：首款天價AR眼鏡問世！真機上手，黃仁勳親自站臺

一部專業AIGC影片是如何誕生的？這門課給你答案

一部專業AIGC影片是如何誕生的？這門課給你答案

最新測評！美圖大模型提前揭秘，這波風格化美到窒息

最新測評！美圖大模型提前揭秘，這波風格化美到窒息

最強開源短劇創作模型來了！33種表情、400種肢體動作，好萊塢級AI導演監製

最強開源短劇創作模型來了！33種表情、400種肢體動作，好萊塢級AI導演監製

實測MetaAI眼鏡：外來的和尚不會念經

實測MetaAI眼鏡：外來的和尚不會念經

佳能推出vlog新相機，售價可能超七千元

佳能推出vlog新相機，售價可能超七千元

20天使用者超百萬，全球增速第一！這家國產影片模型公司是真的“快”

20天使用者超百萬，全球增速第一！這家國產影片模型公司是真的“快”

粉毛小姐姐竟是AI？谷歌新玩具Veo2快把Vlog界整瘋了

粉毛小姐姐竟是AI？谷歌新玩具Veo2快把Vlog界整瘋了

Copyright © 2025 | WordPress Theme by MH Themes