編輯 | Sia
咳咳,你還能分辨出什麼是真實的嗎?
不僅說話,它們還可以唱歌。仔細看她的嘴巴、臉頰和眼睛,甚至胸部的起伏,動作細節非常到位,是不是足以以假亂真?
不止是做數字「人」,任何形象——寵物、外星人,你想象得到的,都能立刻動起來。
這就是 HeyGen 剛剛釋出的 Avatar IV 模型——只需一張照片、一段指令碼、一段聲音,就能生成一個以假亂真的數字人,只需幾秒。工具連結:https://app.heygen.com/home Avatar IV 亮點可不少。
不止能處理正臉照,還支援側臉、半身、全身等多角度影像輸入,生成的數字人更立體、更生動,自帶電影鏡頭感,不再是死盯鏡頭的 AI 面癱臉。
更厲害的是,它不僅能說,還能唱。嘴型精準貼合音樂節奏,連眼神、頭部、身體(比如腹部)都會隨之起伏律動,細節拿捏到位。
核心升級來自一項新技術:基於擴散模型的音訊驅動表情引擎。
簡單理解,就是這套引擎能根據語音的節奏、語氣、情緒,自動生成對應的表情與動作。它不是單純對口型,而是能「聽懂」語義和情緒,做出停頓、點頭、語調起伏等細膩動作,像個真正會說話的人。
應用場景也因此拓寬了不少:動畫影片製作、虛擬寵物擬人化、遊戲角色配音、播客內容視覺化……統統都能用上。
訂閱使用者可上傳最長 30 秒的語音或文字,生成動態數字人影片,做個廣告綽綽有餘。
免費使用者則有每月 3 次機會,生成最長 10 秒影片。
好了,看看怎麼玩兒。
第一步,訪問 HeyGen 官網,選擇「照片轉影片」最新模型—— Avatar IV。

上傳一張你想讓它開口說話的照片,接著輸入文字指令碼+選擇聲音,或者直接上傳一段音訊。
我們上傳的是周星馳的劇照,配上哪吒的 Rap 打油詩音訊:
「天雷滾滾我好怕怕,劈得我渾身掉渣渣。突破天劫我笑哈哈,逆天改命我吹喇叭。」
注意:免費使用者最多生成 10 秒影片,別貪心,指令碼或音訊太長不會被系統支援。

沒有現成音訊?沒關係。系統自帶多種聲音,還能克隆自己的聲音,甚至接入第三方 API。
不過也有些小遺憾——相比英文,系統的中文聲音資源還不算豐富。
你可以根據方言口音、聲音性別、年齡、情緒(比如憤怒、興奮、平靜)、使用場景等維度篩選。

當然,不是每個聲音都支援豐富的情緒表達。


左右滑動檢視更多
準備就緒,點選「Generate」,等待片刻,成品影片立刻送達。
嘴型精準匹配,眼神、頭部、身體微動跟隨語音節奏,連喉結都跟著上下浮動,真實感拉滿。
接下來我們試了個更大膽的操作:
上傳編輯部同事家邊牧的照片,讓它來一段全球爆火的《APT.》。
照片中邊牧正好伸著舌頭,導致數字人效果略顯出戲,但其他部分表現依然線上,尤其是腹部細節,做得很到位。
蘇格蘭國立美術館用 X 光掃描梵高畫作《農婦頭像》,意外發現畫布背後竟藏著一幅自畫像,層層膠水和硬紙板封印多年。
於是我們嘗試:讓勃魯蓋爾筆下的名畫《老婦人的肖像》播報這則新聞——一下子,吸睛指數拉滿。
那麼,問題來了——你想做個什麼樣的數字人?還等什麼,快去試試吧。
以後我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。

© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]