效果有些粗糙,但你應該會留意到,人物不僅對上了口型,表情和身體也會隨之運動起來,看起來是比較協調的。我們用到的工具是,位元組的 AI 數字人技術 OmniHuman-1。它不僅讓 AI 對口型更接近真人說話的狀態,還將過程變得更加簡單:一張圖片、一段音訊,就能生成逼真的對口型影片,最長 15 秒。OmniHuman-1 目前正在即夢內測,點選「影片生成」,再點選「對口型」,如果你的賬號出現了「大師模式」,那麼恭喜你,已經體驗到了。
基於實踐,我們可以總結 OmniHuman-1 的幾個特點:正臉、側臉、多人、單人、非人、全身、半身,都能對上口型。說話、唱歌,都能對上口型。除了口型,表情、手勢、身體動作、背景也會保持動態。有時候口型會過於誇張,或者不完全準確。當嘴唇被口罩等物體完全遮擋,可能會對不上口型,甚至生成失敗。分分鐘二創小品、MV,讓整活影片變得更加簡單當 AI 讓對口型變得更簡單也更自然,做一些整活向的、鬼畜的影片,也就比以前更加容易,不用再逐幀編輯和手動調整,或者讓配音去配合人物的口型。技術已經 next level,如果只是用簡短的片段展示功能,多少有些浪費,於是,我們嘗試用即夢生成了開頭的銀魂版《賣柺》。操作起來也非常簡單,首先,我截取了《賣柺》裡超級經典的 30 秒音訊,把它切分成了一段段的臺詞。
對於普通的使用者而言,這就意味著,OmniHuman-1 把影片生成的門檻打下來了。當不要求必須是正臉圖片,不要求必須是特寫,生成的限制變得更少,想象空間變得更大,更多的鏡頭語言,可以被實現了。我們或許真的會迎來,AI 數字人的規模化,演講、直播、演唱會,都可以有它們的身影。愛因斯坦演說,黴黴唱日語歌,不存在的現實,可以由 AI 創造。現在的一些影片或許還能肉眼辨別,但當更多數字人能夠自然地說話,我們也要準備迎接一個眼見不再為實、耳聽也可為虛的未來。