真假難辨!阿里升級AI人像影片生成,表情動作直逼專業水準

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected][email protected]
EMO 最初由阿里巴巴通義實驗室提出,作為音訊驅動高表現力人像 AI 影片生成的先驅。現在,該實驗室的研究者帶來了升級版本「EMO2」!
只需提供一張人物的肖像圖片,你就可以輸入任意長度的音訊來驅動人物說話、唱歌或進行手勢舞。並且,生成的人物表情和動作都具備高度的感染力和專業水準。
  • 論文標題:EMO2: End-Effector Guided Audio-Driven Avatar Video Generation

  • 論文地址:https://arxiv.org/abs/2501.10687
  • 專案地址:https://humanaigc.github.io/emote-portrait-alive-2/
我們來看幾個影片生成示例:

1. 研究問題
AI 技術發展已經實現了透過音訊驅動人物面部表情的能力,但在虛擬主播、數字人互動等新興領域,如何讓 AI 透過音訊自動生成自然流暢的動作肢體語言和表情,始終是業界關注的技術焦點。
以往的方法可能難以透過音訊驅動生成流暢自然的手部動作,可能存在肢體錯亂或者動作幅度不夠大,表現力不夠高的問題。
這一領域的一個基本挑戰在於人類身體的複雜性,其作為一個多關節的複雜系統,比較難實現對於複雜豐富動作的驅動。以往的音訊驅動人體動作生成的方法在捕捉自然動作中多個關節的複雜耦合方面表現不足,導致效果欠佳。研究者表明,音訊與不同身體關節之間的關聯差異顯著。
受啟發於機器人控制系統對人類行為的模仿:機器人往往具有一個「末端執行器(end effector),比如機械手、鑽頭甚至足部等,它會在特定任務中將末端執行器移動到指定 pose,同時帶動其他結構部分動作,這些其他部分關節的角度往往透過逆向運動學(IK)來獲取。機器人的控制大多會關注於末端執行器上。
因此,研究者希望重新定義語音-人類動作生成這一任務的目標。手作為日常生活中的「末端執行器」(end effector),與人類意圖更緊密相關,並且與音訊之間的關係顯著。比如,當人類說話或唱歌時,往往會伴隨意圖明確的手勢。因此,建立音訊與手部動作的聯絡會更加簡單直接。
然而,類似於機器人控制,透過逆向運動學(IK)來獲得其他人體關節角度時,可能會出現奇異性,導致錯誤的運動規劃結果,EMO2 指出,影片生成模型往往具備一定生成人體結構的能力,因此 EMO2 提出可以將人體結構知識融入畫素生成,即「具有畫素先驗知識的 IK」(Pixels Prior IK)。
最終,EMO2 透過音訊生成手部動作,然後利用 2D 影片模型生成其他身體部位,從而實現自然高表現力的人物動作影片生成。
2. 技術方案
基於此靈感,研究者提出了一套兩階段的解決方案,用於音訊驅動的手勢及面部表情生成。
在第一階段,專注於建立音訊到手部動作的對映,基於 DIT 模型,藉助音訊與手部動作之間的強相關性,生成具有高表現力和高一致性的手勢動作。
在第二階段,研究者使用基於 diffusion UNet 架構的影片生成模型合成影片幀,以第一階段所生成的動作表徵作為引導,生成真實的面部表情和身體動作。
3. 效果對比
EMO2 分別對第一階段的動作生成和第二階段的影片生成做了結果對比。
在動作生成方面,EMO2 所生成的動作相比於以往的方法會具有更大運動範圍和多樣性,且與音訊的一致性會更強。
在人物影片生成方面,EMO2 相比以往的方法也存在顯著優勢,尤其是在手勢動作的多樣性和手部清晰度上。

4. 結論
EMO2 提出了一種基於擴散模型的兩階段框架,用於生成與音訊同步的人物唱歌 / 講話 / 手勢舞影片。EMO2 擴充套件了 EMO 模型,使其能夠生成上半身動作。EMO2 研究發現,在人類自然活動中,手部動作與其他身體部位相比,與音訊訊號最為相關。
因此,在第一階段,EMO2 基於音訊僅生成手部動作,然後將動作表徵作為第二階段影片生成中的控制訊號使用。實驗結果表明,該框架能夠生成比其他方法更加生動、富有表現力的人體影片。研究者希望這項工作能為音訊驅動影片生成的技術提供新的思路。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章