
在 InfoQ 舉辦的 QCon 全球軟體開發大會上,支付寶多模態應用實驗室研究員李宇明做了專題演講“EchoMimic:多模態大模型驅動下的生成式數字人技術與應用”,他圍繞 EchoMimic 系列開源生成式數字人專案,介紹了生成式數字人領域最新進展、 EchoMimic 背後的技術細節、生成式數字人相關應用場景以及該領域後續研究思路與方法。
內容亮點
-
生成式數字人領域的技術路線,最新進展,以及與多模態大模型應用結合趨勢
-
EchoMimic 系列生成式數字人開源專案的技術細節
-
生成式數字人領域後續研究方向
以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。
隨著多模態大模型的不斷發展,生成式數字人的技術融合趨勢也日益明顯。透過結合視覺、語音和自然語言等多種模態資料,生成式數字人可以更加完整地呈現出真實世界中的人的行為和交流方式。這種技術融合趨勢將進一步推動生成式數字人在虛擬現實、增強現實、人機互動等領域的廣泛應用。
EchoMimic 是支付寶多模態應用實驗室釋出並開源的數字人技術專案,僅需輸入一張參考影像、一段音訊及一段手勢序列,即可生成高質量人物動畫影片,同時確保半身數字人與音訊內容之間的協調。EchoMimic V1 論文中稿人工智慧領域頂級國際會議 AAAI 2025,EchoMimic V2 論文中稿世界國際計算機視覺與模式識別會議 CVPR 2025。
本演講將圍繞 EchoMimic 系列開源生成式數字人專案,介紹生成式數字人領域最新進展、詳細講解 EchoMimic 背後的技術細節、以及生成式數字人相關應用場景,及該領域後續研究思路與方法。
在生成式數字人出現之前,傳統的數字人主要有兩個發展方向。第一個方向是 2D 數字人,它是一種平面狀態的數字人。在業界,2D 數字人的製作主要有兩種主流方式。第一種方式本質上是“換嘴”路線。在 AIGC 出現之前,這種方式的思路較多。主要方法是透過對抗學習(GAN),先將模板影片的嘴部區域遮蓋,然後利用音訊驅動技術將嘴部替換上去。目前,這種模型被廣泛應用。除了 GAN 方案外,之前還有一種常用的方法是利用神經輻射場(NeRF)進行建模。
這兩種方式的優勢比較明顯。首先,它們的製作成本較低,適合快速、簡單、高效的技術路線。例如,換嘴方式可以透過採購大量高畫質模特模板來實現。當音訊輸入後,透過換嘴技術使嘴型與音訊匹配,這種方式速度快,演算法相對簡單,最佳化成本也較低。其次,在特定場景下,比如政務播報和新聞播報這類對錶情和動作幅度要求不高的場景,這種方案的效果是可以接受的。
然而,這兩種方案也存在一些不足之處。首先,優質的 2D 數字人效果依賴於模板影片,而模板影片的採購成本較高,涉及版權和錄影棚拍攝等問題。其次,高質量的驅動和手勢動作仍然是一個挑戰。這種技術路線更適合播報類場景,但對於喜劇、唱歌或情緒表達要求較高的場景則不太適用。最後,人物的動作和嘴型生成在準確性、自然度和靈活度方面仍有不足,因為它們基於 GAN 的思路,表徵能力有限。
除了前面提到的 2D 數字人之外,在 AIGC 出現之前,3D 數字人也是一種常見的數字人形式。3D 數字人在生活中較為常見,比如在政務服務平臺或醫院的導診臺上,可以看到這種 3D 形象。這些 3D 數字人可以進行簡單的互動,例如介紹醫院的導診資訊等。
3D 數字人的發展主要圍繞兩個方向:智慧建模和智慧驅動。智慧建模是指透過一套完整的建模和美工方式,將 3D 數字人的形象構建出來。因為 3D 數字人是動畫效果,所以需要專業的建模技術。智慧驅動則是讓建好的模型動起來,即透過驅動技術使數字人能夠進行互動。
在技術方面,隨著 3DMM(3D Morphable Model)技術的普及和可微渲染技術的發展,3D 數字人的製作成本有所降低,但仍然存在一定的成本。3D 數字人的優勢也比較明顯。首先,與 2D 數字人相比,3D 數字人具有更強的互動能力。例如,3DMM 演算法本質上是表情驅動,只要模型和引數設定得當,表情可以做得比較自然。其次,3D 數字人在形象和人設方面可以做得比 2D 逼真,符合業務場景的需求,可以生成多種角色。
然而,3D 數字人也存在明顯的不足。首先,建模和驅動技術難度較大,技術鏈較長。從人物建模、動作設計、驅動到渲染,每個環節都需要緊密配合,任何一個環節出現問題,都會影響整體效果。其次,建模過程複雜,例如需要使用複雜的相機矩陣進行人物建模,而驅動則需要專業的動作捕捉裝置和真人穿戴採集,整個過程較為繁瑣。第三,建模方式難以保證數字人的質量,因為建模不僅依賴演算法,還需要大量人工參與,要達到理想的效果並不容易,往往看起來不夠真實。最後,3D 數字人不適合需要高寫實人像生成的應用場景,因為無論建模多麼精確,與真實人物相比仍有較大差距,容易讓人一眼看出是假的。
近兩年,隨著 AIGC 技術的發展,在傳統的 2D 和 3D 數字人之外,又出現了一種新的思路——生成式數字人。生成式數字人利用 AIGC 技術生成影像和影片的能力,結合多種方法,以深度學習的方式解決了傳統 2D 和 3D 數字人面臨的問題和挑戰。
生成式數字人的優勢主要體現在以下幾點:
-
成本低:只要有足夠的計算資源進行推理,就可以生成高質量的影像和影片。
-
克服傳統數字人的劣勢:其外貌和人設都是由 AI 生成的,可以根據需求生成不同角色、人物和逼真度,逼真度和表觀度比傳統數字人強很多。
-
控制方便:可以利用語音和動作對數字人進行控制,比 3D 數字人中複雜的動作捕捉控制要容易很多。
-
演算法潛力大:AIGC 技術近年來發展迅速,其技術天花板不斷提高,生成式數字人的演算法天花板也隨之上升,相比傳統 2D 和 3D 數字人有明顯優勢。
不過,生成式數字人也存在一些不足:
-
技術較新:可參考的工作不多,開源的工作更是稀缺。
-
推理成本和時間高:目前的演算法很難適配大規模推理,導致成本較高。
-
語音驅動技術尚不成熟:語音驅動是指利用音訊讓一張照片變成活靈活現的人物,目前這方面的可參考工作較少。
在數字人的演算法解決方案方面,主要有三種控制條件:語音、文字、姿勢和深度資訊等。這些控制條件的目的是讓數字人動起來。生成模型方面,目前主流的有 Stable Diffusion 和 DIT 架構。根據去年年底清華大學的一篇綜述,目前數字人發展的主流方向有三條路線:
-
視覺驅動(Vision):透過一個影片驅動另一張照片進行相同的動作。例如,港科大的 Flow with Emoji、快手的 Live Portrait、騰訊的 Mimic Motion、復旦的 Stable Animator、位元組的 Human DIT 和 Dream Actor 等。
-
文字驅動(Text):文字驅動與視覺驅動和音訊驅動有重疊,目前研究相對較少,更多是作為視覺和音訊的輔助條件。
-
音訊驅動(Audio):利用音訊讓照片變成活靈活現的數字人。例如,阿里的 EMO、微軟的 Vasa、復旦的 Hallo、EchoMimic、達摩院的 EMO 2、位元組的 Omni Human 和 Meta 的 Mocha 等。
從技術演進來看,視覺驅動方向發展較為迅速,出現了多個知名的研究成果。文字驅動方向相對較少,主要是作為輔助條件。音訊驅動方向則有多個知名的研究成果,其中 Omni Human 和 Mocha 可能是目前業界的天花板。

從時間軸來看,演算法的迭代速度越來越快。最初,技術迭代是以月為單位的,而現在,每週都會出現大量新的研究成果。例如,最早有 AnimateAnyone 演算法,當時阿里剛釋出該演算法時,由於未開源,大家在 GitHub 上展開了熱烈討論,對其效果感到驚歎,一張照片竟能被驅動得如此栩栩如生,該演算法在 GitHub 上的點贊數估計已有十幾萬。
2023 年 2 月,出現了 EMO 演算法,當時大家對這一技術感到非常興奮,認為其效果不可思議。4 月左右,Animate Anyone 和 EMO 被整合到通義 APP 中,分別命名為全民舞王和全民歌王。EMO 的效果尤其令人震驚,一張照片透過口型驅動後,幾乎看不出是假的。
2024 年 6 月,騰訊開源了 MimicMotion 演算法,其效果較 AnimateAnyone 有了進一步提升。由於 EMO 未開源,其技術天花板較高,因此螞蟻團隊沿著這一技術路線開發了第一版 EchoMimic V1,從效果上看已能與 EMO 基本對齊,但由於 EMO 未開源,無法進行定量評測,只能從定性角度進行比較。
2024 年 9 月,位元組釋出了 CyberHost 演算法,效果不錯。此前,Google 的 Vlogger 演算法思路是用音訊驅動半身或全身人物,而不僅是一個頭部。7 月,螞蟻團隊已開始佈局類似演算法,但稍晚於位元組,在 11 月釋出了開源的 EchoMimic V2,對標 CyberHost。
從 2024 年 11 月到 2025 年 1 月,技術發展迅速。1 月,阿里釋出了 EMO2,效果達到新高度,大表情的表證度和歌唱場景的逼真度都非常出色。2 月,位元組釋出了基於姿態驅動的演算法 HumanDit。之後,位元組推出了著名的 OmniHuman 演算法,現已上線整合到創作大師中,效果非常好。4 月,Meta 釋出了 Mocha 演算法,位元組也釋出了 DreamActor-m1。整體來看,到今年這一時間點,技術進展非常迅速,與視覺生成影片大模型結合後,其能力天花板將進一步提升。
EchoMimic V2 版本是對 V1 版本的重要升級,從僅支援數字臉擴充套件到支援數字人。使用者只需輸入一張圖片、一段音訊以及一段手勢,即可生成數字人。V1 版本當時對標的是 EMO,目標是利用人物頭像和音訊驅動人物頭像動起來。然而,大家都知道,數字人的要求遠不止一個頭像,因此我們將 V1 版本擴充套件到 V2 版本,V2 可以支援半身驅動。目前,我們的開源版本在效果上已經接近市面上的一些商業解決方案,並且在驅動模態上展現了較高的靈活性。例如,V1 版本不僅可以用語音驅動,還可以用姿態驅動,也支援混合驅動;V2 版本則進一步支援手勢自定義。目前,這兩個版本都已經開源,V1 版本被今年的 AAAI 會議接收,V2 版本被今年的 CVPR 會議接收,感興趣的朋友可以去閱讀相關論文。
在技術架構方面,V1 版本採用了之前 AnimateAnyone 的雙塔 SD 模型架構。如果大家早期就開始研究影片生成,應該對這套架構比較熟悉。它主要包含兩個 unit 結構:上面的 unit 主要用於保持表觀特徵,例如保持人物 ID 和衣服形狀等;下面的 unit 是 SD 模型的擴充套件版,主要負責生成影片。我們在這一基礎上,增加了一些訓練策略,透過 cross attention 的方式引入音訊,從而達到了當前的效果。目前,該版本支援三種驅動方式:第一種是音訊驅動,即只輸入音訊即可驅動;第二種是純姿態驅動,這種方式類似於快手的 Live Portrait,只需輸入姿態,人物就會跟隨姿態動起來;第三種是混合驅動,即同時控制面部姿態和嘴部動作,嘴部動作根據音訊進行驅動,我們在演算法中進行了進一步擴充套件,實現了姿態和音訊的混合驅動。

EchoMimic V2 版本是對 V1 版本的進一步擴充套件。V1 版本僅支援面部動畫生成,這在業務和學術價值上相對有限。因此,團隊在參考了 CyberHost 等技術,並結合自身內部需求後,推出了 V2 版本。V2 版本的主架構與 V1 保持一致,但其核心創新點在於實現 V1 和 V2 資料的通用性。V1 版本積累了大量高質量的“大頭”資料,這些資料包含清晰的嘴型和音訊資訊。然而,V2 版本需要半身資料,尤其是手部清晰、正面且無字幕的資料,這類資料在網際網路上較難獲取。為了解決這一問題,團隊設計了特定的訓練策略,將 V1 資料與 V2 資料結合進行混合訓練。具體的訓練策略細節可以在相關論文中查閱。
目前開源版本的 EchoMimic V2 需要預定義一個初始姿勢,即使用者需要先錄製一段手部姿勢,然後數字人可以根據這個姿勢做出相應動作。由於開源版本需要人工錄製或從其他影片中採集姿勢序列,我們團隊進一步更新了內部版本,將姿勢生成自動化。具體來說,團隊開發了一個“Audio to Pose”模組,該模組可以在音訊驅動影像的同時,自動生成姿勢。這樣,無論是 3D 手部姿勢還是 2D 姿勢,都可以基於音訊自動生成,從而實現數字人的連續推理和端到端效果。
大家在進行影片生成時會發現,即使是使用最早的雙塔 SD 架構,其推理成本仍然較高。因為該架構本質上應用的是擴散模型,在實際推理時成本較高。例如,目前社群裡大概有 1000 多個使用者,其中很多人並非專業演算法開發者,而是從事短影片生成的博主。他們手頭的計算資源有限,通常只有幾張 4090 顯示卡。為了滿足這類使用者的需求,我們對 EchoMimic 模型進行了進一步最佳化,主要最佳化點在於提升推理速度。我們採用了一種知識蒸餾的方法,對大模型進行最佳化升級。具體思路如下:目前我們的取樣方法是用先進的,現有模型作為教師模型,我們在取樣空間中選取若干控制點,讓學生模型去逼近教師模型。以 SD 模型為例,通常推理需要 40 步,但透過這種方式,可能僅需 4 步即可完成推理,從而將速度提升 10 倍。
我們透過這種方法,對 V1 和 V2 兩個版本的模型都進行了速度最佳化,並重新訓練了學生模型,同時將學生模型公開。根據我們自己的測試以及社群使用者的反饋,在 4090 顯示卡上,推理速度大概能提升 10 倍左右;在 A100 顯示卡上,測試結果顯示速度提升了大約 9 倍。

下圖展示 V1 版本的一些實驗效果。在當時的時間節點上,像 Aniportrait、V-Express 和 Hello 等演算法都是比較先進的。我們也對這些演算法進行了對比。我們的社群裡有很多創作者,他們對這些技術非常感興趣。因此,在網上,包括微信、B 站或 YouTube 上搜索“EchoMimic”,會發現很多博主都在測試和使用這個演算法。我們也查找了一些第三方的評測。我從一個博主網站上提取的效果圖和一些定量評測結果。

對於 V2 版本,我們也進行了評測。據我們所知,在 V2 版本之前,比我們早的工作是 CyberHost。但由於 CyberHost 沒有開源,我們無法對其進行定量評測。因此,在定量評測中,我們選擇了兩個當時已有的視覺驅動(vision driven)或姿態驅動(pose driven)的演算法。我們使用了摩爾線程的開源演算法,以及騰訊開源的 MiniCmotion 進行對比。在音訊驅動(Audio)方面,由於缺乏定量評測,我們從 CyberHost 的官方網站上提取了兩個示例,用其圖片和聲音驅動我們的演算法,並進行了定性對比。基本上,我們的演算法能夠與之相媲美。

目前我們探索到的 AIGC 數字人可以應用的幾個場景。

首先,生成式數字人結合多模態大模型是一個典型的應用場景。現在,各種 APP 中都廣泛存在著對話功能,例如千問等應用中都有類似功能。之前,像豆包和千問等應用中接入了打電話功能,但目前這些功能大多是透過虛擬人物實現的,嘴型也常常對不上。如果將這些功能改為由更逼真的人物與使用者交流,效果應該會比現在好很多。大家可以想象一下,未來我們使用 APP 打電話時,如果採用更逼真的互動方式,可能會更加新穎。甚至兩個機器人可以自己交流起來,這可能是未來的一種趨勢。
其次,生成式數字人結合 AI 創作也是一個目前比較流行的方向。透過 AIGC 技術,可以根據使用者的需求生成各種數字人形象,用於內容創作、影片製作等領域,為創作者提供更多的創意和可能性。
最後,大廠通常會涉足的 AIGC 廣告垂類應用也是一個重要的方向。其中一個研究熱點是互動商品與數字人的繫結。例如,如果有一個商品,如何將這個真實商品與數字人繫結起來,比如讓數字人戴上、穿上,或者讓數字人與商品互動起來。這目前是大家研究比較火熱的一個點,旨在透過數字人與商品的互動,提升廣告的吸引力和使用者參與度。
AIGC 數字人本質上是一種影片生成技術,因此它幾乎會遇到影片生成領域常見的所有問題,並且由於其專注於人物這一特定領域,這些問題可能會更加突出。因為數字人直接作為展示物件出現在使用者面前,所以以下幾點問題尤為關鍵。
手部、牙齒和麵部的生成質量:在所有視角中,手部、牙齒和麵部的生成質量仍然是最具挑戰性的。儘管面部生成相對較好,但手部和牙齒的生成問題仍然存在。手部生成尤其困難,經常會出現不符合自然規律的情況,例如多一個或少一個手指,這極大地影響了數字人的保真度。
一致性問題:這是影片生成領域常見的問題,包括人物 ID、背景 ID 和前景 ID 的一致性。動作的不協調、不符合自然規律,以及異物細節的變化,都是目前難以解決的問題。例如,數字人在影片中的動作和背景元素需要保持一致,否則會顯得不自然。
動作的自然度:尤其是對於音訊驅動的數字人,將輸入音訊的情緒與數字人的動作和表情相匹配是一個挑戰。例如,當輸入音訊是亢奮的,數字人需要表現出相應的亢奮動作;而當輸入音訊是平和的,數字人則需要表現出緩和的動作。目前,讓數字人的情緒與音訊情緒完全一致仍然非常困難。
高畫質生成的難度:生成高畫質影片是一個常見問題,因為這需要耗費大量資源和時間。目前,快速生成高畫質影片仍然是業介面臨的一大挑戰。例如,生成一段高畫質的數字人影片可能需要較長的時間,這對於即時應用來說是一個很大的限制。

針對這些困難,最近業界出現了一些新的思路和解決方案,從 2025 年年初開始,大家逐漸走上了一條新的開發思路:
-
SD 雙塔架構
從 Animate Anyone 到 EMO,再到 EMO 2,這些早期的工作主要基於 Reference Net 框架。Reference Net 最初用於影像生成,透過雙塔結構和一個名為 Tempporal Module 的模組來保證影片的連續性。這套框架在生成影像時效果較好,但在影片生成方面仍顯不足,因為它本質上是一個影像框架,加上了空間平滑處理。
-
SVD 單塔架構
隨著技術演進,業界逐漸轉向使用 SVD(Singular Value Decomposition)和 DiT(Diffusion in Time)架構。雖然 DiT 架構被稱為影片生成架構,但其內部結構仍不是最先進的。例如,Stable Animator 採用了這套思路,透過巧妙的方式將 ID 保持和姿態注入整合到影片生成中。
-
影片生成 I2V 基模+元件
從 2025 年 1 月開始,業界提出了一種新的開發正規化:影片生成基模加元件的方式。例如,Omni-Human 可以定義為基模加元件的方式,透過注入特定的條件來激發模型的生成能力。這種方式已經成為目前的主流開發正規化。

基模加元件的方式有以下優勢:
-
自帶能力:基模本身具備多種能力,例如彈吉他或拿話筒說話等動作,開發者只需透過條件注入來激發這些能力。
-
靈活性:與早期框架相比,基模加元件的方式更加靈活,能夠更好地處理複雜的動作和場景。
總體來看,雖然早期的框架如 EMO 2 已經取得了顯著進展,但最新的基模加元件方式可能只是小試牛刀,就已經展現出強大的潛力。未來,隨著技術的進一步發展,生成式數字人有望在更多場景中實現更自然、更高效的表現。
李宇明,香港城市大學電子工程系博士,支付寶多模態應用實驗室研究員。曾任 MINIEYE,騰訊自動駕駛實驗室高階研究員。先後從事自動駕駛,量化交易,人臉攻防安全及 AIGC 等演算法研發工作,在國際知名期刊會議發表論文 30 餘篇,申請發明專利 20 餘項,以核心成員參與完成省部級課題 3 項。
10 月 23 – 25 日,QCon 上海站即將召開,現在大會已開始正式報名,可以享受 8 折優惠,單張門票立省 1360 元(原價 6800 元),詳情可聯絡票務經理 18514549229 諮詢。
