機器之心編輯部
近日,阿里通義實驗室推出了全新數字人影片生成大模型 OmniTalker,只需上傳一段參考影片,不僅能學會影片中人物的表情和聲音,還能模仿說話風格。相比傳統的數字人生產流程,該方法能夠有效降低製作成本,提高生成內容的真實感和互動體驗,滿足更廣泛的應用需求。目前該專案已在魔搭社群、HuggingFace 開放體驗入口,並提供了十多個模板,所有人可以直接免費使用。

-
論文:https://arxiv.org/abs/2504.02433v1
-
專案頁:https://humanaigc.github.io/omnitalker
-
體驗頁:https://huggingface.co/spaces/Mrwrichard/OmniTalker
我們先來看兩段影片,就能感知到生成內容的真實感有多強:
是不是已經分辨不出小李子萊昂納多和 LeCun 是AI復刻出來的了?感興趣的讀者也可以從專案頁檢視更多Demo。
接下來,就讓我們看下阿里通義實驗室 HumanAIGC 團隊對此論文的解讀。
背景
近年來,隨著語言大模型的迅速發展,虛擬主播、虛擬助手等應用得到了廣泛的推廣與使用。然而,針對文字驅動的數字人生成研究仍然較少,現有方法主要採用級聯流水線的方式,將文字轉語音(Text-to-Speech, TTS)系統與音訊驅動的數字人模型相結合。這種傳統流水線一方面引入了系統複雜性和延遲開銷,尤其是在即時互動場景下,各模組之間的延遲問題成為影響使用者體驗的重要因素;另一方面還從根本上存在音畫輸出不同步以及生成語音與視覺表情風格不一致的問題,無法完美複製真人的說話風格。
為了解決這些侷限性,我們提出了 OmniTalker,能夠在零樣本即時場景中,根據文字和參考影片同時生成同步的語音和數字人影片,同時保留語音風格和麵部風格。該框架採用雙分支 DiT 架構:音訊分支從文字合成梅爾頻譜圖,而視覺分支預測精細的頭部姿態和麵部動態。為了橋接模態間的資訊,我們引入了一種新穎的視聽融合模組,整合跨模態資訊以確保音訊和視覺輸出在時間上的同步性和風格上的一致性。此外,我們的上下文參考學習模組能夠從單個參考影片中有效捕捉語音和麵部風格特徵,而無需額外引入風格提取模組。此方法特別注重保持聲音的一致性和說話風格的真實性,同時優化了處理速度,確保了即時響應效能,從而顯著提升了數字人生成的質量和效率。相較於傳統的數字人生產流程,此方法能夠有效降低製作成本,提高生成內容的真實感和互動體驗,滿足更廣泛的應用需求。

圖 1. 區別於傳統級聯框架,OmniTalker 是一個端到端的統一框架,可根據文字和一段簡短的參考音影片即時生成同步的語音和數字人影片,同時保持聲音的一致性和說話風格的真實性。
方法介紹

圖 2. OmniTalker 結構圖
我們的目標是在緊湊的網路架構中實現音影片聯合生成,確保音訊和影片輸出之間的對應關係,同時從參考影片中複製聲音和麵部風格。受啟發於 LLM 的上下文學習能力,以及多模態 DiT 在文生圖中的優勢,我們提出瞭如圖 2 所示的模型架構。該架構有三個核心部分:(1)三個嵌入模組來分別捕捉參考音影片的動態特徵以及文字資訊,(2)一個雙流 DiT 模型用於音影片並行建模,以及 (3) 一個音影片特徵融合模組來確保音影片特徵的緊密同步。
1. 模型輸入方面,包含驅動文字和參考音影片三種模態特徵:
-
音訊特徵:我們從參考影片中提取音訊流,並利用梅爾譜圖作為音訊特徵的表示方法。透過一個基於 MLP 的嵌入模組,我們將梅爾譜圖轉換為音訊嵌入 x^a;
-
文字特徵:使用 ASR 模型將參考音訊轉化為文字,形成參考文字。隨後,輸入文字以及參考文字被轉換成拼音序列(針對中文)或字元 / 字母序列(針對拉丁語系),並進行拼接。為了匹配音訊嵌入 x^a 的長度,我們以某種填充標記對文字序列進行填充。文字嵌入過程採用了 ConvNeXt-V2 架構,生成的文字嵌入c_t作為條件指導音訊和視覺分支的處理。
-
視覺特徵:對於影片片段,我們提取包含面部表情的 51 維混合形狀係數、6 維旋轉與平移引數(RT),以及每幀的眼球運動係數在內的視覺編碼。如同處理音訊特徵一樣,這些視覺編碼也透過一個 MLP 對映到視覺嵌入 x^v 上,以實現統一的特徵表示。
在訓練階段,音頻和視覺特徵會隨機掩碼序列的一部分,利用上下文學習來達成風格復刻的需求;而在推理階段,則依據參考音訊的節奏及輸入文字的長度對音影片特徵進行零填充,確保處理的一致性。
2. 關於模型結構,我們方法的核心在於建模影片、音訊和文字模態之間的互動,旨在生成既連貫又同步的音影片內容。我們的框架由一系列專門設計用於處理音訊和影片資料流的 DiT 塊組成,促進音訊和影片特徵間的跨模態融合,從而產出一致且同步的結果。模型的關鍵元件包括:
-
音影片特徵融合模組:採用雙分支架構,一個分支專注於處理視覺運動資訊,另一個則負責解析音訊資訊。利用 MM-DiT 注意力機制,網路能夠動態評估並平衡音訊與視覺特徵的重要性,確保最終生成的影片在時間軸上以及語義層面與輸入音訊完美對齊。
-
單模態 DiT 塊:在完成初步的跨模態融合後,模型使用多個單模態 DiT 塊進一步細化生成過程。這些塊操作於已融合的多模態特徵之上,但針對每個單獨模態(即音訊或視覺)進行最佳化,以提高輸出質量。
-
音影片解碼器:經過上述步驟生成的音影片特徵隨後透過預訓練的解碼器轉換回原始格式。對於音訊部分,我們使用 Vocos 解碼器將合成的梅爾頻譜圖還原為語音,這是一種高保真聲碼器,也可替換為其他相似聲碼器如 HiFi-GAN。至於影片解碼,我們設計了一個 GAN 模型(複用 ChatAnyone),它根據從參考影片中隨機選取的參考幀為基礎,並按照 DiT 模型預測的頭部姿態和混合形狀係數生成新的影片幀。該模型能以 30FPS 的速度生成解析度為 512×512 的幀,滿足即時推理的需求。
實驗結果
鑑於當前尚無方法能夠同時生成音訊和影片,我們對文字轉語音(TTS)技術和音訊驅動的數字人生成(Talking Head Generation, THG)技術分別進行了比較分析。在 TTS 方面,我們挑選了三種代表性方法:MaskGCT、F5TTS 和 CosyVoice,並針對錯詞率(WER)和聲音相似度(SIM)進行了對比評估。對於 THG 的評估,我們構建了一個多模態比較框架,涵蓋以下幾類方法:(1) 兩種基於 GAN 的技術(SadTalker 和 AniTalker);(2) 兩種最先進的基於 diffusion 的方法(EchoMimic 和 Hallo);(3) StyleTalk,一種具備風格保留功能的音訊驅動 THG 方法。為了確保公平性和結果的可比性,實驗中所有 THG 模型均採用由我們提出的方法生成的音訊訊號作為輸入。

表 1. TTS 效能對比
表 1 展示了我們的方法在音訊測試集 Seed 上的測試結果,與 TTS 基線模型相比,我們的生成結果顯示出更低的錯詞率(WER),這表明生成的音訊與文字之間具有更高的一致性。此外,我們的方法在聲音相似度(SIM)指標中排名第二,進一步證實了其在零樣本條件下保持聲音特徵的能力。值得注意的是,透過對比包含和不包含運動分支(Ours w/o motion)的模型表現,可以看出完整模型實現了更低的 WER,這證明了結合視覺監督能有效提升生成音訊的感知質量。我們將這種改進歸因於多工學習的有效性,因為在音訊生成和麵部動作之間存在著高度的相關性,兩者結合可以相互促進,從而提高整體輸出的質量。
在視覺質量評估方面,除了傳統的峰值信噪比(PSNR)、結構相似性(SSIM)、Frechet Inception Distance(FID)、Frechet Video Distance(FVD)、ID 相似度(CSIM)以及口型同步(Sync-C)等指標外,我們還引入了兩個新的評估標準 ——E-FID(表情 FID)和 P-FID(姿勢 FID),以分別衡量生成的面部表情和頭部姿勢的真實感。具體而言,E-FID 結合了 51 維面部混合形狀係數和 4 維眼動引數進行計算,而 P-FID 則透過 6 維旋轉 – 平移引數來量化頭部姿勢的一致性和真實性。

表 2. THG 效能對比
表 2 展示了 OmniTalker 在視覺生成方面的卓越效能。我們的方法在 9 個核心指標中,有 7 個達到了業界領先水平(SOTA),包括最高的 PSNR 和 SSIM,以及最低的 FID 和 FVD。
這些結果表明,我們的方法在影片生成質量方面具有顯著優勢。尤其在 E-FID 和 P-FID 上,我們的方法相比現有技術實現了一個數量級的提升,突顯了其在保持面部運動風格和頭部姿態方面的出色能力。這種能力使得我們的方法能夠有效地繼承參考人物的說話風格,從而實現高保真的音影片克隆。儘管我們的方法在 CSIM 和 Sync-C 指標上獲得了次優成績,但根據我們的經驗觀察,這些指標傾向於偏好正面視角的影片。相比之下,其他對比方法更傾向於生成正面視角的內容,而忽略了參考影片中實際的面部朝向。我們的方法透過準確捕捉並再現原始影片中的面部方向,提供了更加真實和自然的輸出效果。
為了更直觀地展示 OmniTalker 建模面部運動風格方面的卓越能力,我們對比了不同方法生成結果中的頭部運動累積熱圖。如圖 4 所示,透過將生成的影片與參考影片進行比較,可以清晰地看到,我們的方法生成的熱圖與真實資料的熱圖更為接近。圖 3 則從時間維度進一步驗證了這一點,我們選擇頭部偏航角(Yaw)作為跟蹤指標來觀察頭部姿態的變化。左側的紅線代表參考序列,右側展示了由各種方法生成的序列。結果顯示,我們方法生成的序列無論是在幅度還是運動頻率方面,都與參考序列保持了高度的一致性,同時保留了必要的自然差異,這表明我們的方法能夠有效地繼承頭部姿態的風格特徵。相比之下,其他方法生成的頭部運動往往不夠明顯,缺乏動態變化。特別是 StyleTalk 方法直接複製參考姿勢序列,雖然保證了與參考姿勢的高度一致,但未能考慮語音內容與姿態之間的語義關聯,導致生成結果缺乏靈活性和自然感。
綜上所述,我們的方法不僅能夠在視覺表現上精確模仿原始影片中的面部運動風格,還能在語義層面上實現更加豐富和自然的表現,確保生成的內容既真實又生動。

圖 3. 頭部姿態(Yaw)時間變化曲線

圖 4. 頭部運動累積熱圖
在即時性方面,我們的方法透過創新地採用 flow matching 技術以及相對緊湊的模型架構(僅包含 8 億個引數),實現了音影片的即時同步高質量輸出。這不僅保證了出色的推理速度,同時也確保了輸出的質量優於其他現有方法,如表 2 所示。這種能力使得我們的方法在不犧牲輸出質量的前提下,滿足了即時應用的需求。
團隊介紹
阿里巴巴通義實驗室的 HumanAIGC 團隊專注於 2D 數字人和人物影片生成的研究,在相關領域內已發表了多篇頂會論文,比如單圖驅動角色影片生成 Animate Anyone 以及 Animate Anyone2,單圖語音驅動影片生成技術 EMO 以及 EMO2,即時數字人 ChatAnyone 等均出自該團隊。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]