
本文由加拿大滑鐵盧大學魏聰、陳文虎教授團隊與 Meta GenAI 共同完成。第一作者魏聰為加拿大滑鐵盧大學計算機科學系二年級博士生,導師為陳文虎教授,陳文虎教授為通訊作者。
近年來,影片生成技術在動作真實性方面取得了顯著進展,但在角色驅動的敘事生成這一關鍵任務上仍存在不足,限制了其在自動化影視製作與動畫創作中的應用潛力。
現有方法多聚焦於 Talking Head 場景,僅生成面部區域,且高度依賴輔助條件(如首幀影像或精確關鍵點),導致生成內容在動作幅度與連貫性方面受限,難以展現自然流暢的全身動態與豐富的對話場景。此外,已有方法通常僅支援單角色說話,無法滿足多角色對話與互動的生成需求。
為此,研究團隊提出了 MoCha,首個面向 Talking Characters 任務的影片生成方法,致力於僅基於語音(Speech)與文字(text)輸入,直接生成完整角色的對話影片,無需依賴任何輔助訊號,突破了現有技術僅限於面部區域生成(Talking Head)及動作受限的侷限,為自動化敘事影片生成提供了全新解決方案。
該方法面向角色近景至中景(close shot to medium shot)的全身區域,支援一個或多個人物在多輪對話場景中的動態互動。為實現語音與影片內容的精準同步,MoCha 設計了 Speech-Video Window Attention機制,有效對齊語音與影片的時序特徵,確保角色口型與身體動作的一致性。
同時,針對大規模語音標註影片資料稀缺的問題,研究團隊提出了聯合訓練策略,充分利用語音標註與文字標註的影片資料,顯著提升了模型在多樣角色動作與對話內容下的泛化能力。
此外,團隊創新性地設計了結構化提示模板,引入角色標籤,使 MoCha 首次實現了多角色、多輪對話的生成,能夠驅動 AI 角色在上下文連貫的場景中展開具備電影敘事性的對話。
透過大量定性與定量實驗,包括使用者偏好調研與基準對比,研究團隊驗證了 MoCha 在真實感、表現力、可控性與泛化性方面的領先效能,為 AI 驅動的電影敘事生成樹立了新標杆。

論文連結:
https://arxiv.org/pdf/2503.23307
Hugging face論文地址:
https://huggingface.co/papers/2503.23307
專案地址:
https://congwei1230.github.io/MoCha/
X地址:
https://x.com/CongWei1230/status/1906877381899415945
X大V轉發:
https://x.com/AngryTomtweets/status/1907036631057752164
X大V轉發:
https://x.com/minchoi/status/1907265748721889383
X大V轉發:
https://x.com/_akhaliq/status/1906935462075236621

效能展示
MoCha 能夠實現基於角色對話驅動的敘事影片生成。以下為研究團隊基於 MoCha 生成的影片樣例,並透過簡單剪輯製作成宣傳影片,以展示未來自動化電影生成的可行性與潛力。
MoCha 能夠生成高度準確的唇動同步效果,展現出精細的語音-影片對齊能力。
情緒可控性:MoCha 能夠根據輸入文字靈活控制角色情緒,自動生成符合語境的角色表情與情緒動作,同時保證 唇動同步 與 面部表情與上下文的一致性。
動作可控性:MoCha 支援透過文字提示靈活控制角色動作,生成符合語境的動態表現,同時確保 唇動同步 與 面部表情與上下文的協調性。
Zero-shot 中文對話生成(無間道臺詞):儘管 MoCha 未在中文語音資料上進行訓練,模型仍展現出良好的跨語言泛化能力,能夠生成同步較為自然的中文對話影片。
多角色對話生成:MoCha 支援多角色對話生成,能夠在單角色發言時,保證所角色的動作與表現合理連貫,整體對話場景保持視覺一致性與敘事連貫性。
多角色多輪對話生成:MoCha 支援多角色、多輪對話(Turn-based Dialog)生成,能夠實現鏡頭切換與多角色動態對話的自然銜接,突破現有方法僅支援單角色發言的侷限,生成具有鏡頭語言與劇情連貫性的複雜對話影片。

核心方法
下圖展示了 MoCha 的整體框架。

端到端訓練,無需輔助條件:與現有方法(如 EMO、SONIC、Echomimicv2、Loopy 和 Hallo3)不同,這些方法通常依賴參考影像、骨骼姿態或關鍵點等外部控制訊號,MoCha 實現了完全基於語音與文字的端到端訓練,無需任何輔助條件。
這一設計有效簡化了模型架構,同時顯著提升了動作多樣性與泛化能力。

Speech-Video Window Attention 機制:研究團隊提出了一種創新性的注意力機制 —— Speech-Video Window Attention,透過區域性時間條件建模有效對齊語音與影片輸入。該設計顯著提升了唇動同步準確率與語音-影片對齊效果。

聯合語音-文字訓練策略:針對大規模語音標註影片資料稀缺的問題,研究團隊提出了聯合訓練框架,充分利用語音標註與文字標註的影片資料進行協同訓練。
該策略有效提升了模型在多樣化角色動作下的泛化能力,同時實現了基於自然語言提示的通用可控性,支援在無需輔助訊號的前提下,對角色的表情、動作、互動以及場景環境等進行細粒度控制。

多角色對話生成與角色標籤設計:MoCha 首次實現了多角色動態對話生成,突破了現有方法僅支援單角色的限制,能夠生成連貫、具備鏡頭切換與劇情連貫性的多輪對話影片。
為此,研究團隊設計了結構化提示模板,明確指定對話片段數量,並引入角色描述與標籤,透過角色標籤簡化提示,同時保證對話清晰可控。MoCha 利用影片 Token 的自注意力機制,有效保持角色身份與場景環境的一致性,同時透過語音條件訊號自動引導模型在多角色對話中的鏡頭切換與發言時機。

總結
總體而言,本研究首次系統性地提出了 Talking Characters 生成任務,突破傳統 Talking Head合成方法的侷限,實現了面向完整角色、支援多角色動態對話的影片生成,僅需語音與文字輸入即可驅動角色動畫。
為解決這一挑戰性任務,研究團隊提出了 MoCha框架,並在其中引入了多項關鍵創新,包括:用於精確音影片對齊的 Speech-Video Window Attention 機制,以及結合語音標註與文字標註資料的聯合訓練策略,有效提升模型的泛化能力。
此外,團隊設計了結構化提示模板,實現了多角色、多輪對話的自動生成,具備上下文感知能力,為可擴充套件的電影級 AI 敘事生成奠定了基礎。透過系統的實驗評估與使用者偏好研究,研究團隊驗證了 MoCha 在真實感、表現力與可控性等方面的優越效能,為未來生成式角色動畫領域的研究與應用提供了堅實基礎。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
