MoCha：開啟自動化多輪對話電影生成新時代

本文由加拿大滑鐵盧大學魏聰、陳文虎教授團隊與 Meta GenAI 共同完成。第一作者魏聰為加拿大滑鐵盧大學計算機科學系二年級博士生，導師為陳文虎教授，陳文虎教授為通訊作者。

近年來，影片生成技術在動作真實性方面取得了顯著進展，但在角色驅動的敘事生成這一關鍵任務上仍存在不足，限制了其在自動化影視製作與動畫創作中的應用潛力。現有方法多聚焦於 Talking Head 場景，僅生成面部區域，且高度依賴輔助條件（如首幀影像或精確關鍵點），導致生成內容在動作幅度與連貫性方面受限，難以展現自然流暢的全身動態與豐富的對話場景。此外，已有方法通常僅支援單角色說話，無法滿足多角色對話與互動的生成需求。

為此，研究團隊提出了 MoCha，首個面向Talking Characters任務的影片生成方法，致力於僅基於語音（Speech）與文字 (text) 輸入，直接生成完整角色的對話影片，無需依賴任何輔助訊號，突破了現有技術僅限於面部區域生成（Talking Head）及動作受限的侷限，為自動化敘事影片生成提供了全新解決方案。

該方法面向角色近景至中景（close shot to medium shot）的全身區域，支援一個或多個人物在多輪對話場景中的動態互動。為實現語音與影片內容的精準同步，MoCha 設計了Speech-Video Window Attention機制，有效對齊語音與影片的時序特徵，確保角色口型與身體動作的一致性。同時，針對大規模語音標註影片資料稀缺的問題，研究團隊提出了聯合訓練策略，充分利用語音標註與文字標註的影片資料，顯著提升了模型在多樣角色動作與對話內容下的泛化能力。此外，團隊創新性地設計了結構化提示模板，引入角色標籤，使 MoCha 首次實現了多角色、多輪對話的生成，能夠驅動 AI 角色在上下文連貫的場景中展開具備電影敘事性的對話。透過大量定性與定量實驗，包括使用者偏好調研與基準對比，研究團隊驗證了 MoCha 在真實感、表現力、可控性與泛化性方面的領先效能，為 AI 驅動的電影敘事生成樹立了新標杆。

論文連結：https://arxiv.org/pdf/2503.23307
Hugging face 論文地址：https://huggingface.co/papers/2503.23307
專案地址：https://congwei1230.github.io/MoCha/

目前，該研究在 X 平臺上引起了廣泛的關注與討論，相關熱帖已經有一百多萬的瀏覽量。

效能展示

MoCha 能夠實現基於角色對話驅動的敘事影片生成。以下為研究團隊基於 MoCha 生成的影片樣例，並透過簡單剪輯製作成宣傳影片，以展示未來自動化電影生成的可行性與潛力。

MoCha 能夠生成高度準確的唇動同步效果，展現出精細的語音 – 影片對齊能力。

情緒可控性：MoCha能夠根據輸入文字靈活控制角色情緒，自動生成符合語境的角色表情與情緒動作，同時保證唇動同步與面部表情與上下文的一致性。

動作可控性：MoCha支援透過文字提示靈活控制角色動作，生成符合語境的動態表現，同時確保唇動同步與面部表情與上下文的協調性。

Zero-shot中文對話生成（無間道臺詞）：儘管MoCha未在中文語音資料上進行訓練，模型仍展現出良好的跨語言泛化能力，能夠生成同步較為自然的中文對話影片。

多角色對話生成：MoCha支援多角色對話生成，能夠在單角色發言時，保證所角色的動作與表現合理連貫，整體對話場景保持視覺一致性與敘事連貫性。

多角色多輪對話生成：MoCha支援多角色、多輪對話（Turn-based Dialog）生成，能夠實現鏡頭切換與多角色動態對話的自然銜接，突破現有方法僅支援單角色發言的侷限，生成具有鏡頭語言與劇情連貫性的複雜對話影片。

核心方法

下圖展示了 MoCha 的整體框架。

端到端訓練，無需輔助條件：與現有方法（如 EMO、OmniHuman-1、SONIC、Echomimicv2、Loopy 和 Hallo3）不同，這些方法通常依賴參考影像、骨骼姿態或關鍵點等外部控制訊號，MoCha實現了完全基於語音與文字的端到端訓練，無需任何輔助條件。這一設計有效簡化了模型架構，同時顯著提升了動作多樣性與泛化能力。

Speech-Video Window Attention 機制：研究團隊提出了一種創新性的注意力機制 —— Speech-Video Window Attention，透過區域性時間條件建模有效對齊語音與影片輸入。該設計顯著提升了唇動同步準確率與語音 – 影片對齊效果。

聯合語音 – 文字訓練策略：針對大規模語音標註影片資料稀缺的問題，研究團隊提出了聯合訓練框架，充分利用語音標註與文字標註的影片資料進行協同訓練。該策略有效提升了模型在多樣化角色動作下的泛化能力，同時實現了基於自然語言提示的通用可控性，支援在無需輔助訊號的前提下，對角色的表情、動作、互動以及場景環境等進行細粒度控制。

多角色對話生成與角色標籤設計：MoCha首次實現了多角色動態對話生成，突破了現有方法僅支援單角色的限制，能夠生成連貫、具備鏡頭切換與劇情連貫性的多輪對話影片。為此，研究團隊設計了結構化提示模板，明確指定對話片段數量，並引入角色描述與標籤，透過角色標籤簡化提示，同時保證對話清晰可控。MoCha利用影片 Token 的自注意力機制，有效保持角色身份與場景環境的一致性，同時透過語音條件訊號自動引導模型在多角色對話中的鏡頭切換與發言時機。

總結

總體而言，本研究首次系統性地提出了Talking Characters 生成任務，突破傳統Talking Head合成方法的侷限，實現了面向完整角色、支援多角色動態對話的影片生成，僅需語音與文字輸入即可驅動角色動畫。為解決這一挑戰性任務，研究團隊提出了MoCha框架，並在其中引入了多項關鍵創新，包括：用於精確音影片對齊的Speech-Video Window Attention機制，以及結合語音標註與文字標註資料的聯合訓練策略，有效提升模型的泛化能力。此外，團隊設計了結構化提示模板，實現了多角色、多輪對話的自動生成，具備上下文感知能力，為可擴充套件的電影級 AI 敘事生成奠定了基礎。透過系統的實驗評估與使用者偏好研究，研究團隊驗證了 MoCha 在真實感、表現力與可控性等方面的優越效能，為未來生成式角色動畫領域的研究與應用提供了堅實基礎。