
隨著生成式人工智慧技術(AIGC)的突破,文字到影像模型在故事視覺化領域展現出巨大潛力,但在多角色場景中仍面臨角色一致性差、佈局控制難、動態敘事不足等挑戰。
為此,北京大學、上海人工智慧實驗室、南洋理工大學聯合推出 DiffSensei,首個結合多模態大語言模型(MLLM)與擴散模型的定製化漫畫生成框架。

-
論文地址:https://arxiv.org/pdf/2412.07589 -
GitHub 倉庫:https://github.com/jianzongwu/DiffSensei -
專案主頁 – https://jianzongwu.github.io/projects/diffsensei/ -
資料鏈接 – https://huggingface.co/datasets/jianzongwu/MangaZero
該框架透過創新的掩碼交叉注意力機制與文字相容的角色介面卡,實現了對多角色外觀、表情、動作的精確控制,並支援對話佈局的靈活編碼。同時,團隊釋出了首個專為漫畫生成設計的 MangaZero 資料集(含 4.3 萬頁漫畫與 42.7 萬標註面板),填補了該領域的資料空白。實驗表明,DiffSensei 在角色一致性、文字跟隨能力與影像質量上顯著優於現有模型,為漫畫創作、教育視覺化、廣告設計等場景提供了高效工具。
團隊公開了訓練,測試程式碼、預訓練模型及 MangaZero 資料集,支援本地部署。開發者可透過 Hugging Face 獲取資源,並利用 Gradio 介面快速體驗生成效果。
1.DiffSensei 效果及應用

DiffSensei 功能
DiffSensei 生成漫畫的技術優勢:
-
角色一致性:跨面板保持角色特徵穩定,支援連續敘事,可根據文字動態調整任務狀態和動作。 -
佈局精準:透過掩碼機制與邊界框標註,實現多角色與對話方塊的畫素級定位。 -
動態適應性:MLLM 介面卡使角色可依據文字提示調整狀態(如 “憤怒表情” 或 “揮手動作”),突破傳統模型的靜態生成限制。
2.DiffSensei 應用場景
真人長篇故事生成

DiffSensei 真人長篇故事生成效果
定製漫畫生成

DiffSensei 定製漫畫生成效果
更多結果

DiffSensei 生成整頁漫畫結果,每頁漫畫的故事梗概在其上方,更多結果在專案主頁
4. 模型框架

DiffSensei 方法框架
DiffSensei 的技術架構以 “動態角色控制” 和 “高效佈局生成” 為核心,透過以下模組實現端到端的漫畫生成:
-
多模態特徵融合:
-
結合 CLIP 影像編碼器 與 漫畫專用編碼器(Magi),提取角色語義特徵,避免直接複製畫素細節導致的 “貼上效應”。 -
透過重取樣模組將特徵壓縮為低維 token,適配擴散模型的交叉注意力機制,增強生成靈活性。 -
掩碼交叉注意力機制:複製擴散模型的鍵值矩陣,建立獨立的角色注意力層,僅允許角色在指定邊界框內參與注意力計算,實現佈局的畫素級控制。
-
引入對話佈局嵌入,將對話方塊位置編碼為可訓練的嵌入向量,與噪聲潛在空間融合,支援後期人工文字編輯。 -
MLLM 驅動的動態介面卡:以多模態大語言模型(如 LLaVA)為核心,接收面板標題與源角色特徵,生成與文字相容的 目標角色特徵,動態調整表情、姿勢等屬性。訓練中結合 語言模型損失(LM Loss) 與 擴散損失,確保生成特徵既符合文字語義,又與影像生成器相容。 -
多階段訓練最佳化
-
第一階段:基於 MangaZero 資料集訓練擴散模型,學習角色與佈局的聯合生成。 -
第二階段:凍結影像生成器,微調 MLLM 介面卡,強化文字驅動的角色動態調整能力 813,從而適應與文字提示對應的源特徵。在第一階段使用模型作為影像生成器,並凍結其權重。
5.MangaZero 資料集

MangaZero 資料集統計資訊
上圖展示了 MangaZero 資料集的基本資訊,該資料集中包含最著名的日本黑白漫畫系列。圖 a 顯示了所有 48 系列的封面。這些漫畫系列之所以被選中,主要是因為它們的受歡迎程度、獨特的藝術風格和廣泛的人物陣容,為該模型提供了發展強大而靈活的 IP 保持能力。
圖 b 展示了一些人物和對話標註的示例。
圖 c 描繪了資料集中的面板解析度分佈。為了提高畫質晰度,其中包括三條參考線,分別表示 1024×1024、512×512 和 256×256 的解析度。大多數漫畫畫板都集中在第二行和第三行周圍,這表明與最近研究中通常強調的解析度相比,大多數畫板的解析度相對較低。這一特性是漫畫資料所固有的,該工作專門針對漫畫資料。因此,可變解析度訓練對於有效處理漫畫資料集至關重要。

MangaZero 資料集和同類資料集對比
MangaZero 資料集相比同類資料,規模更大,來源更新,標註更豐富,漫畫以及畫面解析度更多樣。與廣為人知的黑白漫畫資料集 Manga109 相比,MangaZero 資料集收錄了更多在 2000 年之後出版的漫畫,這也正是其名稱的由來。此外,MangaZero 還包含一些 2000 年之前發行、但並未收錄於 Manga109 的著名作品,例如《哆啦 A 夢》(1974 年)。

MangaZero 資料集標註流程
上圖展示了 MangaDex 資料集的構建過程,作者透過三個步驟構建 MangaZero 資料集。
-
步驟 1 – 從網際網路中下載一些現有的漫畫頁面。 -
步驟 2 – 使用預先訓練好的模型自主為漫畫面板新增相關標註。 -
步驟 3 – 利用人工來校準人物 ID 標註結果。
MangaZero 資料集應用潛力
-
多 ID 保持,靈活可控的圖片生成訓練。漫畫資料天然擁有同一個人物多個狀態的影像,對可根據文字靈活控制人物狀態的定製化生成訓練有很大幫助。 -
風格可控的漫畫生成。MangaZero 中包含的漫畫系列多樣且具有代表性,可以在模型結構中增加風格定製模組,實現畫風可控的漫畫生成。例如生成龍珠風格的柯南。
6. 結論
DiffSensei 透過多模態技術的深度融合,重新定義了 AI 輔助創作的邊界。其開源屬性與行業適配性,將加速漫畫生成從實驗工具向產業級應用的跨越。未來,研究方向可擴充套件至彩色漫畫與動畫生成,進一步推動視覺敘事技術的普惠化。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]