CVPR2025|如何穩定且高效地生成個性化的多人影像?ID-Patch帶來新解法

本文第一作者為密歇根州立大學計算機系博士生張益萌,系 OPTML 實驗室成員,指導老師為劉思佳助理教授。研究工作主要完成於張益萌在字節跳動的實習期間。
擴散模型(Diffusion Models, DMs)如今已成為文字生成影像的核心引擎。憑藉驚豔的影像生成能力,它們正悄然改變著藝術創作、廣告設計、乃至社交媒體內容的生產方式。如今,只需一段文字,就能生成一張極具風格的個性化頭像,已經不再稀奇。
但,如果我們想要的不只是 “一個人” 的照片呢?
在朋友缺席的聚會中,我們是否可以 “補全” 一張大家都在的合影?在廣告場景中,我們是否可以自由組合多位虛擬角色,講述一個多人物的故事?個性化的多人影像生成正成為新的想象力疆域。但同時,它也帶來了前所未有的技術挑戰。
其中最棘手的,就是身份特徵洩露(ID leakage)—— 明明是兩個人,卻因為特徵混淆,生成出面容 “融合” 的人臉,令人難以分辨誰是誰。更進一步,使用者往往還希望可以精確指定每個人的位置和動作,實現更自然真實的構圖和創意有趣的互動。可一旦位置錯亂,原本的故事就變了味兒。
📷 從單人走向多人,挑戰也隨之升級
如今,個性化單人照片生成已能達到令人驚豔的視覺效果。但當我們嘗試生成多人互動照片時,問題便不再簡單。
最早試圖解決身份混淆(ID 洩露)問題的方法之一是 OMG [1]。它採用 “兩階段” 策略:首先生成一張不含身份資訊的底圖,再借助分割模型識別人像區域,最後逐一注入身份特徵。思路清晰,卻問題頻出:複雜背景下分割模型容易失效;前後階段風格不一致,整體畫面割裂;更重要的是,每個人都需要單獨進行一次去噪,人數越多,生成越慢,體驗越差
另一種方法 InstantFamily [2] 則嘗試透過注意力掩碼(Attention mask)直接修改注意力機制,在一次生成中,讓每個畫素只 “看” 與其身份相關的特徵向量。雖然在效率上有所突破,但 ID 洩露問題依然難以根除。其根源在於:(1)人臉掩碼不夠精準或人物過於靠近,易發生特徵重疊;(2)注意力和卷積網路的結構本身,存在 “資訊串位” 的風險。
🧩 為此,我們提出了全新方案 —— ID-Patch
這是一個專為多人影像打造的 “身份 – 位置” 繫結機制,核心目標是:每個人都出現在對的位置,而且看起來就像自己。
  • 📚 論文地址:https://arxiv.org/abs/2411.13632 
  • 💻 專案主頁:https://byteaigc.github.io/ID-Patch/
  • 🤖 模型下載:https://huggingface.co/ByteDance/ID-Patch 
  • 🎮 試玩demo:https://huggingface.co/spaces/ByteDance/ID-Patch-SDXL
⚓️ ID-Patch: 面向多人影像生成的身份 – 位置對齊機制
我們的設計思路很直觀,將人臉資訊拆解為兩個關鍵模組:
  • ID Patch:將身份特徵轉化為小尺寸 RGB 影像塊,直接貼入 ControlNet 的條件影像中,精確指定每個人的位置;
  • ID Embedding:作為身份細節的表達,與文字提示共同輸入,增強人物面部的真實性與獨特性。
特別地,ID Patch 兼具 “位置標記” 和 “身份錨點” 雙重作用:不僅告訴模型 “誰在哪”,也幫助模型從多個 ID Embedding 中,正確選出對應的、包含更豐富細節的身份向量。
不僅如此,ID-Patch 還能靈活融合姿態圖、邊緣圖、深度圖等多種空間條件,輕鬆適配複雜場景,兼顧準確性與通用性
🚀 實驗效果:又快又準,一步到位!
如圖表所示,ID-Patch 在身份還原 (identity resemblance) 與身份 – 位置匹配 (association accuracy) 兩個核心指標上表現出色,分別達到了 0.751 和 0.958,充分體現出其在保持人物面部一致性和精確放置方面的強大能力。在文字對齊(text alignment)方面,各方法表現相近,差異不顯著。而在生成效率上,ID-Patch 是所有方法中最快的!
值得注意的是,隨著圖中人臉數量的增加,OMG 和 InstantFamily 出現了明顯的效能下降,主要由於 ID 洩露問題加劇;而 ID-Patch 的表現更為穩健,雖然也存在一定下降,但幅度較小。這種下降主要是由於人臉數量增多後,單張人臉在影像中的面積縮小,進而影響了 SDXL 模型對小臉部特徵的還原效果。同時,更多人臉的存在也對面部特徵提取提出更高的需求,因此會略微增加生成時間。
在速度方面,ID-Patch 的優勢尤為突出:
  • ⏱️ 生成 8 人合影僅需約 10 秒
  • 🕑 相比之下,OMG 方法則需要近 2 分鐘才能完成一張影像的生成
  • ⚙️ InstantFamily 因為注意力掩碼的引入,比 ID-Patch 稍慢
無論是還原度位置精準度,還是生成效率,ID-Patch 都交出了一份令人滿意的答卷!
💡 面部特徵仍有提升空間,未來可期!
目前模型中的人臉特徵可能仍然混雜了光照表情變化等資訊,尚未完全與身份特徵解耦,這在一定程度上可能影響最終生成影像的質量與一致性。引入更多同一身份、不同光照和表情狀態的影像,以豐富訓練資料的多樣性。這樣的資料增強方式有望幫助模型更好地學習在不同條件下仍保持身份一致性的能力,從而進一步提升生成影像的真實感與細節表現力。
總結與展望
✨ 總的來說,ID-Patch 正在重新定義多人物影像生成的可能性。
我們提出的全新方法 ID-Patch,在多身份、多人物影像生成中實現了突破式提升 —— 不僅大幅增強了人物身份的還原度,還顯著提高了生成圖中每位人物位置的精準控制力。其核心創新在於:我們將每位人物的身份特徵嵌入到一個獨立的影像小塊中,並藉助 ControlNet 技術將這些 “身份塊” 精確放置到目標位置,從根源上緩解了以往方法中常見的 ID 洩露問題
更進一步,ID-Patch 擁有極強的相容性和擴充套件性,能夠與姿態控制、深度圖等多種空間條件自然融合,具備良好的泛化能力。實驗證明,在三人以上的複雜影像生成場景中,ID-Patch 始終保持出色表現,為生成式 AI 在合影、社交影像、虛擬人物排布等領域帶來了前所未有的體驗。
🔭 更精彩的未來,正在開啟。
我們相信,未來可探索的方向將更加廣闊:比如結合同一個人不同角度的影像進一步增強面部還原度,又或是透過 patch 技術實現對人物位置 + 表情的雙重控制,從而讓合成影像更加真實、生動、有溫度
參考文獻
[1] Kong, Zhe, et al. "Omg: Occlusion-friendly personalized multi-concept generation in diffusion models." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.
[2] Kim, Chanran, et al. "Instantfamily: Masked attention for zero-shot multi-id image generation." arXiv preprint arXiv:2404.19427 (2024).
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章