CVPR 2025 | 如何稳定且高效地生成个性化的多人图像？ID-Patch带来新解法

发布日期: 2025-05-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文第一作者为密歇根州立大学计算机系博士生张益萌，系OPTML实验室成员，指导老师为刘思佳助理教授。研究工作主要完成于张益萌在字节跳动的实习期间。
扩散模型（DiffusionModels,DMs）如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力，它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。如今，只需一段文字，就能生成一张极具风格的个性化头像，已经不再稀奇。
但，如果我们想要的不只是“一个人”的照片呢？
在朋友缺席的聚会中，我们是否可以“补全”一张大家都在的合影？在广告场景中，我们是否可以自由组合多位虚拟角色，讲述一个多人物的故事？个性化的多人图像生成正成为新的想象力疆域。但同时，它也带来了前所未有的技术挑战。
其中最棘手的，就是身份特征泄露（IDleakage）——明明是两个人，却因为特征混淆，生成出面容“融合”的人脸，令人难以分辨谁是谁。更进一步，用户往往还希望可以精确指定每个人的位置和动作，实现更自然真实的构图和创意有趣的互动。可一旦位置错乱，原本的故事就变了味儿。
📷从单人走向多人，挑战也随之升级
如今，个性化单人照片生成已能达到令人惊艳的视觉效果。但当我们尝试生成多人互动照片时，问题便不再简单。
最早试图解决身份混淆（ID泄露）问题的方法之一是OMG[1]。它采用“两阶段”策略：首先生成一张不含身份信息的底图，再借助分割模型识别人像区域，最后逐一注入身份特征。思路清晰，却问题频出：复杂背景下分割模型容易失效；前后阶段风格不一致，整体画面割裂；更重要的是，每个人都需要单独进行一次去噪，人数越多，生成越慢，体验越差。
另一种方法InstantFamily[2]则尝试通过注意力掩码（Attentionmask）直接修改注意力机制，在一次生成中，让每个像素只“看”与其身份相关的特征向量。虽然在效率上有所突破，但ID泄露问题依然难以根除。其根源在于：（1）人脸掩码不够精准或人物过于靠近，易发生特征重叠；（2）注意力和卷积网络的结构本身，存在“信息串位”的风险。
🧩为此，我们提出了全新方案——ID-Patch。
这是一个专为多人图像打造的“身份-位置”绑定机制，核心目标是：每个人都出现在对的位置，而且看起来就像自己。
📚论文地址：https ://arxiv.org/abs/2411.13632
💻项目主页：https ://byteaigc.github.io/ID-Patch/
🤖模型下载：https ://huggingface.co/ByteDance/ID-Patch
🎮试玩demo：https ://huggingface.co/spaces/ByteDance/ID-Patch-SDXL
⚓️ID-Patch:面向多人图像生成的身份-位置对齐机制
我们的设计思路很直观，将人脸信息拆解为两个关键模块：
IDPatch：将身份特征转化为小尺寸RGB图像块，直接贴入ControlNet的条件图像中，精确指定每个人的位置；
IDEmbedding：作为身份细节的表达，与文本提示共同输入，增强人物面部的真实性与独特性。
特别地，IDPatch兼具“位置标记”和“身份锚点”双重作用：不仅告诉模型“谁在哪”，也帮助模型从多个IDEmbedding中，正确选出对应的、包含更丰富细节的身份向量。
不仅如此，ID-Patch还能灵活融合姿态图、边缘图、深度图等多种空间条件，轻松适配复杂场景，兼顾准确性与通用性。
🚀实验效果：又快又准，一步到位！
如图表所示，ID-Patch在身份还原(identityresemblance)与身份-位置匹配(associationaccuracy)两个核心指标上表现出色，分别达到了0.751和0.958，充分体现出其在保持人物面部一致性和精确放置方面的强大能力。在文本对齐（textalignment）方面，各方法表现相近，差异不显著。而在生成效率上，ID-Patch是所有方法中最快的！
值得注意的是，随着图中人脸数量的增加，OMG和InstantFamily出现了明显的性能下降，主要由于ID泄露问题加剧；而ID-Patch的表现更为稳健，虽然也存在一定下降，但幅度较小。这种下降主要是由于人脸数量增多后，单张人脸在图像中的面积缩小，进而影响了SDXL模型对小脸部特征的还原效果。同时，更多人脸的存在也对面部特征提取提出更高的需求，因此会略微增加生成时间。
在速度方面，ID-Patch的优势尤为突出：
⏱️生成8人合影仅需约10秒
🕑相比之下，OMG方法则需要近2分钟才能完成一张图像的生成
⚙️InstantFamily因为注意力掩码的引入，比ID-Patch稍慢
无论是还原度、位置精准度，还是生成效率，ID-Patch都交出了一份令人满意的答卷！
💡面部特征仍有提升空间，未来可期！
目前模型中的人脸特征可能仍然混杂了光照与表情变化等信息，尚未完全与身份特征解耦，这在一定程度上可能影响最终生成图像的质量与一致性。引入更多同一身份、不同光照和表情状态的图像，以丰富训练数据的多样性。这样的数据增强方式有望帮助模型更好地学习在不同条件下仍保持身份一致性的能力，从而进一步提升生成图像的真实感与细节表现力。
总结与展望
✨总的来说，ID-Patch正在重新定义多人物图像生成的可能性。
我们提出的全新方法ID-Patch，在多身份、多人物图像生成中实现了突破式提升——不仅大幅增强了人物身份的还原度，还显著提高了生成图中每位人物位置的精准控制力。其核心创新在于：我们将每位人物的身份特征嵌入到一个独立的图像小块中，并借助ControlNet技术将这些“身份块”精确放置到目标位置，从根源上缓解了以往方法中常见的ID泄露问题。
更进一步，ID-Patch拥有极强的兼容性和扩展性，能够与姿态控制、深度图等多种空间条件自然融合，具备良好的泛化能力。实验证明，在三人以上的复杂图像生成场景中，ID-Patch始终保持出色表现，为生成式AI在合影、社交图像、虚拟人物排布等领域带来了前所未有的体验。
🔭更精彩的未来，正在开启。
我们相信，未来可探索的方向将更加广阔：比如结合同一个人不同角度的图像进一步增强面部还原度，又或是通过patch技术实现对人物位置+表情的双重控制，从而让合成图像更加真实、生动、有温度。
参考文献