字节开源换脸写真模型InfiniteYou，可实现零样本身份ID一致保持，无缝集成FLUX、ControlNets、LoRAs！

发布日期: 2025-06-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天给大家介绍一个字节刚开源的换脸写真新模型InfiniteYou，这是一种先进的零样本身份ID一致性保持模型，由字节跳动基于文生图领域最强开源模型FLUX模型研发的。InfiniteYou专注于利用扩散变换器（DiTs）技术实现灵活且高保真的身份保留图像生成。它解决了现有方法中存在的问题，如身份相似性不足、文本与图像对齐不佳以及生成质量和美学水平低下等。同时，InfiniteYou具有高度的兼容性，可以与现有的多种方法无缝集成，如FLUX. 1-dev的不同变体、ControlNets、LoRAs等，为定制化任务提供了更多的控制力和灵活性。
相关链接：
主页：https ://bytedance. github.io/InfiniteYou
论文：https ://arxiv. org/pdf/2503. 16418
试用：https ://huggingface. co/spaces/ByteDance/InfiniteYou-FLUX
实现灵活、高保真且身份保存的图像生成仍然是一项艰巨的任务，特别是使用FLUX这样的先进扩散变换器(DiT)。论文推出了InfiniteYou(InfU)，这是最早利用DiT完成此任务的强大框架之一。InfU解决了现有方法的重大问题，例如身份相似度不足、文图对齐不佳以及生成质量和美观度低。InfU的核心是InfuseNet，它是一个通过残差连接将身份特征注入DiT基础模型的组件，在保持生成能力的同时增强身份相似度。多阶段训练策略，包括使用合成单人多样本(SPMS)数据进行预训练和监督微调(SFT)，进一步改善了文图对齐、提高了图像质量并减轻了人脸复制粘贴。大量实验表明，InfU实现了最先进的性能，超越了现有基线。此外，InfU的即插即用设计确保与各种现有方法的兼容性，为更广泛的社区做出了宝贵的贡献。
InfU与最先进的基线FLUX. 1-devIP-Adapter和PuLID-FLUX的定性比较结果。FLUX. 1-devIP-Adapter(IPA)生成的结果的身份相似性和文本-图像对齐不足。PuLID-FLUX生成具有良好身份相似性的图像。然而，它的文本-图像对齐较差（第1、2、4列），图像质量（例如，第5列中的坏手）和美感下降。此外，PuLID-FLUX的面部复制粘贴问题也很明显（第5列）。相比之下，提出的InfU在所有维度上都优于基线。
InfU具有理想的即插即用设计，与许多现有方法兼容。它自然支持使用FLUX. 1-dev的任何变体（例如FLUX. 1-schnell）替换基础模型，以实现更高效的生成（例如，分4步完成）。与ControlNets和LoRAs的兼容性为定制任务提供了更多的可控性和灵活性。值得注意的是，与OminiControl的兼容性扩展了我们在多概念个性化方面的潜力，例如交互式身份(ID)和对象个性化生成。InfU还与IP-Adapter(IPA)兼容，用于个性化图像的风格化，通过IPA注入样式参考时可产生不错的效果。
InfiniteYou(InfU)的主要框架和InfuseNet的详细架构。投影的身份特征和可选的控制图像由InfuseNet通过残差连接注入到文本到图像的DiT中。具体来说，InfuseNet中的每个DiT块预测基础模型中相应iDiT块的输出残差。只有InfuseNet和投影网络是可训练的。
InfU是一种使用高级DiT进行身份保留图像生成的新框架。InfU解决了现有方法在身份相似性、文本图像对齐、整体图像质量和生成美学方面的关键限制。该框架核心是InfuseNet，它在保持生成能力的同时增强了身份保留。多阶段训练策略进一步提高了整体表现。综合实验表明，InfU的表现优于最先进的基线。此外，InfU是即插即用的，可与各种方法兼容，为更广泛的社区做出了重大贡献。InfU在该领域树立了新的标杆，展示了集成DiT实现高级个性化生成的巨大潜力。未来的工作可能会探索可扩展性和效率的增强，以及将InfU的应用扩展到其他领域。
限制和社会影响。尽管结果令人鼓舞，但InfU的身份相似性和整体质量还有待进一步提高。潜在的解决方案包括额外的模型扩展和增强的InfuseNet设计。另一方面，InfU可能会引发人们对其促进高质量虚假媒体合成的潜力的担忧。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～