ICLR 2025 | 解锁虚拟试衣新姿势!智象未来提出SPM-Diff,大幅提升真实性、可控性,让衣服“贴身”又自然!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
网购衣服总担心“买家秀”和“卖家秀”天差地别?虚拟试衣不自然、细节难还原的问题一直困扰着消费者。智象未来团队提出SPM-Diff算法,成功攻克虚拟试衣两大难题,论文《Incorporatingvisualcorrespondenceintodiffusionmodelforvirtualtry-on》已被ICLR2025收录!他们让AI理解服饰与人体间的“视觉对话”,不仅显著提升虚拟试衣细节还原能力,还解决了复杂姿态下服装形变失真问题。
论文:https ://openreview. net/pdf?id=XXzOzJRyOZ
代码:https ://github. com/HiDream-ai/SPM-Diff
模型:https ://huggingface. co/HiDream-ai/SPM-Diff
扩散模型在虚拟试穿(VTON)任务中已取得初步成功。典型的双分支架构包含两个UNet,分别用于隐式服装变形和合成图像生成,并已成为VTON任务的秘诀。然而,由于扩散模型固有的随机性,保留给定服装的形状和每个细节仍然具有挑战性。
为了缓解这一问题,论文提出明确利用视觉对应关系作为先验信息来简化扩散过程,而不是简单地将整件服装输入UNet作为外观参考。具体而言将细粒度的外观和纹理细节解释为一组结构化的语义点,并通过局部流变形将植根于服装的语义点与目标人物上的语义点进行匹配。然后,这些二维点被增强为具有目标人物深度/法线图的三维感知线索。这种对应关系模仿了将衣服穿在人体上的方式,而3D感知线索则充当语义点匹配,以监督扩散模型的训练。
为了充分利用语义点匹配的优势,论文进一步设计了一种以点为中心的扩散损失函数。大量的实验证明了提出的方法能够很好地保留服装细节,这在VITON-HD和DressCode数据集上都获得了最佳的VTON性能。
给定目标人物的插图和(a)带有语义点的合体服装。现有的基于GAN的方法(例如(b)GP-VTON)和基于扩散的方法(例如(c)Stable-VTON和(d)OOTDiffusion)通常难以处理复杂的服装纹理细节和具有挑战性的人体姿势,从而导致一系列伪影和必要的纹理细节缺失。相比之下,(e)我们的SPM-Diff有效地缓解了这些限制,并获得了更高质量的结果,语义点对齐更佳,从而实现了强大的视觉对应性,从而保留了服装细节/形状。
SPM-Diff的整体框架。(a)语义点匹配(SPM)示意图。在SPM中,首先采样服装上的一组语义点,并通过局部流变形将其与目标人物上的相应点匹配。然后,这些二维线索被增强为具有深度/法线图的三维感知线索,这些线索充当语义点匹配,以监督扩散模型。(b)双分支框架包括Garm-UNet和Main-UNet,分别用于服装特征学习和图像生成。需要注意的是,在我们的SPM-Diff中,Main-UNet已升级为SPM,以实现高保真合成。(c)服装与人物点对应的可视化
定量指标:在VITON-HD和DressCod数据集上,我们的SPM-Diff在大多数指标上都稳定优于现有的VTON方法
定性结果:(换衣的例子展示)
论文提出了一种基于扩散的虚拟试穿任务模型SPM-Diff。不同于将店内服装整体编码作为外观参考,SPM-Diff独特地通过植根于给定服装的语义兴趣点,挖掘服装与合成人物之间的视觉对应关系。这种结构化的先验信息被输入到扩散模型中,以促进服装细节在扩散过程中的保留。大量实验验证了SPM-Diff在单数据集评估和跨数据集评估方面均优于最先进的VTON方法。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~