字节跳动提出Phantom!跨模态对齐技术实现人物/多主体完美复刻,秒杀商业方案!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文名:Phantom:Subject-ConsistentVideoGenerationviaCross-ModalAlignment
论文链接:https ://arxiv.org/pdf/2502.11079
开源代码:https ://phantom-video.github.io/Phantom/
扩散模型的兴起正以惊人的速度迅速重塑生成式建模领域。其中,扩散模型在视频生成方面带来的进展尤为显著。在视觉领域,与图像生成相比,视频生成需要更多地关注多帧的连续性和一致性,这带来了额外的挑战。受大语言模型缩放定律的启发,视频生成的重点已转向研究基础大模型,如Sora,这些模型已展现出良好的视觉效果,正为人工智能生成内容的新时代铺平道路。
视频生成基础模型的持续发展正不断拓展至各类应用领域,而主题一致的视频生成仍处于探索阶段。我们将此称为“主题到视频”(Subject-to-Video),即从参考图像中提取主题元素,并根据文本指令生成主题一致的视频。我们认为,“主题到视频”的本质在于平衡文本和图像的双模态提示,从而深度且同时对齐文本和视觉内容。为此,我们提出了Phantom,这是一个适用于单主题和多主题参考的统一视频生成框架。在现有的文本到视频和图像到视频架构基础上,我们重新设计了联合文本-图像注入模型,并通过文本-图像-视频三元组数据驱动其学习跨模态对齐。所提出的方法在解决图像内容泄漏和多主题混淆问题的同时,实现了高保真的主题一致视频生成。评估结果表明,我们的方法优于其他最先进的闭源商业解决方案。特别是,我们强调在人物生成中的主题一致性,涵盖了现有的保留身份的视频生成,同时具有更显著的优势。
本节介绍Phantom的具体实现。第一小节描述如何构建跨模态对齐的训练数据,强调创建交叉配对的文本-图像-视频三元组以解决“复制粘贴”问题。第二小节介绍Phantom架构的设计和考虑因素,重点关注如何将单个和多个主体特征动态注入到框架中。第三小节介绍一些关键的训练设置和推理技术,以确保S2V能力的高效实现。
图3.跨模态视频生成的数据处理管道。该过程包括过滤、添加字幕、检测和匹配阶段,以从视频片段中提取主体并将其与文本提示对齐,确保生成一致的视频。
为了实现主体到视频(S2V)的生成,我们构建了用于跨模态学习的文本-图像-视频三元组数据结构(图3),确保视频与图像和文本都能配对。首先,我们从Panda70M[3]和内部资源中采样长视频。使用AutoShot[64]和PySceneDetect[50]将这些视频切割成单场景片段,并过滤掉任何质量、美感或运动水平较低的片段。接下来,我们使用Gemini[49]为过滤后的视频片段生成字幕,重点描述主体的外观、行为和场景。此外,利用大语言模型(LLM)[36]分析字幕并提取带有外观描述的主体词,将其作为视觉语言模型(VLM)[1]的提示,以获取参考帧的主体检测框。此时,字幕中主体的描述可以与参考图像中检测到的主体元素精确对齐。
尽管参考图像和文本是对齐的,但参考图像是从视频中的特定帧中提取的。这些图像-视频对被称为“对内”数据。一些现有方法使用对内数据来训练S2V模型,以确保图像和视频之间的主体一致性。然而,高度的视觉相似性可能会导致模型忽略文本提示,从而生成的视频只是简单地复制粘贴输入图像。为了解决这个问题,我们额外努力进一步建立跨视频片段之间的配对。我们使用改进的CLIP架构的图像嵌入器[46]对不同视频中检测到的主体进行评分和配对。得分过高(表明可能存在复制粘贴)或过低(表明是不同的主体)的配对将被剔除。
构建跨配对数据管道后,需要根据应用场景进行进一步分割。这些主要元素包括人物、动物、物体、背景等。此外,多个元素之间的交互可以进一步对场景进行分类,例如多人交互、人与宠物交互以及人与物体交互。通过根据这些应用场景对数据源进行分割,我们可以定量补充缺失的数据类型。例如,虚拟试穿应用需要特定的模特图像和服装布局集合。最终,我们获得了大约一百万条跨配对数据,其中包含人类主体的数据占比最大。此外,我们还添加了一部分配对图像数据以增加多样性。数据源为Subject200k[5]和OmniGen[57]。
图4.Phantom架构概述。三元组数据在输入头被编码到潜在空间,组合后通过修改后的MMDiT模块进行处理,以学习不同模态的对齐。
如图4所示,Phantom架构由未训练的输入头和已训练的MMDiT模块组成。输入头包括一个从视频基础模型[30,54]继承而来的3D变分自编码器(VAE)[59]编码器和一个大语言模型(LLM)[58],分别对输入的视频和文本进行编码。至关重要的是,视觉编码器同时包含变分自编码器(VAE)[10]和CLIP[41,62]。图像特征与视频潜在特征连接后,复用3DVAE以保持视觉分支输入的一致性。同时,图像CLIP特征与文本特征连接后,提供高级语义信息,以弥补VAE提供的低级特征。特征合并涉及维度对齐,详情如下。
其中表示连接。连接后的特征和被输入到MMDiT的视觉和文本分支,并且模型仅在注意力计算期间分离注入的特征。
图5.每个MMDiT块中单个或多个参考主体的动态注入策略和注意力计算。
具体而言,MMDiT模块基于文献[30,54]并针对参考图像输入进行了改进,主要对注意力(Attention)模块[52]进行了修改,如图5所示。首先,将从计算得到的特征划分为大小为9的窗口。然后,将从计算得到的特征动态连接到每个窗口的末尾,同时将原位特征依次移至下一个窗口的开头。这种方法在保持窗口结构的同时,确保了每个窗口内视频特征和主体特征之间的交互,以及对单主体或多主体的自适应输入。同时,将从计算得到的特征和从计算得到的特征进行动态连接。收集所有参考信息后,在每个窗口内计算自注意力。然后,从输出特征中提取动态注入的参考图像特征(包括ref_v和ref_c)和每个窗口内的文本特征并求平均值。这一过程确保了当前模块内输入特征和输出特征的维度保持一致,从而便于后续模块的计算。
训练设置。我们采用整流流(RectifiedFlow,RF)[31,32]来构建训练目标,并调整噪声分布采样[11]。整流流旨在学习一个合适的流场,使模型能够高效、高质量地从噪声中生成有意义的数据样本。在训练的前向过程中,将噪声添加到干净数据中以生成,其中是服从分布的高斯噪声,是基于总步数随机采样并缩放到0到1之间的值。模型预测速度以回归速度,并且表示为
因此,整流流训练损失由下式给出
值得注意的是,在尾部包含额外的(n)维特征(参见公式2),这些特征不参与损失计算。模型训练分两个阶段进行:第一阶段以分辨率进行次迭代训练,第二阶段纳入混合的数据,再进行次迭代训练,以增强高分辨率生成能力。此外,由于变分自编码器(VariationalAutoencoder,VAE)的训练目标之一是像素级重建,当与变分自编码器特征一起训练时,CLIP特征可能会被掩盖。因此,我们在训练期间为变分自编码器设置了相对较高的丢弃率(0.7)以实现平衡。在A100上总共消耗了约30,000个GPU小时的计算资源。
推理设置。幻影推理可以接受1到4张参考图像,并通过给定的文本提示描述参考主体来生成相应的视频。请注意,使用更多参考主体进行生成可能会导致结果不稳定。为了与训练数据保持一致,推理中使用的文本提示必须首先由改写器进行调整,以确保它准确描述每个参考主体的外观和行为,避免相似主体之间的混淆(见补充材料)。采用欧拉方法进行50步采样,并且无分类器引导[17]将图像和文本条件分离。每一步的去噪输出由下式给出
其中是无条件去噪输出,是图像条件去噪输出,是联合文本-图像条件去噪输出。权重和分别设置为3和7.5。
Phantom可以从任何视频生成基础模型进行微调。本次评估排除了文本到视频(T2V)和图像到视频(I2V)的预训练阶段。我们专注于评估主体一致性生成能力,并对面部身份(faceID)的视频生成进行额外的独立评估。由于缺乏针对主体到视频的既定基准,我们构建了一个特定的测试集并相应地定义了评估指标。
我们从不同场景收集了50张参考图像,涵盖人类、动物、产品、环境和服装。每张参考图像与3个不同的文本提示配对。为确保每种情况的可信度,每个文本-图像对使用三个随机种子生成,总共生成450个视频。对于有多个参考图像的场景,我们混合上述参考图像并改写文本提示,得到50组测试集。此外,考虑到肖像场景的独特价值,我们额外收集了50张肖像参考图像,包括名人和普通人,用于身份一致性的独立评估。
对于主体到视频(S2V)任务,现有的最先进(SOTA)方法是闭源商业工具。因此,我们评估并比较了Vidu[53]、Pika[39]和Kling[26]的最新能力。对于保留身份的视频生成任务,商业工具海洛[34]展示了令人印象深刻的结果。我们还评估了一个优秀的开源算法ConsisID[61]。
图6.视频质量评估(左)和多主体一致性的用户研究结果(右)。
我们将主体到视频(S2V)评估指标分为三大类:视频质量、文本-视频一致性和主体-视频一致性。首先,视频质量的可视化展示在图6左侧的雷达图中。我们选择了VBench[24]提供的六个指标进行测试,并补充了四个内部模型得分,如结构分解得分。对于文本-视频一致性,我们使用ViCLIP[56]直接计算文本和视频之间的余弦相似度得分。对于单主体一致性,我们从每个视频中均匀采样10帧,并计算与参考图像的CLIP[7]和DINO[37]特征方向得分。此外,我们使用grounded-sam分割视频的主体部分并计算CLIP和DINO得分(不包括场景图)。对于身份一致性,我们使用三个面部识别模型来测量相似度[8,22]。
表1.基于身份一致性和指令遵循性的不同方法比较
表2.基于单主体一致性和遵循提示性的不同方法比较。粗体表示每列中的最高分,下划线表示第二高分。
如图6左侧所示的视频质量评估结果表明,Phantom(幻影)在某方面表现稍差[24],但在其他指标上表现出色。如表1和表2所示,Phantom在主体一致性(身份一致性)和遵循提示性的总体指标方面领先。对于多主体视频生成,由于自动主体检测和匹配的错误率较高,我们进行了用户研究。我们对20名用户进行了调查,让他们对这些方法从1到3进行评分(1:不可用,2:可用,3:满意)。如图6右侧柱状图所示的评估结果显示,Phantom的多主体性能与商业解决方案相当,在主体一致性方面有一定优势。
图7.对比结果展示,从上到下依次为单主体、多主体和面部身份一致的视频生成,每种情况均展示四个均匀采样的帧。
我们在图7中展示了几个典型案例的比较结果。每个生成的视频都显示了四个均匀采样的帧,包括第一帧和最后一帧。图7的前两行分别展示了生成单主体和多主体一致性的结果。可以看出,Vidu[53]和Phantom(幻影)在主体一致性、视觉效果和文本响应方面表现均衡。Pika[39]在主体一致性方面表现不佳。Kling[26]有一个明显的问题:某些案例表现出类似于图像到视频(I2V)方法的特征。例如,人物视频的第一帧几乎与输入的参考图像匹配,导致虚拟试穿场景的成功率较低。此外,笔记本电脑的案例表明,被比较的方法在刚体运动中容易导致变形。图7的最后一行展示了用于面部身份保留的视频生成结果。开源方法ConsisID[61]容易出现运动模糊,且文本响应较弱。Hailuo[34]在视觉美感方面表现出色,但面部相似度有一定损失。我们的结果在所有维度上都很均衡,在身份一致性方面有特别的优势。更多定性分析见补充材料。
我们提出了Phantom,这是一种用于主体一致视频生成的方法,通过文本-图像-视频三元组学习实现跨模态对齐。通过重新设计联合文本-图像注入机制并利用动态特征集成,Phantom在统一的单/多主体生成和面部身份保留任务中表现出具有竞争力的性能,在定量评估中优于商业解决方案。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~