320-A2|视频生成系列(叙事、长视频、多主体、对象插入、相机控制、3D控制、运动质量评估)、音视频生成系列


320-A2|视频生成系列(叙事、长视频、多主体、对象插入、相机控制、3D控制、运动质量评估)、音视频生成系列

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月14日|周五
New!|为了更好的服务广大研究者与爱好者,未来,我们将陆续开源PaperDaily系列源文件至Github平台,欢迎大家持续关注!!!
https ://github. com/AIGCResearch/Awesome-PaperDaily
2025-03-13|CUHK,ByteDanceSeed|⭐️⭐️
http ://arxiv. org/abs/2503. 10589v1https ://guoyww. github.io/projects/long-context-video/
随着视频生成技术的快速发展,研究者们已经能够利用可扩展的扩散变换器生成现实感极强的单镜头视频。然而,现实世界中的叙事视频通常由多个镜头组成,这些镜头需要在视觉和动态上保持一致。为了解决这一问题,本文提出了一种新的训练范式——长上下文调优(LongContextTuning,LCT),旨在从数据中直接学习场景级一致性。LCT通过扩展预训练单镜头视频扩散模型的上下文窗口,使模型能够捕捉跨镜头的一致性,进而生成连贯的多镜头场景。通过引入全注意力机制、交错的三维位置嵌入以及异步噪声策略,LCT实现了无额外参数的联合和自回归镜头生成。实验表明,经过LCT调优的模型能够生成具有视觉和语义一致性的多镜头视频,展现出新的生成能力。
LCT的核心在于其设计元素的创新,包括数据准备、架构设计和条件统一等。首先,数据准备阶段采用两级提示结构:全局提示和每镜头提示,以捕捉跨镜头的共享元素和特定事件。其次,在架构设计中,LCT将全注意力机制扩展到所有镜头,确保模型能够同时处理场景中的所有视频令牌。为了解决不同镜头令牌的相对位置关系,采用了交错的三维旋转位置嵌入(RoPE),从而在保持相对位置的同时,赋予每个镜头独特的绝对位置。最后,通过异步时间步策略,模型能够在训练中对每个镜头应用独立的扩散时间步,增强镜头间的动态依赖关系。这些设计使得LCT不仅能够生成视觉一致的多镜头视频,还能够实现自回归生成。
在实验部分,研究者们对LCT进行了全面的评估,主要集中在生成质量、时间一致性和语义连贯性等方面。通过与现有的图像到视频生成方法进行对比,LCT在视觉质量上略逊一筹,但在语义对齐和场景级一致性方面表现出色。此外,实验还探讨了LCT对单镜头生成能力的影响,结果显示LCT不仅保持了预训练模型的能力,甚至在某些指标上有所提升。在多镜头生成的评估中,LCT展现了出色的镜头间一致性和丰富的叙事视角。通过用户研究,结果表明受试者在跨镜头一致性方面更倾向于LCT生成的视频,验证了其在场景级视频生成中的有效性。
长上下文调优(LCT)是一种新方法,用于生成多镜头视频。想象一下,你在看一部电影,电影中的每个镜头都是一个小故事,但这些小故事需要连贯地连接在一起。LCT的工作原理是通过更好地理解这些镜头之间的关系,帮助计算机生成更自然的场景。首先,LCT使用一种特殊的方式来组织信息,使得每个镜头都能知道自己在整个故事中的位置。然后,它还使用了一种叫做“全注意力”的技术,让计算机可以同时关注所有镜头的信息,而不是一个一个地处理。最后,LCT能够根据每个镜头的不同需求,灵活地调整生成的细节。总的来说,LCT让视频生成变得更加智能和连贯,就像导演在拍摄时考虑每一个镜头之间的关系一样。
2025-03-13|UCF,HKUST|⭐️🟡
http ://arxiv. org/abs/2503. 09926v1
长视频生成是计算机视觉领域的一项重要挑战,尤其是在保持视频内容一致性方面。传统的扩展短视频生成模型的方法往往会导致质量下降和内存需求过高。本文提出了一种新方法VideoMerge,它不依赖于训练过程,能够有效地将短视频合并生成长视频,同时保持人类身份的一致性。VideoMerge通过利用预训练的文本到视频扩散模型,解决了生成长视频时常见的平滑性和一致性问题。该方法的核心在于三项创新:多切片潜在融合、长噪声初始化以及提示优化,确保生成的视频在动态变化和身份保持方面都表现出色。
VideoMerge的实施涉及三个主要步骤:
多切片潜在融合:该方法采用滑动窗口策略,通过重叠的去噪切片来增强视频切片之间的平滑过渡。重叠区域的噪声通过加权和的方式合并,确保相邻切片之间的特征能够无缝融合。
长噪声初始化:在生成长视频时,首先重复短噪声以构建长噪声,然后对相邻噪声切片进行打乱处理。这个过程通过引入随机性,保持了低频特征的一致性,有助于生成视频的整体一致性。
提示优化:为了解决人类身份在生成视频中的一致性问题,本文提出了一种提示优化策略,通过丰富和细化输入提示,确保模型在生成过程中能够更好地捕捉到人类的外观特征,减少身份变化的可能性。
在实验部分,作者对VideoMerge进行了广泛的评估,涉及人类、动物和风景等多种主题。与其他长视频生成方法(如FreeNoise、FreeLong、FIFO和DiTCtrl)进行了对比,采用了VBench的多个指标进行评估,包括主题一致性、背景一致性、运动流畅性等。实验结果显示,VideoMerge在面部一致性和整体视频质量方面均优于其他方法。具体而言,VideoMerge在生成445帧长视频时,显著提升了人类身份的保持能力和视频的动态表现。此外,作者还进行了消融实验,以量化每个组件对最终视频质量的贡献,结果表明多切片潜在融合和长噪声初始化策略是实现高质量长视频生成的关键因素。
VideoMerge的方法可以简单理解为三个步骤:首先,我们将短视频的多个部分重叠在一起,通过巧妙的加权让它们无缝连接,这样就能在视频中实现自然的过渡。其次,我们创建一个长视频的基础噪声,通过重复和稍微打乱短视频中的噪声,确保视频中人物或物体的外观保持一致。最后,我们通过详细的提示来指导模型生成更准确的内容,比如在描述人物时加入更多的外观特征,比如发色或衣服样式,这样可以减少在生成视频时出现的身份混淆。通过这三个步骤,VideoMerge能够生成既流畅又一致的长视频,展现出色的视觉效果。
2025-03-13|ByteDance,PKU|⭐️🟡
http ://arxiv. org/abs/2503. 10391v1
CINEMA是一个新颖的视频生成框架,旨在通过多模态大型语言模型(MLLM)来实现一致的多主体视频生成。随着深度生成模型,特别是扩散模型的进步,视频生成技术取得了显著的发展。然而,当前方法在生成多主体视频时仍面临挑战,尤其是在确保时间和空间一致性方面。CINEMA通过消除主体图像与文本实体之间的明确对应关系,降低了模糊性并减少了标注工作,从而提升了个性化内容生成的灵活性。该框架能够处理多种主体的生成任务,不仅提高了主体的一致性,也为讲故事、互动媒体和个性化视频生成的高级应用铺平了道路。
CINEMA的核心由三个模块组成:多模态大型语言模型、语义对齐网络和视觉实体编码。首先,MLLM用于编码来自不同参考图像和文本提示的多模态信息,生成统一的特征表示。其次,语义对齐网络(AlignerNet)通过映射MLLM生成的隐藏状态到T5文本编码器的特征空间,确保视觉和文本信息的良好对齐。最后,视觉实体编码模块使用变分自编码器(VAE)对每个参考图像进行细粒度的实体级编码,增强视觉身份一致性。该方法通过联合注意力机制,动态融合多模态特征,从而生成连贯且一致的视频内容。此外,CINEMA采用了特定的指令模板来指导MLLM,确保生成的结果在语境上更为准确。
在实验部分,我们使用自制的高质量视频数据集进行模型训练,包含约460万个视频片段,并通过严格的数据预处理和过滤,最终得到约146万个视频片段。每个视频片段配有一个至六个参考图像。我们对CINEMA的性能进行了定性评估,展示了模型在保持主体视觉特征一致性方面的能力。通过与现有方法的对比,CINEMA在多个复杂场景中生成的视频能够准确保留提供的主体特征,如衣物纹理和环境背景。此外,我们进行了消融实验,以验证各个组件在CINEMA中的有效性,结果表明,AlignerNet和视觉实体编码模块对提升生成视频的质量至关重要。
CINEMA的工作原理可以简单理解为一个多步骤的过程。首先,系统接收一些参考图像和文本描述,这些信息帮助它理解要生成什么样的视频。接下来,CINEMA会利用一个强大的语言模型来分析这些图像和文本,提取出重要的特征,比如人物的外观和动作。然后,语义对齐网络会确保这些特征能够很好地结合在一起,使得视频中的人物看起来一致且自然。最后,视觉实体编码模块会对每个图像进行深入分析,确保在生成视频时,人物的细节和动作流畅自然。通过这样的方式,CINEMA能够制作出高质量的多主体视频,符合用户的需求和期待。
2025-03-13|NJU,SMU|⭐️🟡
http ://arxiv. org/abs/2503. 10342v1
DreamInsert是一个创新的框架,旨在实现从单张图像到视频的零-shot对象插入,首次在无需训练的情况下实现此任务。传统方法通常依赖于额外的信息,如参考视频或三维模型,以生成合成运动,而DreamInsert通过考虑对象的运动轨迹,能够预测未见的运动,成功地将静态对象无缝地融入动态视频中。该方法的简便性和有效性为未来的内容创作和合成开辟了新的方向。通过一系列实验验证了DreamInsert的有效性,展示了其在多种场景下的应用潜力,尤其在虚拟现实和内容创作领域,能够显著提升用户体验。
DreamInsert的核心方法分为两个主要阶段:运动创建和时空对齐。首先,在运动创建阶段,通过结合静态对象、背景视频和预定义的运动轨迹,生成对象的粗略运动轨迹。利用像素噪声注入技术,选择性地在关键区域施加噪声,从而生成符合实际运动的粗糙运动序列。其次,在时空对齐阶段,通过使用训练好的生成模型,对粗糙运动进行精细化处理,确保对象与背景之间的时空一致性。该过程通过文本描述引导,以确保生成的对象运动自然且与环境和谐相融。这样,DreamInsert不仅解决了缺乏参考运动的问题,还确保了插入对象的真实性和环境的连贯性。
在实验部分,研究团队通过构建一个名为I2VInsertion(I2VIns)的数据集,评估了DreamInsert的性能。该数据集包含14个对象-视频对,每个案例都有背景视频、对象图像和运动轨迹序列。通过定量和定性评估,DreamInsert在插入对象的保真度、运动的平滑性以及与背景的交互等方面均表现出色。用户研究进一步验证了DreamInsert在多个维度上的优势,显示出其在保持视觉一致性和自然运动方面的显著改进。实验结果表明,DreamInsert在各项指标上均优于现有的先进技术,展示了其强大的应用潜力。
DreamInsert的工作原理可以简单理解为一个两步走的过程。首先,系统会把你想要插入的视频对象和背景视频结合起来,利用一些智能算法来生成对象的运动轨迹。想象一下,如果你想把一只狗放进一个视频里,系统会通过分析狗的运动特征(比如狗是跑还是跳)来生成一个大概的运动路径。接下来,在第二步中,系统会对这个粗略的运动进行细化,确保狗的动作看起来更加自然,并且与背景环境(比如草地或沙发)完美融合。通过这种方式,DreamInsert能够在没有额外训练的情况下,将静态对象生动地融入到动态视频中,让整个过程看起来既真实又流畅。
2025-03-13|CUHK,ByteDanceSeed,Stanford|⭐️⭐️
http ://arxiv. org/abs/2503. 10592v1https ://hehao13. github.io/Projects-CameraCtrl-II/
CAMERACTRLII是一个创新框架,旨在通过相机控制的视频扩散模型实现大规模动态场景探索。与以往的相机条件视频生成模型相比,该框架克服了生成动态内容和视角范围受限的缺陷。通过构建一个包含相机参数注释的动态视频数据集,并设计轻量级的相机注入模块,CAMERACTRLII能够在生成视频时保持场景的一致性。用户可以根据需求指定相机轨迹,系统则会生成连续的、动态的一系列视频片段,允许用户从不同视角无缝探索环境。实验结果表明,该模型在多种场景下表现出更广泛的空间探索能力和更高的动态内容生成质量。
CAMERACTRLII的方法主要包括以下几个关键部分:
数据集构建:构建了包含动态视频和相机轨迹注释的REALCAM数据集,采用从动态视频中提取的相机参数,确保数据的多样性和准确性。
相机控制注入模块:在扩散模型的初始层注入相机参数,避免对像素生成的过度约束,从而保持动态内容的生成能力。
联合训练策略:结合带有相机标签和无标签的视频数据进行训练,利用无标签数据提升模型的泛化能力。
片段级视频扩展:支持基于先前生成的视频片段和新相机轨迹生成连续视频,确保视觉一致性。
分类器自由引导:在推理过程中,通过调整文本和相机条件的引导权重来增强相机控制的准确性。
通过这些方法,CAMERACTRLII能够实现高质量的动态视频生成,同时允许用户在虚拟环境中进行自由探索。
在实验部分,研究者对CAMERACTRLII进行了全面评估,主要通过与现有方法的比较来验证其有效性。采用了六种评价指标,包括视觉质量(使用Frechet视频距离FVD)、视频动态保真度(通过计算前景对象的运动强度)、相机控制准确性(通过传输误差TransErr和旋转误差RotErr来衡量)等。实验结果显示,CAMERACTRLII在所有指标上均优于对比方法,尤其是在动态内容生成和相机控制方面。通过对不同设计选择的消融研究,进一步验证了数据集构建、相机注入模块和视频扩展方法的有效性。此外,研究还展示了模型在多种场景下的生成能力,证明了其在动态视频生成领域的潜力和应用前景。
CAMERACTRLII的方法可以简单理解为一个智能的相机控制系统,它帮助用户在虚拟环境中自由探索。首先,研究团队收集了大量带有相机移动信息的视频,创建了一个名为REALCAM的数据集。接下来,他们设计了一种新颖的方式,只在模型的初始阶段添加相机信息,这样可以让视频生成更自然,不会因为相机控制而影响画面的动态效果。此外,他们还结合了有标签和无标签的视频进行训练,使得模型在处理不同场景时更加灵活。最后,通过一种叫做分类器自由引导的技术,模型能够更加准确地根据用户的指令生成视频。总的来说,CAMERACTRLII让用户可以像在现实中一样,随心所欲地在虚拟世界中移动和探索。
2025-03-12|CUHK,Microsoft|⭐️🟡
http ://arxiv. org/abs/2503. 09733v1https ://bestzzhang. github.io/I2V3D
在本文中,我们提出了一种名为I2V3D的创新框架,旨在通过精确的3D控制将静态图像转化为动态视频。该方法结合了先进的生成模型和计算机图形学技术,克服了现有图像到视频生成方法在可控性和质量方面的局限性。I2V3D通过重建场景的完整几何结构,利用计算机图形学的管道实现对角色动画和相机运动的精确控制,从而生成高质量、可控的视频。该框架采用两阶段生成过程,首先进行3D引导的关键帧生成,然后通过3D引导的视频插值来创建流畅的动画。通过这种方式,用户不仅可以定义动画的起始点,还能生成超出传统视频生成模型的时间长度的动态序列。
I2V3D的核心方法包括三个主要步骤:首先是3D重建和渲染;其次是3D引导的关键帧生成;最后是3D引导的视频插值。具体而言:
3D重建与渲染:从输入图像中提取前景物体的3D网格,并使用多视图生成技术重建背景。通过这种方式,整个场景的几何结构得以生成,便于后续的动画制作。
3D引导的关键帧生成:利用定制的图像扩散模型,生成与3D几何相一致的关键帧,同时保持输入图像的视觉质量。通过多视图增强和扩展注意力机制,确保关键帧之间的时间一致性。
3D引导的视频插值:在生成的关键帧之间,采用双向轨迹去噪方法,确保生成视频的时间连贯性和几何对齐。通过深度控制和渲染特征的结合,提升生成视频的质量和一致性。
为验证I2V3D的有效性,进行了一系列实验与基准测试。我们将其与多个现有方法进行了比较,包括ISculpting、AnimateAnyone和MagicPose等。实验结果显示,I2V3D在生成高质量、时间一致的视频方面表现优越,特别是在处理复杂的角色动画和相机运动时。我们评估了生成视频的时间一致性、视觉相似性以及与渲染视频的对齐程度。定量指标如CLIP相似度、SSIM和D-RMSE均显示出I2V3D的显著优势。此外,用户研究也表明,I2V3D在用户控制和动画灵活性方面得到了积极反馈。这些实验结果验证了该方法在各种应用场景中的广泛适用性和潜力。
I2V3D的方法可以简单理解为三个步骤。首先,我们从一张图片中提取出前景物体,并重建整个场景的3D结构,这样就能让我们在动画中自由移动相机和物体。接下来,我们使用一种特殊的图像生成技术来生成关键帧,确保这些帧看起来一致且与原图相似。最后,我们在这些关键帧之间进行平滑插值,生成流畅的视频。这个过程允许用户在动画中灵活地选择起始点,并能创建出更长的动画序列,而不受传统视频生成方法的限制。通过这种方式,I2V3D能够生成高质量、可控的动画视频,适用于各种创意项目。
2025-03-13|AlibabaGroup,CAS-IA,UCAS|⭐️🟡
http ://arxiv. org/abs/2503. 10076v1https ://github. com/GD-AIGC/VMBench
随着视频生成技术的迅速发展,如何有效评估生成视频的运动质量成为一个重要的研究方向。传统的评估方法往往侧重于静态内容,缺乏对动态运动的深入分析。为了解决这一问题,本文提出了VMBench,一个全面的视频运动基准,旨在建立与人类感知对齐的运动评估标准。VMBench的核心在于其感知驱动的运动评估指标,这些指标覆盖了969种不同类型的运动,提供了比现有基准更为丰富的评估维度。此外,VMBench还引入了元引导运动提示生成的方法,结合人类偏好验证机制,确保评估的准确性和有效性。通过这些创新,VMBench为视频生成模型的优化提供了新的方向和标准。
VMBench的方法主要包括三个关键部分:感知驱动的运动评估指标、元引导运动提示生成和人类对齐验证机制。首先,感知驱动的运动评估指标(PMM)由五个组成部分构成:对象完整性评分(OIS)、可感知幅度评分(PAS)、时间一致性评分(TCS)、运动平滑度评分(MSS)和常识遵循评分(CAS)。这些指标不仅关注运动的平滑性,还深入分析时空一致性和物理法则的遵循。其次,元引导运动提示生成(MMPG)通过提取元信息、生成多样化的运动提示并进行人机协作验证,从而确保生成的提示具有逻辑一致性和合理性。最后,人类对齐验证机制通过人类评估者的反馈,优化了评估标准,使其更符合人类的感知偏好。
在实验部分,VMBench对六种主流文本到视频生成模型进行了评估,包括OpenSora、CogVideoX等。每个模型生成1,050个视频,总共评估了6,300个视频样本。实验通过Spearman相关系数来量化评估指标与人类评分之间的对齐程度。结果显示,VMBench的评估指标在各个维度上均显著提高了与人类偏好的相关性,尤其是在运动质量的评估上,PMM的引入使得整体相关性提升了35. 3%。此外,通过对比现有的评估方法,VMBench展现了更强的运动评估能力,突显了其在视频生成领域的重要性。
在VMBench的评估方法中,有几个重要的步骤帮助我们更好地理解生成视频的运动质量。首先,研究团队设计了一套新的评分系统,这个系统包括五个主要指标来评估视频的运动表现。例如,OIS用来检查视频中物体的形状是否合理,PAS则帮助我们判断动作是否自然。其次,元引导运动提示生成的过程像是制作食谱,首先提取出视频中的主题、地点和动作,然后生成描述这些动作的提示。最后,团队还利用人类评审者的反馈来确保这些提示是合理的,就像厨师尝试食物以确保味道一样。通过这种方法,VMBench能够更准确地评估视频生成模型的表现,使得生成的视频更符合我们对真实运动的感知。
2025-03-13|HKUST,MoonshotAI|⭐️🟡
http ://arxiv. org/abs/2503. 10522v1https ://zeyuet. github.io/AudioX/
AudioX是一种新颖的多模态生成框架,旨在实现从各种输入(如文本、视频和音频)到高质量音频和音乐的自动生成。现有的音频生成方法大多局限于单一模态,缺乏跨模态的统一能力,且在高质量多模态训练数据上存在短缺。为了解决这些问题,AudioX采用了基于扩散变换器(DiffusionTransformer,DiT)的架构,并引入了一种多模态掩码训练策略。这种策略通过对输入进行掩码处理,迫使模型从部分信息中学习,从而提高了跨模态表示的鲁棒性和一致性。此外,研究团队还构建了两个大规模的多模态数据集,即VGGSound-Caps和V2M-Caps,以支持模型的训练与评估。实验结果表明,AudioX在多种音频和音乐生成任务中表现出色,超越了现有的专门化模型。
AudioX的核心在于其多模态掩码训练策略与基于扩散变换器的生成框架。该方法的主要步骤包括:
输入掩码:随机掩盖视频帧、文本标记和音频片段的一部分,以增强模型对不同模态的学习能力。
特征提取:每种模态通过专门的编码器提取特征,视频使用时序变换器,文本和音频则采用线性变换进行维度对齐。
多模态嵌入:将提取的特征进行拼接,形成一个多模态条件嵌入,并输入到扩散变换器中。
扩散过程:通过前向扩散过程逐步添加噪声,并训练反向去噪网络以重建清晰的音频数据。
训练目标:优化模型以最小化每个时间步的噪声估计误差,从而提高生成音频的质量。
这种方法不仅提高了模型对多模态输入的适应能力,还确保了生成结果的高保真度和一致性。
在实验部分,研究团队对AudioX的性能进行了全面评估,涵盖了多种生成任务,包括文本到音频、视频到音频、音乐生成等。使用了多个数据集进行定量评估,主要评估指标包括Kullback-Leibler散度(KL)、Inception分数(IS)、Frechet距离(FD)等。此外,团队还进行了用户研究,以收集专业用户对生成音频和音乐质量的主观评价。实验结果显示,AudioX在大多数任务中都达到了或超越了现有最先进的方法,尤其在文本和视频条件下的音频生成任务中表现突出。通过对不同输入模态的组合进行分析,发现模型在多模态条件下的生成能力显著优于单一模态输入,进一步验证了其强大的跨模态学习能力。
AudioX的工作原理可以简单理解为一个智能音频生成器,它能根据不同的输入(比如文字描述、视频内容或已有的音频)来创造出新的音频或音乐。首先,它会随机隐藏一些输入信息,这样模型就必须从不完整的信息中学习,变得更加聪明。接着,AudioX会把这些输入通过不同的处理方式转化为特征,就像把各种食材准备好一样。然后,它将这些特征结合在一起,形成一个完整的“食谱”,并通过一个特殊的生成过程来制作出最终的音频。这个过程就像是慢慢去除噪声,最终得到清晰的音频。通过这样的方式,AudioX不仅能生成高质量的音频,还可以适应多种不同的输入类型,展现出极强的灵活性和创造力。
2025-03-13|ZJU,LiAuto,ZhejiangLab,HIAS-UCAS|⭐️
http ://arxiv. org/abs/2503. 10096v1
在肖像视频生成领域,近年来的进展显著,但现有方法往往依赖于人工先验和预训练的生成模型,这可能导致不自然的运动效果及低效的推理过程。为了解决这些问题,本文提出了一种名为“语义潜在运动(SeMo)”的紧凑且富有表现力的运动表示方法。通过这一表示,我们的方法不仅能实现高质量的视觉效果,还能提高推理效率。SeMo的框架采用了三步流程:抽象、推理和生成。在抽象阶段,我们设计了一种MaskMotionEncoder,将主体的运动状态压缩为紧凑的潜在运动表示;在推理阶段,我们在这一潜在空间中进行长期建模和有效推理,以生成运动序列;最后,在生成阶段,运动动态作为条件信息,引导生成模型从参考帧合成目标帧。通过这一方法,我们实现了实时视频生成,并在自然性上超越了现有的最先进模型。
我们的工作基于一种两阶段的自监督学习框架,旨在生成与音频同步的动态视频。第一阶段的目标是为每帧提取一个紧凑的高层语义运动表示M。我们首先使用可学习的tokens和随机掩码技术,将运动压缩为抽象表示。接着,利用参考图像和运动信息重建目标图像。在这一阶段,MotionAutoencoder被训练并固定。第二阶段中,我们训练一个MotionGenerator。对于每一帧,首先提取运动信息,然后基于音频和参考图像的运动生成目标运动。整个过程利用扩散模型(DiffusionModel)进行图像生成,确保生成的图像细节丰富。该框架通过自注意力层进行时间建模,保证了生成视频的流畅性和自然性。
在实验中,我们使用了三个数据集(DH-FaceVid-1K、HDTF和MEAD)来训练MotionAutoencoder,并在两个数据集(HDTF和DH-FaceVid-1K)上训练MotionGenerator。我们通过严格的评估指标(如FID、FVD、LPIPS、PSNR和SSIM)来比较不同方法的性能。在肖像视频生成阶段,我们的方法在自然性和质量上均超越了现有的对比模型,尤其在嘴唇同步和细节生成方面表现突出。此外,用户研究表明,参与者对我们生成的视频在真实感上给予了高评价。通过对比实验,我们验证了SeMo在运动重建和音频驱动视频生成任务中的有效性,展示了其在不同场景下的适应能力和强大性能。
我们的研究提出了一种新方法,旨在生成与音频同步的肖像视频。首先,我们将视频中的运动信息压缩成一种简单的表示,像是把复杂的内容变成了一种简化的符号。接着,我们利用这些符号和一张参考图片来重建目标视频的每一帧。整个过程分为两个阶段:第一阶段是学习如何抽象运动信息,第二阶段则是根据音频生成相应的运动序列。通过这种方法,我们不仅能生成高质量的视频,还能确保视频中的动作看起来很自然。此外,我们的框架还能够处理长时间的运动变化,确保视频的流畅性。最终,我们的实验结果显示,这种方法在生成视频时的表现优于许多现有技术。
2025-03-13|KAUST,Baidu,TokyoInstituteofTechnology,THU,USTC,NTU|⭐️
http ://arxiv. org/abs/2503. 09942v1https ://sunyasheng. github.io/projects/COSH-DIT
Cosh-DiT是一种新颖的共语手势视频合成系统,旨在解决将人类手势与语音节奏同步的问题。该系统采用混合扩散变换器,分为音频到运动和运动到视频的两大合成阶段。首先,Cosh-DiT通过音频扩散变换器(Cosh-DiT-A)合成与语音节奏相协调的手势动态,利用向量量化变分自编码器(VQ-VAE)学习上半身、面部及手部运动的先验知识。接着,Cosh-DiT通过视觉扩散变换器(Cosh-DiT-V)生成与生成的运动相匹配的真实视频,整合空间和时间上下文。大量实验表明,该框架能够一致地产生生动的、与语音完美同步的自然流畅视频,展示了其在共语手势合成领域的优越性。
Cosh-DiT系统的核心在于其两阶段的合成过程。首先,音频驱动的手势合成阶段(Cosh-DiT-A)通过混合运动表示来恢复人类手势。该阶段使用2D姿态和3D手部模型的结合,确保手势的准确性和表达力。其次,几何感知对齐模块用于优化手部位置,确保3D手势与2D姿态的精确对齐。然后,生成的运动表示被输入到视觉扩散变换器(Cosh-DiT-V),该模块通过对视频帧进行滑动窗口处理,提取时间和空间特征,生成与音频同步的真实视频帧。整个过程通过迭代的扩散变换器块来增强运动和外观的细节,确保视频的自然流畅性和真实感。
为了评估Cosh-DiT的性能,研究团队进行了大量实验,使用了包含921个受试者的200小时视频数据集。通过与多种先进的音频驱动运动合成方法进行对比,Cosh-DiT在静态和动态评估指标上均表现优异。静态评估使用SSIM、LPIPS和FID等图像质量度量,动态评估则通过FVD和关键点检测方法评估运动自然度。实验结果显示,Cosh-DiT在图像质量、身份保留和运动自然性等多个指标上均超越了其他方法,特别是在生成的手势和面部表情的细节表现上,显示出其在共语手势视频合成中的强大能力。
Cosh-DiT的工作原理可以简单理解为一个两步的过程。首先,它接收音频输入,分析说话者的语音节奏,并生成相应的手势动作。这一步使用了一种叫做音频驱动的扩散变换器,能够根据音频信息来合成手势。接下来,生成的手势动作会被用来制作视频。这个过程通过视觉扩散变换器完成,它会将手势与说话者的面部和身体特征结合,确保视频看起来既自然又真实。为了确保手势和面部动作的协调,Cosh-DiT还使用了一些数学方法来优化手势的准确性,最终生成的视频能够精准地反映说话者的动作和表情。
2025-03-13|ConstructorU,ConstructorTech|⭐️
http ://arxiv. org/abs/2503. 10488v1
在实时生成与语言同步的手势方面,传统的扩散模型虽然在生成的真实感和多样性上取得了成功,但仍面临着显著的局限性,尤其是在实时场景中。为了解决这一问题,本文提出了一种新的框架——加速滚动扩散(AcceleratedRollingDiffusion),通过结构化的渐进噪声调度来扩展现有的滚动扩散模型。该方法不仅实现了无缝的长序列手势合成,还保持了生成的真实感和多样性。我们进一步提出了滚动扩散梯度加速(RDLA)方法,该方法将噪声调度重构为逐步梯级,允许同时去噪多个帧,从而显著提高了采样效率。通过在ZEGGS和BEAT基准上的评估,我们的框架在生成速度和视觉保真度上均取得了显著提升,达到每秒120帧的生成速度,且没有妥协于生成质量。
本文的方法分为几个关键部分。首先,扩散模型的基本原理是通过逐步添加高斯噪声到数据样本中,然后通过神经网络进行去噪。我们采用了滚动扩散模型(RDM),这种模型通过引入渐进的噪声腐蚀过程,使其更适合于序列数据生成。其次,我们提出了结构化的噪声调度机制,能够在每个生成窗口内均匀分配噪声,从而实现更平滑的生成过程。此外,RDLA方法的核心在于将传统的噪声调度转换为梯级结构,允许在每次迭代中同时去噪多个帧,这大大提高了生成速度。最后,我们在训练过程中引入了渐进的微调策略,以适应不同的梯级步长,从而确保模型的鲁棒性和适应性。
为了评估我们的方法,我们在ZEGGS和BEAT两个基准数据集上进行了广泛的实验。ZEGGS数据集提供了高质量的运动捕捉数据,而BEAT数据集则包含了更广泛的对话手势。实验结果表明,使用加速滚动扩散的模型在Frechet距离和多样性指标上均优于传统方法,且生成的手势在自然性和流畅性上得到了用户的认可。此外,我们还进行了用户研究,通过对比生成的手势与基线模型的手势,评估了生成质量、风格一致性和音频同步性。结果显示,我们的方法在用户偏好上也表现出色,进一步验证了其有效性。
在我们的研究中,我们提出了一种新方法来生成与人说话时同步的手势。首先,我们的系统使用一种叫做扩散模型的技术,这种技术可以逐步将噪声添加到手势数据中,并通过神经网络来清除这些噪声。为了让手势生成更加流畅,我们引入了一种新方法,允许系统同时处理多个手势帧,而不是一个一个地处理。这样可以大大加快生成速度,让我们的系统能够在实时场景中应用,比如虚拟助手或游戏中。此外,我们在多个数据集上进行了测试,结果显示我们的系统生成的手势不仅质量高,而且能够很好地与音频同步,用户也对此表示喜欢。总之,我们的方法使得实时生成手势变得更加高效和自然。
2025-03-12|HoseiU|DCC2025|⭐️
http ://arxiv. org/abs/2503. 09787v1
本文提出了一种新颖的双向学习面部动画编解码器,旨在高效压缩低比特率的谈话头视频。现有的深度面部动画编码技术主要通过压缩关键帧及非关键帧的关键点来实现视频压缩,但通常依赖单一关键帧,因此在捕捉大幅度头部运动时容易产生失真。针对这一问题,本文的方法通过同时利用过去和未来的关键帧来生成自然的面部视频,从而提高视频的质量并减少比特率。实验结果表明,与最新的动画视频编解码器相比,该方法在保持视频质量的同时实现了高达55%的比特率降低,且与最新的视频编码标准VVC相比,降低了35%的比特率,展示了其在视频质量和压缩效率上的优势。
本文提出的双向学习面部动画编解码器包含两个主要过程:双向参考引导辅助流增强(BRG-ASE)和双向参考引导视频重建(BRG-VRec)。在BRG-ASE过程中,首先对中间帧进行关键点估计,并利用自适应选择算法从两个关键帧中选择一个进行增强。该过程通过将下采样的中间帧上采样并与选定的关键帧结合,提高了视频质量。接下来,在BRG-VRec过程中,利用选择的关键帧和中间帧的关键点生成动画帧,并结合辅助帧进行目标帧的重建。通过这种方法,能够有效捕捉到面部运动,降低因时间相关性丢失而导致的失真。此外,文中还引入了轻量级辅助流,以进一步提升重建质量,且比特率的增加幅度极小。
在实验部分,使用VoxCeleb数据集进行评估,并随机选择了45个序列进行测试。通过比较不同比特率下的重建效果,评估了提出的编解码器与现有视频编码标准(如HEVC和VVC)及其他最新动画编码器(如DAC、HDAC和RDAC)的性能。实验结果显示,本文方法在低比特率下的重建质量显著优于HEVC和VVC,且在多个质量指标(如LPIPS和DISTS)上均表现出更好的比特率节省。具体而言,与RDAC相比,本文方法在LPIPS和DISTS指标下分别实现了52%和66%的比特率降低。这些结果表明,双向学习方法在处理动态面部视频时的有效性和优势。
本文提出的方法可以想象成一个智能视频压缩工具,它通过同时利用过去和未来的画面来提升视频质量。首先,系统会分析视频中每一帧的关键点,就像在看一张张照片一样,选择最清晰的几张作为参考。接着,它会对中间的模糊帧进行优化,确保这些帧看起来不会失真。这个过程就像是把模糊的照片用清晰的照片进行修复。最后,系统将这些优化后的帧和关键帧结合起来,生成一个流畅且清晰的视频。通过这种方式,即使在低比特率的情况下,视频的质量也能得到有效保证,减少了存储空间的需求。这种方法的优势在于,它不仅能让视频更清晰,还能节省更多的存储空间。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录