仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月17日|周一
New!|为了更好的服务广大研究者与爱好者,未来,我们将陆续开源PaperDaily系列源文件至Github平台,欢迎大家持续关注!!!
https ://github. com/AIGCResearch/Awesome-PaperDaily
2025-03-14|ZJU,Kuaishou,CUHK,HUST
http ://arxiv. org/abs/2503. 11647v1https ://jianhongbai. github.io/ReCamMaster/
ReCamMaster是一种创新的生成视频重渲染框架,旨在利用输入视频的动态场景,通过新颖的摄像机轨迹重新生成视频。尽管摄像机控制在文本或图像条件的视频生成任务中得到了广泛研究,但对给定视频的摄像机轨迹修改仍然研究不足。为了解决这一问题,研究团队构建了一个高质量的多摄像机同步视频数据集,涵盖了多种场景和摄像机运动。这种数据集的构建不仅通过UnrealEngine5实现了真实世界拍摄特性的模拟,还为模型在实际视频中的泛化能力提供了支持。通过精心设计的训练策略,ReCamMaster在多个实验中显示出显著优于现有方法的性能,并展示了在视频稳定化、超分辨率和视频扩展等领域的应用潜力。
ReCamMaster的核心创新在于其视频条件生成机制。该方法主要包括以下几个步骤:
数据准备:使用UnrealEngine5构建一个包含136K个视频的多摄像机同步数据集,模拟真实拍摄场景。
视频条件生成:模型通过对源视频和目标摄像机轨迹的双重条件进行训练,确保生成的视频在外观和动态上与源视频保持一致。
多维度条件注入:引入帧维度、通道维度和视角维度的条件注入机制,以提升生成视频的质量和一致性。
训练策略:通过精细调节模型参数,仅微调摄像机编码器和空间注意力层,同时冻结其他参数,以提高模型对不同输入的鲁棒性。
在实验部分,ReCamMaster的性能通过与现有的最先进方法进行比较得到了验证。具体实验设置包括:
训练过程:模型在384x672的分辨率上进行10K步的训练,使用随机选择的摄像机对进行条件输入。
评估指标:采用多个评估指标评估模型的表现,包括视觉质量、摄像机精度和视图同步性。
基准比较:与GCD、Trajectory-Attention等现有方法进行对比,量化分析结果显示ReCamMaster在视觉质量和动态一致性方面具有显著优势。
ReCamMaster的工作原理可以简单理解为一个智能的“视频重拍”工具。首先,它会从一段已有的视频中提取出场景和动作信息。然后,用户可以指定新的摄像机移动轨迹,比如让镜头从不同的角度或距离拍摄同样的场景。接着,ReCamMaster会利用这些信息,生成一段新的、看起来像是从新角度拍摄的视频。为了做到这一点,模型会使用大量的训练数据,学习如何在不同的摄像机位置下保持画面的一致性和动态流畅性。这样,即使是普通用户,也能通过简单的操作,获得专业水准的视频效果。
2025-03-14|CUHK,TianjinU,SZU,Kuaishou
http ://arxiv. org/abs/2503. 11412v1https ://mtv-inpaint. github.io/
MTV-Inpaint是一种多任务视频修复框架,旨在处理长视频中的多种任务,包括文本或图像引导的物体插入、场景补全及其衍生应用,如对象编辑和移除。该框架能够有效处理数百帧的长视频,确保在空间和时间维度上保持一致性。现有的视频修复方法通常专注于无条件的场景补全,而MTV-Inpaint则通过引入双分支空间注意力机制,结合文本到视频(T2V)和图像到视频(I2V)模型,成功地将物体插入与场景补全统一在一个框架内。通过多模态控制,用户能够以可控的方式插入新对象,从而提升了视频修复的灵活性和实用性。
MTV-Inpaint的核心方法包括几个关键步骤。首先,任务的统一性通过双分支U-Net架构实现,其中一个分支专注于物体插入,另一个则用于场景补全。其次,为了增强用户控制能力,框架支持多种输入条件,包括文本提示和示例图像。用户需提供二进制掩码序列,指示待修复区域,并可选择性地提供文本描述和初始帧。整个过程分为训练和推理阶段:在训练期间,使用不同的掩码方案来适应不同任务;在推理时,采用T2V、I2V和关键帧到视频(K2V)三种模式,以确保在长视频中保持时间一致性。最后,采用双重参考自注意力机制,使每帧不仅关注自身,还参考第一帧和最后一帧,从而提高了生成内容的连贯性和一致性。
实验部分对MTV-Inpaint的性能进行了全面评估,包括物体插入和场景补全任务。通过与现有的基线方法(如CoCoCo、E2FGVI和ProPainter)进行对比,MTV-Inpaint在多个指标上表现出色。对于物体插入任务,使用区域CLIP图像-文本分数和时间一致性进行评估,结果表明MTV-Inpaint在保持对象身份和生成自然过渡方面优于其他方法。在场景补全任务中,采用PSNR和LPIPS等指标进行质量评估,MTV-Inpaint在特征恢复方面表现优异,显示出更好的视觉质量和时间一致性。此外,通过用户研究,参与者在多个标准上对MTV-Inpaint的结果给予了较高的偏好评分,进一步证明了其在实际应用中的有效性和优越性。
MTV-Inpaint的工作原理可以简单理解为一个智能的视频修复工具。首先,它有两个主要功能,一个是把缺失的场景填补完整,另一个是根据用户的需求插入新物体。用户需要提供一些信息,比如哪些地方需要修复(通过画出一个框)以及想要插入什么样的物体(可以用文字描述)。在制作视频时,MTV-Inpaint会先处理关键帧(视频中的重要帧),然后再填补这些帧之间的内容,以确保整个视频看起来流畅自然。它还可以根据用户提供的示例图像来更好地生成想要的效果。通过这种方式,MTV-Inpaint不仅能处理短视频,还能轻松应对长视频的修复需求,确保每一帧都保持一致性和连贯性。
2025-03-14|StepFun
http ://arxiv. org/abs/2503. 11251v1https ://github. com/stepfun-ai/Step-Video-TI2V
本文介绍了Step-Video-TI2V,一个最先进的文本驱动图像到视频生成模型,具有300亿个参数,能够根据文本和图像输入生成最多102帧的视频。与现有的文本到视频(T2V)模型相比,Step-Video-TI2V提供了更高的用户控制能力,尤其在视频内容的动态表现方面。为了评估不同TI2V模型的性能,研究团队构建了Step-Video-TI2V-Eval这一新的基准数据集,并将其与开源和商业TI2V引擎进行比较。实验结果显示,Step-Video-TI2V在图像到视频生成任务中表现出色,达到了当前的最佳水平。该模型及其评估工具均可在GitHub上获取,推动了视频生成技术的发展。
Step-Video-TI2V的构建基于对先前发布的Step-Video-T2V模型的继续训练,采用了两项关键修改来实现图像到视频的生成。首先,图像条件(ImageConditioning)通过将输入图像转换为潜在表示,并与视频潜在表示在通道维度上进行拼接,以确保生成视频的第一帧与输入图像一致。其次,运动条件(MotionConditioning)通过引入用户控制的运动评分,使生成的视频能够在动态表现上达到更好的平衡。运动评分的计算通过OpenCV提取视频帧之间的光流信息,确保生成的视频在动态与稳定性之间达到最佳平衡。这些方法的结合使得用户能够更灵活地控制生成视频的效果。
在实验部分,研究团队构建了一个包含500万条文本-图像-视频三元组的TI2V数据集,并在此基础上继续训练Step-Video-T2V。该数据集经过精心筛选,以确保运动动态的均衡、视觉美学的强烈、多样化的概念以及无缝的场景连续性。实验结果显示,Step-Video-TI2V在多个评估维度上超越了其他开源和商业TI2V模型,尤其在处理摄像机运动要求的测试案例中表现优异。尽管在指令遵循维度上略有不足,但研究团队计划进一步优化模型,增强其在现实世界场景中的表现。
Step-Video-TI2V的工作原理可以简单理解为两个主要部分。首先是图像条件,这意味着模型会将用户提供的图像转化为一种内部格式,这样生成的视频第一帧就能与这张图像一致。想象一下,你给模型一张风景照,它会确保视频的开头就展现出这个风景。其次是运动条件,用户可以通过设置运动评分来控制视频的动态程度。比如,你可以选择让视频中的动作更加生动或平稳。这个过程就像是在调节电视的画面效果,让你能够根据自己的喜好来调整生成的视频风格。通过这两个部分的结合,Step-Video-TI2V能够生成更符合用户期望的视频内容。
2025-03-14|UAdelaide,Microsoft
http ://arxiv. org/abs/2503. 11513v1https ://ziqinzhou66. github.io/project/HiTVideo
HiTVideo是一种新颖的文本到视频生成方法,旨在通过引入分层的标记器来提升生成质量。随着生成对抗网络(GANs)和扩散模型的迅速发展,文本到视频生成的复杂性日益增加,尤其是视频数据在时间和空间维度上都存在显著的冗余和变化。因此,设计一个有效的视频标记器,以高效编码视频内容并保持语义和时序信息的完整性,成为了一个重要的研究方向。HiTVideo采用了基于3D因果变分自编码器(VAE)的多层离散标记框架,这一设计使得更高层次的标记能够捕捉更高压缩率的语义信息,而低层次的标记则专注于重建细粒度的时空细节,从而在压缩效率与重建质量之间取得平衡。
HiTVideo的方法论可以分为几个关键部分。首先,设计了一个多层视频标记器,采用分层的编码策略来处理视频数据。具体步骤包括:
视频编码:使用3D因果VAE架构,对视频进行空间和时间维度的下采样,通过多个ResNet块实现高效的特征提取。
多层离散标记:通过将视频分解为不同层次的标记,较高层次的标记负责捕捉全局语义,而较低层次的标记则关注细节重建。
动态编码和掩蔽解码:引入动态编码机制以减少冗余,并利用掩蔽解码策略提高模型的适应性。
文本到视频生成:利用大型语言模型(如Llama-3B)进行下一个标记的预测,结合文本嵌入以生成与文本提示相一致的视频内容。
在实验部分,研究者对HiTVideo的性能进行了全面评估。首先,使用Pexels数据集训练层次化视频标记器,评估指标包括每像素比特数(bpp)和重建质量的各项指标(如PSNR和SSIM)。结果显示,HiTVideo在压缩效率上取得了显著提升,较基线标记器减少了约70%的每像素比特数,同时保持了竞争力的重建质量。此外,通过与单层标记器的比较,实验验证了多层标记器在生成任务中的优越表现,尤其是在生成长视频序列时,能够更好地捕捉语义和时序的一致性。
HiTVideo的方法可以理解为一个分层的“视频处理工厂”。首先,它把视频分成多个层次,就像把一个复杂的任务分解成小步骤。高层次的部分负责理解视频的整体意思,比如场景或主题,而低层次的部分则专注于细节,比如每一帧的具体内容。这样一来,生成的视频不仅能传达出想要表达的意思,还能在细节上做到更好。此外,HiTVideo还引入了动态编码和掩蔽解码的技术,这意味着它能聪明地选择哪些信息是重要的,哪些可以省略,从而提高生成效率。最后,结合强大的语言模型,HiTVideo能够根据文本描述生成高质量的视频,确保视频内容与文字描述紧密相关。
2025-03-12|SeaAILab,NTU,A*STAR,NUS,YaleU
http ://arxiv. org/abs/2503. 10704v1https ://sail-sg. github.io/AR-Video-Diffusion
本研究探讨了自回归视频扩散模型(ARVDM)的错误分析,提出了一个统一框架Meta-ARVDM,以提升现有模型的性能。尽管ARVDM在生成高质量长视频方面取得了显著成功,但其理论分析仍然相对缺乏。本研究首先定义了Meta-ARVDM框架,涵盖了大多数现有方法,并分析了生成视频与真实视频之间的KL散度。研究揭示了ARVDM固有的两个重要现象:错误累积和记忆瓶颈。通过信息论的推导,证明了记忆瓶颈现象是不可避免的。为了解决这一问题,研究设计了多种网络结构,以显式利用更多的历史帧,并通过压缩帧实现了性能与推理效率之间的显著改善。最后,在DMLab和Minecraft上的实验结果验证了所提方法的有效性。
本研究提出的Meta-ARVDM框架包括两个主要阶段:初始化阶段和自回归生成阶段。在初始化阶段,首先生成独立的高斯向量,并通过去噪过程得到初始视频帧。接着,向这些帧添加噪声以形成输入。自回归生成阶段则通过多个自回归步骤逐步生成视频帧。具体方法如下:
初始化阶段:
生成一组独立的高斯向量,并设置参考帧集为空。
将这些高斯向量去噪以得到初始帧。
向初始帧添加噪声以形成输入帧序列。
自回归生成阶段:
在每个自回归步骤中,使用前一帧的输出作为当前帧的输入,进行去噪处理。
生成的帧通过多个噪声水平进行去噪,以实现更高的生成质量。
引入额外的参考帧以增强生成效果,并确保生成过程的因果性。
为了验证所提出方法的有效性,研究在DMLab和Minecraft环境中进行了实验。实验主要评估模型在生成视频时的记忆瓶颈和错误累积现象。具体实验步骤包括:
DMLab实验:
通过提供历史帧和动作,测试模型在场景特征检索方面的表现。
记录成功检索场景特征的比例,以评估模型的记忆能力。
Minecraft实验:
使用结构相似性指标(SSIM)评估生成视频的质量。
观察不同记忆长度对检索结果的影响,分析记忆瓶颈与错误累积之间的关系。实验结果表明,所提的网络结构在提高视频生成一致性和质量方面表现良好,尤其是在较长的记忆长度下。
在这项研究中,研究人员提出了一种新的方法来生成视频,这种方法分为两个主要步骤。首先,在初始化阶段,他们创建了一些随机的图像,然后对这些图像进行处理,使它们变得更清晰。接下来,他们会在这些清晰的图像上添加一些噪声,准备好用于生成新的视频帧。在第二个步骤——自回归生成阶段,模型会逐帧生成视频,每次生成一帧时,都参考之前生成的帧。这就像在画一幅画时,每画一部分都会看看之前画的部分,以确保整个画面的连贯性。此外,研究还发现了两个问题:一是生成的视频后面的部分往往比前面的部分质量差,二是模型在记住之前帧的信息时遇到了困难。为了改善这些问题,研究人员设计了更聪明的网络结构,帮助模型更好地利用过去的信息,从而提高视频的质量和一致性。
2025-03-11|UVirginia,ColumbiaU,TAMU
http ://arxiv. org/abs/2503. 10678v1https ://github. com/Hansxsourse/VRMDiff
本文提出了一种新的研究任务——视频参照抠图(VideoReferringMatting),旨在通过输入描述特定实例的文本,生成该实例的alphamatte。与传统视频抠图方法不同,本研究利用视频扩散模型的文本到视频对齐能力,生成具有时间一致性和语义关联的alphamatte。为此,研究团队设计了一种新的潜在构造损失(Latent-ConstructiveLoss),以区分不同实例,从而实现更具可控性的交互式抠图。此外,研究团队还构建了一个大规模的视频参照抠图数据集VRM-10K,包含10,000个视频,首次同时提供了视频、文字描述和实例级alphamatte。这项研究的实验结果显示,所提出的方法在抠图质量和时间一致性方面显著优于现有基线方法,推动了视频处理和理解的前沿。
本研究的核心方法是基于扩散模型的框架,通过逐步去噪的过程生成alphamatte。具体步骤如下:
问题定义:给定一个视频序列和描述目标对象的文本提示,目标是生成一个时间一致的alphamatte,准确隔离描述的对象。
视频条件扩散:在扩散过程中,结合输入视频和文本提示,模型通过逐步去噪来生成alphamatte,确保空间精度和时间一致性。
文本条件抠图生成:通过编码文本描述,增强生成的alphamatte与用户提供的提示之间的语义对齐,而非在每个变换块动态注入文本信息。
潜在对比学习:在潜在空间中执行对比学习,鼓励模型生成不仅结构上准确而且与文本提示高度对齐的matte。
这种方法有效地解决了视频抠图中对象重叠和动态变化带来的挑战,使得模型能够在复杂场景中准确提取目标对象。
为验证所提方法的有效性,研究团队进行了大量实验,使用VRM-10K数据集进行评估。实验设置包括9000个训练样本和1000个验证样本,所有样本均从不同的DVM和VideoMatte240K数据集中独立划分。实验结果表明,所提出的VRMDiff方法在多个指标上优于基准模型,如均值绝对差(MAD)、均方误差(MSE)和连接性等。此外,研究还进行了消融实验,探讨了潜在对比损失的权重对模型性能的影响,发现最佳性能在权重设置为0. 1时达成。通过这些实验,研究团队展示了VRMDiff在视频参照抠图任务中的优越性。
在这项研究中,研究人员提出了一种新方法,帮助计算机从视频中提取特定物体的透明度信息。想象一下,你在看一个视频,视频里有很多人和物体。现在,如果你想让计算机只关注某个特定的人,比如“穿白色头盔的人”,你只需要告诉计算机这个描述,它就会自动找到并提取出这个人的轮廓,确保这个轮廓在视频的每一帧中都是一致的。为了实现这一点,研究者们使用了一个叫做“扩散模型”的技术,这种技术可以逐步改善提取的效果,确保每一帧的细节都很清晰。同时,他们还设计了一种新的学习方法,帮助计算机更好地区分不同的物体,尤其是在复杂场景中。总之,这项研究使得视频编辑和特效制作变得更加简单和高效。
2025-03-14|CUHK(SZ)
http ://arxiv. org/abs/2503. 11423v1https ://taste-rob. github.io
本研究提出了TASTE-Rob,这是一个大型的任务导向手-物体交互视频数据集,包含100,856个以自我中心视角拍摄的视频,旨在提升机器人模仿学习中的视频生成质量。当前的主流数据集如Ego4D在视角一致性和交互对齐方面存在明显不足,影响了生成视频的质量和可用性。通过确保每个视频与语言指令的精确对齐,以及从固定视角拍摄,TASTE-Rob为生成清晰且一致的视频提供了良好的基础。此外,研究引入了一种三阶段的姿态精细化流程,以提高生成视频中手部姿势的准确性,从而提升机器人在新场景中的操作能力。最终,结合TASTE-Rob数据集和姿态精细化框架,研究实现了高质量的任务导向手-物体交互视频生成,显著提升了机器人操作的泛化能力。
本研究的方法分为三个阶段,旨在生成高质量的手-物体交互视频。第一阶段,使用可学习的图像到视频扩散模型(I2V)生成粗略的手-物体交互视频,该视频基于任务描述和环境图像进行条件生成。第二阶段,提取粗略视频中的手部姿势序列,并使用运动扩散模型(MDM)对其进行精细化,确保手部姿势在时间上的一致性和空间上的合理性。第三阶段,利用经过精细化的手部姿势序列,重新生成高质量的手-物体交互视频,确保生成视频在任务理解和姿势一致性方面均达到高标准。整个流程通过不断优化手部姿势的生成,提升了机器人在新环境中的操作精度和适应性。
本研究通过多项实验验证了TASTE-Rob数据集和三阶段姿态精细化流程的有效性。首先,在视频生成质量方面,采用Fréchet视频距离(FVD)、核视频距离(KVD)和感知输入一致性(PIC)等指标评估生成视频的空间和时间质量。其次,提出了一种新的抓握姿势方差(GPV)指标,评估生成视频中手部姿势的一致性。最后,通过模拟机器人操作任务,比较机器人在不同数据集上使用生成视频的成功率。实验结果显示,TASTE-Rob生成的视频在质量和手部姿势一致性上均优于现有的主流方法,显著提高了机器人在未见场景中的操作成功率。
在我们的方法中,生成高质量的手-物体交互视频分为三个主要步骤。首先,我们使用一种智能模型,根据给定的任务描述和环境图片,生成一个粗略的视频。这就像在画草图,展示大概的动作。接下来,我们提取这个草图中的手部动作,并使用另一种模型来细化这些动作,确保手的姿势在整个视频中都是合理的,不会出现奇怪的变化。最后,利用这些经过修正的手部动作,我们重新生成一个更精细的视频,确保它不仅能准确展示任务,还能保持手的动作自然流畅。通过这样的三步走方法,我们能够生成更真实、更适合机器人学习的视频,让它们在处理新任务时表现得更好。
2025-03-14|HKUST
http ://arxiv. org/abs/2503. 11167v1https ://github. com/xmed-lab/NEURONS
在本研究中,我们提出了NEURONS,一个新颖的框架,旨在通过模拟人类视觉皮层的功能来提高从fMRI数据重建视频的准确性和可解释性。尽管现有的fMRI方法在静态图像重建方面取得了一定成功,但在动态视频重建中面临挑战,尤其是在捕捉运动和场景转换等时空动态方面。NEURONS通过将学习过程分解为四个相关的子任务:关键物体分割、概念识别、场景描述和模糊视频重建,来克服这些挑战。这种方法不仅允许模型捕捉视频内容的多样性,还通过模拟视觉皮层的功能特化来提高重建的质量。实验证明,NEURONS在视频一致性和语义精度方面均显著优于现有技术,显示出其在脑机接口和临床应用中的潜力。
NEURONS的核心方法包括三个主要组件:大脑模型、解耦器和聚合视频重建管道。首先,大脑模型负责将fMRI信号映射到运动嵌入,训练过程通过将视频分成多个片段进行。其次,解耦器将运动嵌入的训练分解为四个明确的子任务。每个子任务分别针对不同的视觉信息处理:关键物体分割任务通过文本驱动的解码器生成关键物体的掩码;概念识别任务使用多标签分类器识别视频中的语义概念;场景描述任务通过文本解码器生成视频的描述性字幕;模糊视频重建任务则学习运动信息和色彩分布。最后,所有子任务的输出在推理阶段被整合,以指导高质量视频的重建。通过逐步调整不同损失函数的权重,NEURONS能够平衡学习过程中的各个方面。
在实验中,我们对NEURONS进行了全面评估,以验证其在fMRI到视频重建中的有效性。使用开放源代码的fMRI视频数据集,我们对18个8分钟的视频片段进行了训练,并在5个视频片段上进行了测试。评估指标包括语义水平和时空一致性,结果显示NEURONS在各项指标上均优于当前最先进的方法。在视频重建的定量评估中,NEURONS在语义准确性和时空一致性上分别提高了26. 6%和19. 1%。此外,通过对每个解耦任务的输出进行单独评估,进一步证实了各个子任务在提高重建精度和语义理解方面的重要性。实验结果不仅展示了NEURONS在视频重建中的优势,还表明了其在理解人类视觉信息处理机制中的潜力。
NEURONS的工作原理可以想象成一个团队,每个成员专注于不同的任务。首先,有一个“大脑模型”,它负责将大脑扫描(fMRI)信号转换成视频信息。接下来,解耦器把这个复杂的工作分解成四个简单的任务:一个成员专注于识别视频中的重要物体,另一个成员则识别这些物体的类别,第三个成员负责描述整个场景,而最后一个成员则专注于模糊视频的重建。每个成员都在学习他们的任务,并在最终阶段把他们的成果结合起来,形成一个高质量的视频。通过这种方式,NEURONS不仅能更好地理解视频内容,还能提高重建的准确性,让我们更接近于理解人类大脑如何处理视觉信息。
2025-03-14|NJU,Huawei
http ://arxiv. org/abs/2503. 11571v1https ://alice01010101. github.io/RASA/
本研究提出了一种名为“ReplaceAnyone,SayAnything”(RASA)的训练无关的框架,旨在实现音频驱动的通用肖像视频编辑。传统的肖像视频编辑方法通常依赖于专门的训练模型,专注于从视频中提取关键点以实现身份转移或口型重现。本框架通过使用统一动画控制(UAC)机制,支持基于音频或视频流的肖像外观编辑,允许用户在不需要训练的情况下灵活地修改肖像视频的特定属性。RASA框架不仅可以实现口型编辑,还能根据变化的语音内容调整视觉效果,确保在不同场景下的高效适应性。实验结果显示,该方法在口型同步和外观编辑的灵活性方面超越了现有技术,能够生成更自然、同步的肖像视频。
RASA框架的核心在于其统一动画控制(UAC)模块,主要包括以下三个组成部分:
形状控制(ShapeControl,SC):利用源视频的形状特征,确保目标视频在外观上的一致性,避免因身份变化而导致的形状失真。
跨模态说话控制(Cross-modalSpeakingControl,CSC):通过音频特征与视觉特征间的交互,调整与说话相关的面部特征,确保口型与语音内容的高度一致。
时间一致性控制(TemporalConsistencyControl,TCC):增强帧与帧之间的连贯性,确保在编辑过程中,视频的运动保持一致。该框架能够灵活处理不同的输入条件,支持用户在编辑过程中对肖像的外观、口型和表情进行细致调整。
为评估RASA框架的有效性,研究团队使用了HDTF数据集,进行了多项实验,涵盖了音频驱动的肖像视频编辑。实验设置包括自我身份驱动和跨身份驱动的音频场景,分别对比了不同方法在口型编辑和外观编辑任务中的表现。使用多种评估指标,如FID、FVD和LPIPS等,以量化生成视频的视觉保真度和同步效果。实验结果显示,RASA在口型同步和外观编辑的质量上均优于现有技术,特别是在处理不同身份和语音内容时,展现了更好的灵活性和自然度。研究还探讨了不同条件下的编辑效果,为未来的多语言编辑场景奠定了基础。
RASA框架的工作原理可以简单理解为一个视频编辑的“魔法工具”。它的核心是三个部分:首先是形状控制,这就像是从一张照片中提取出人的轮廓,确保在编辑时新视频中的面孔形状依然自然。其次是说话控制,它能够根据音频内容调整嘴唇的运动,确保说话时嘴巴的动作和声音完全契合。最后是时间一致性控制,它确保视频中的每一帧都流畅连接,避免出现不连贯的画面。通过这三个部分的协作,RASA可以灵活地修改视频中的人脸特征,让任何人都能轻松地“说任何话”,而无需复杂的训练或专业知识。
2025-03-13|HKUST(GZ),HKUST
http ://arxiv. org/abs/2503. 10719v1https ://lvas-agent. github.io
本文提出了LVAS-Agent,一个创新的多代理框架,旨在解决长视频音频合成中的挑战。长视频音频合成的复杂性主要源于动态语义变化、时间对齐问题以及缺乏专门的数据集。现有方法在短视频中表现良好,但在处理长视频时往往面临片段化合成和跨场景一致性不足的问题。LVAS-Agent通过模拟专业配音工作流程,分解长视频合成为四个关键步骤:场景分割、脚本生成、音效设计和音频合成。该框架不仅提升了音频与视频的语义和时间一致性,还引入了LVAS-Bench,这是第一个专门针对长视频音频合成的基准数据集,包含207个专业策划的视频。实验结果表明,该方法在音频视觉对齐方面优于现有基线。
LVAS-Agent的核心在于其多代理协作策略,具体分为以下几个角色和步骤:1)Storyboarder:负责视频的场景分割,利用镜头转换检测和关键帧聚类提取关键信息。2)Scriptwriter:根据视频内容生成时间对齐的音频脚本,结合视觉语义和对话上下文进行分析。3)Designer:负责音效设计,分析视频描述并生成详细的音效注释,确保音效与视频内容的一致性。4)Synthesizer:负责音效合成,结合神经文本到语音生成和环境效果的扩散模型,生成高质量的音频。整个过程采用讨论-修正和生成-检索-优化机制,以确保音频设计的精确性和一致性。这种结构化的方法使得长视频的音频合成更加高效和灵活。
在实验部分,作者通过建立LVAS-Bench对LVAS-Agent的性能进行了评估。实验设计包括多个维度的评估指标,如分布匹配、音频质量、语义对齐和时间对齐。通过与现有的基线方法(如FoleyCrafter和MMAudio)进行比较,LVAS-Agent在所有指标上均表现出色。具体而言,采用Frechet距离和Kullback-Leibler散度等指标评估生成音频与真实音频之间的相似性。同时,使用用户研究来检验音频质量和视频音频一致性,结果显示LVAS-Agent在用户满意度方面也优于基线方法。实验表明,该框架能够有效提升长视频音频合成的质量和一致性。
LVAS-Agent的工作原理可以想象成一个团队合作的过程。首先,有一个“故事板设计师”负责把视频分成不同的场景,像是把一本书分成章节。接下来,“脚本编写者”会根据每个场景的内容编写音频脚本,确保每个声音和对话都与画面相匹配。然后,“音效设计师”会为每个场景添加适合的音效,比如背景音乐或环境声音,确保听起来自然。最后,“合成师”会把所有的声音混合在一起,制作出最终的音频。这个团队通过讨论和修正来确保每一步都做到最好,最终生成的音频与视频内容完美契合。这样的方法使得长视频的音频合成变得更加高效和精准。
2025-03-12|PKU
http ://arxiv. org/abs/2503. 10700v1
随着人工智能生成内容(AIGC)的发展,视频到音频(V2A)生成已成为一个重要研究领域,尤其在多媒体编辑、增强现实和自动化内容创作中具有广泛应用。本文提出了一种新的生成系统——TA-V2A,该系统通过将文本作为辅助信息,进一步提高了语义和时间上的一致性。尽管现有的生成模型(如Transformer和扩散模型)在音频生成方面取得了进展,但在从视频中提取精确的语义信息时仍面临挑战。现有模型往往依赖帧特征,导致序列上下文的丢失。TA-V2A通过整合视频、音频和文本特征,利用大型语言模型增强视频理解,进而改善语义表达。该系统的核心在于通过文本引导来丰富语义表达,同时确保生成的音频与视频在时间上保持一致,从而实现更准确和连贯的音频生成。
TA-V2A生成系统结合了视频、音频和文本数据,旨在从视频输入中生成同步的音频输出。其流程包括以下几个关键步骤:首先,输入的视频和文本信息(可手动提供或通过大型语言模型生成)经过自动化增强。接着,使用特定的编码器从视频、音频和文本中提取特征,形成音频对齐特征。然后,这些特征被输入到潜在扩散模型(LDM)中,模型从高斯噪声中生成音频特征。最后,生成的音频特征被解码为梅尔谱图,并通过声码器转换为音频波形。该方法还采用了对比学习和特征混合策略,以提高特征质量和模型的鲁棒性。此外,推理过程中结合了分类引导和无分类引导等技术,以确保生成的音频与输入视频在语义和时间上的一致性。
在实验部分,研究团队使用VGGSound数据集,该数据集包含约200,000个视频,旨在验证TA-V2A的有效性。数据预处理包括视频、音频和文本的处理,视频被调整为224×224的大小,音频被采样为16kHz并转换为梅尔谱图。实验中,团队进行了客观和主观评估。客观评估使用了包括InceptionScore(IS)、FrechetInceptionDistance(FID)等多种指标,结果显示,TA-V2A在语义生成质量和时间对齐方面均优于现有模型。此外,主观评估通过参与者对生成音频的评分,进一步验证了TA-V2A在语义一致性和时间同步性方面的优势。实验结果表明,TA-V2A在多模态生成任务中表现出色,展示了其在多媒体处理和智能信息理解中的潜力。
TA-V2A的工作原理可以简单理解为一个高效的音频生成系统,它结合了视频、音频和文本三种信息来生成音频。首先,它会接收一段视频和一段文字描述,这些文字可以是人工写的,也可以是通过智能程序自动生成的。然后,系统会使用特定的工具从视频和文字中提取出有用的信息,就像从一堆材料中挑选出最重要的部分。接着,这些信息会被送入一个叫做潜在扩散模型的程序中,这个程序会从一些随机噪声开始,逐步生成出高质量的音频。最后,生成的音频会被转换成我们能听到的声音。整个过程的关键在于如何把这些不同类型的信息结合起来,从而确保生成的音频不仅好听,而且与视频内容保持一致。这样,TA-V2A就能为我们提供更自然、更真实的音频体验。