311-A3&A2|单图生CAD;由粗到精的策划视频生成,高效长视频生成,视频生成模型世界建模能力的评估基准,人类行为理解与生成


311-A3&A2|单图生CAD;由粗到精的策划视频生成,高效长视频生成,视频生成模型世界建模能力的评估基准,人类行为理解与生成

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月3日|周一
2025-02-28|UTDallas,HKU,HKUST,NJU,ByteDance,TAMU|CVPR2025|⭐️🟡
http ://arxiv.org/abs/2502.20732v1
CADDreamer是一种新颖的CAD对象生成方法,旨在从单视角图像中重建边界表示(B-rep)模型。近年来,基于扩散的3D生成技术取得了显著进展,但现有模型常常生成过于密集且缺乏结构的网格,无法与人类设计师创建的清晰、结构化的CAD模型相提并论。CADDreamer通过引入一种原始图形感知的多视角扩散模型,捕捉局部几何细节和高层次结构语义,从而实现从单幅图像推断出完整的CAD模型。该方法通过将原始语义编码到颜色域中,利用预训练扩散模型的强先验知识,确保生成的CAD模型在几何和拓扑上都是无缝和水密的。实验结果表明,CADDreamer在从单视图图像中恢复高质量CAD对象方面表现优异,能够有效缩小人类设计与自动生成之间的质量差距。
CADDreamer的核心由两个主要模块组成:多视角生成模块和几何与拓扑提取模块。多视角生成模块的流程如下:首先,从单视图RGB图像生成法线图;其次,利用该法线图作为输入,采用交叉域的扩散生成模型生成多个视角的法线图和语义原始图。接着,将生成的多视角法线图输入到NeuS模型中,重建出完整的3D网格。最后,利用图切割过程将生成的网格分割为多个代表CAD原始图的补丁。几何与拓扑提取模块则通过RANSAC算法提取原始图参数,并利用几何优化算法来修正噪声参数,确保相邻原始图之间的几何关系(如平行性和垂直性)得以保持。最终,通过拓扑保持的交叉操作,生成水密的B-repCAD模型。
为了评估CADDreamer的性能,研究团队首先在合成数据集上进行训练和测试,之后又在真实图像上进行验证。合成数据集包含30,000个无缝CAD模型,经过渲染生成29,000个训练样本。实验结果表明,CADDreamer在重建网格的几何对齐、原始图提取和拓扑保真度方面均优于现有的方法。具体指标包括Chamfer距离和法线一致性,CADDreamer的重建结果在这两个方面均表现出最低的几何偏差。此外,CADDreamer还展示了在处理真实世界CAD对象时的强大泛化能力,尽管真实图像存在复杂的光照和阴影效应,模型仍能有效重建高质量的CAD模型。
CADDreamer的工作原理可以简化为两个主要步骤。首先,它从一张普通的二维图像中提取出物体的形状信息,生成一个3D网格。这个过程开始时,CADDreamer会将图像转换为一种叫法线图的特殊图像,这种图像可以帮助模型理解物体的表面方向。接着,模型会利用一种先进的技术,生成多个不同视角的法线图和物体的原始图信息。然后,CADDreamer会将这些信息结合起来,创建出一个完整的3D形状,并将其分解为多个简单的几何部分。第二步是对这些几何部分进行整理和优化,确保它们之间的连接关系正确无误。通过这些步骤,CADDreamer能够从单幅图像中生成精确且结构清晰的CAD模型,适用于各种设计和制造场景。
2025-02-28|FDU,UAdelaide,INFTech,ShanghaiAcademyofArtificialIntelligenceforScience|⭐️🟡
http ://arxiv.org/abs/2502.21314v1
本文提出了一种新颖的文本到视频生成方法,名为RACCOON,旨在克服现有生成模型在数据集质量和计算资源方面的限制。通过引入CFC-VIDS-1M,这是一个经过系统化粗到细的数据集构建流程,RACCOON能够生成高分辨率、时间一致且具有照片真实感的视频。该方法结合了数据策划与模型设计的综合策略,确保生成的视频不仅在视觉上吸引人,而且在时间上连贯。通过大量实验,作者证明了其方法在生成高质量视频方面的有效性,并计划公开其数据集、代码和模型,以促进后续研究。
RACCOON采用变换器架构,结合解耦的空间-时间注意机制,提升了视频生成的效率。其训练策略分为四个阶段:
语义学习:利用预训练的图像模型进行初步的语义理解,建立基本的文本与图像的关系。
时间学习:在低分辨率下联合训练图像和视频数据,以提高时间动态的建模能力。
分辨率与时长增强:转向高分辨率视频训练,进一步提高生成视频的质量和时长。
质量精炼:通过严格的筛选和微调,确保生成视频的视觉一致性和美学质量。这种分阶段的训练方法有效地解决了视频生成中的计算挑战,同时提升了生成质量。
在实验部分,作者使用UCF-101数据集进行消融研究,验证不同训练阶段的有效性。通过对比不同阶段的训练结果,发现早期的语义模块训练显著加速了后续时间模块的收敛。这些实验结果表明,通过逐步优化训练过程,RACCOON在处理高分辨率和长时长视频生成时表现出色。定量评估使用Frechet视频距离(FVD)进行,结果显示RACCOON在多个分辨率和时长的场景中均优于其他模型。此外,作者还进行了用户研究,以评估生成视频的真实感、文本对齐、时间一致性等多个维度,进一步验证了模型的有效性。
RACCOON的工作流程可以简单理解为一个逐步提升的视频生成过程。首先,它学习如何从图片中理解语义,确保生成的视频内容与文本描述相符。接着,它在较低的分辨率下训练,以便更快地掌握视频的时间动态。然后,模型转向更高的分辨率,生成更清晰、更长的视频。最后,通过严格的筛选和微调,确保生成视频的视觉效果更佳。这一系列步骤就像是从基础到高级的学习过程,逐步提高视频生成的质量和细节,使得最终生成的视频既真实又引人入胜。
2025-02-28|PKU,ByteDance|⭐️🟡
http ://arxiv.org/abs/2502.21079v1
在长视频生成领域,DiffusionTransformers(DiTs)因其高保真度而受到广泛关注,但其计算需求极大,尤其是在注意力机制的应用中,导致生成过程的延迟显著。为了解决这一问题,本文提出了一种新的稀疏注意力机制——自适应稀疏注意力(AdaSpa),旨在通过动态模式和在线精确搜索来加速视频生成,同时保持生成质量。AdaSpa的设计基于对DiTs稀疏特性深入分析的结果,发现其稀疏模式在去噪步骤中保持不变,但在输入、层和头之间是动态变化的。通过利用这一不变性,AdaSpa能够实时识别稀疏索引,从而显著减少计算负担并提高生成速度。
AdaSpa的核心在于两个主要组成部分:动态模式和在线精确搜索。首先,为实现动态模式,AdaSpa引入了一种块状稀疏模式,能够有效捕捉DiTs中固有的层次稀疏性。这种模式通过观察到的稀疏特性,减少了注意力计算的复杂性,同时保持生成视频的高保真度。其次,在线精确搜索通过融合LSE缓存搜索和头自适应层次块稀疏注意力机制来实现。该方法在生成过程中进行两阶段的搜索,第一阶段计算并存储每行的LSE,第二阶段利用缓存的LSE来快速计算注意力输出,从而节省计算时间。此外,AdaSpa还采用了头自适应机制,确保不同注意力头的稀疏性特征得到优化,进一步提升了生成效率。
在实验中,AdaSpa与当前主流的稀疏注意力方法(如SparseVideoGen和MInference)进行了比较,评估其在视频质量和生成速度上的表现。实验使用了两个开源模型:HunyuanVideo和CogVideoX1.5-5B,生成720p的长视频。结果显示,AdaSpa在多个质量指标上均表现优异,例如峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像补丁相似性(LPIPS),并且在生成速度上实现了显著的加速。具体而言,AdaSpa在HunyuanVideo上实现了1.78倍的速度提升,而在CogVideoX1.5-5B上也达到了1.66倍的提升,证明了其在保持视频质量的同时有效减少计算延迟的能力。
AdaSpa的工作原理可以简单理解为一种智能的“过滤器”,它在生成视频时帮助选择哪些信息是重要的,从而避免处理所有信息带来的计算负担。首先,AdaSpa使用了一种块状的稀疏模式,这就像把一大堆信息分成小块,只处理那些最重要的部分。其次,它通过“缓存”之前的计算结果,避免重复计算,从而加快了视频生成的速度。想象一下,当你在做一道复杂的数学题时,记下之前的计算步骤,这样在需要的时候就能快速调用,而不是重新计算。这种方法不仅提高了效率,还确保生成的视频在质量上与原始视频相近,因此AdaSpa在生成长视频时表现得非常出色。
2025-02-28|UCBerkeley,UCSD,NVIDIA,MIT|⭐️🟡
http ://arxiv.org/abs/2502.20694v1https ://worldmodelbench-team.github.io
随着视频生成模型的快速发展,这些模型逐渐被视为可以支持决策应用(如机器人技术和自动驾驶)的世界模型。然而,现有的基准测试往往仅关注于视频的整体质量,忽视了世界模型所需的重要因素,例如物理规律的遵循。为了解决这一问题,本文提出了WorldModelBench,一个专门设计用于评估视频生成模型在应用驱动领域的世界建模能力的基准。WorldModelBench具有两个主要优势:首先,它能够识别微妙的世界建模违规行为,通过引入遵循指令和物理遵循的维度,检测到如物体尺寸不规则变化等违反质量标准的问题。其次,基于67K人类偏好的大规模众包数据,WorldModelBench能够准确测量前沿模型的表现,显著提升了对世界建模违规的预测准确性。
WorldModelBench的评估方法主要分为以下几个步骤:
评分标准:模型生成的视频将根据指令遵循和未来帧生成两个维度进行评分。指令遵循分为四个等级,评估生成视频是否准确执行了输入条件中的指令。
物理遵循:评估视频是否符合五条基本物理规律,包括牛顿第一定律、质量守恒、流体力学、不可穿透性和重力。每条规律将被打分为0或1。
常识评估:虽然不作为主要评估标准,常识评估确保生成的未来状态具有合理的运动和视觉质量。
人类注释:通过大规模人类注释收集67K条数据,确保评分的准确性和可靠性。
自动评估模型:通过训练一个细化的视觉语言模型,自动化评估过程并提高模型的生成能力。
在实验部分,研究者对14种视频生成模型在WorldModelBench上的表现进行了分析。结果显示,尽管当前模型在视频生成质量上有所提升,但在遵循物理规律方面仍存在显著差距。尤其是,所有模型在复杂的应用场景(如机器人和自动驾驶)中表现不佳。通过对模型的细致评分,发现最高评分的模型在执行指令的准确性上仅达到61%,而在质量方面,许多生成的视频依然违反了质量标准。为了验证细化评估模型的有效性,研究者还进行了对比实验,结果表明,经过训练的评估模型在预测人类评分方面的误差较小,显示出其在提升视频生成模型世界建模能力方面的潜力。
WorldModelBench的方法可以简单理解为一个多层次的评分系统,旨在评估视频生成模型的能力。首先,模型生成的视频会被检查是否按照给定的指令进行操作,比如是否正确地执行了某个动作。接着,评估还会检查这些视频是否遵循物理规律,比如物体是否在没有外力的情况下移动。为了确保这些评估的准确性,研究团队收集了大量人类评分数据,这样可以更好地训练一个智能模型,帮助自动评分。通过这些步骤,WorldModelBench能够提供详细的反馈,帮助改进未来的视频生成技术。
2025-02-28|KuaishouTechnology|⭐️🟡
http ://arxiv.org/abs/2502.20811v1
https ://huggingface.co/datasets/KuaishouHAIC/HAIC
本研究提出了HAIC(HumanActionUnderstandingandInteractionComprehension)数据集,旨在提升多模态大语言模型(MLLMs)对人类动作的理解与生成能力。尽管现有的多模态大语言模型在视频理解上取得了显著进展,但在涉及人类动作的视频中,它们的表现仍然受到高质量数据缺乏的限制。为了解决这一问题,研究团队设计了一种两阶段的数据注释管道,首先从互联网收集清晰的人类动作视频,其次采用标准化的注释格式对视频进行详细标注。最终,研究团队构建了两个数据集:HAICTrain用于训练和HAICBench用于全面评估人类动作理解能力。实验结果表明,使用HAICTrain进行训练显著提升了模型在多个基准测试中的人类动作理解能力,并且在文本到视频生成任务中也取得了良好的效果。
本研究的方法主要分为两个阶段:视频收集和注释。首先,在视频收集阶段,研究团队采用了以下策略:
动作视频积累:从互联网收集包含清晰人类动作的视频,确保视频质量符合标准。使用自然语言处理工具过滤低分辨率视频和缺乏动词描述的视频。
人类存在过滤:从每个视频中均匀抽取16帧,利用RTMPose检测视频中是否存在人类,并确保每帧中至少有1-5个可识别的人物。
动作过滤:通过检测人体关键点,确保视频中包含动态人类动作,避免静态场景的干扰。
在注释阶段,使用Gemini-1.5-Pro生成标准化的动作描述,确保每个视频的注释格式清晰且详尽。此外,研究团队还通过人类验证和修正,确保数据质量,最终生成了HAICTrain和HAICBench两个数据集,以支持后续的模型训练和评估。
在实验部分,研究团队评估了HAIC数据集对多模态大语言模型的影响。首先,选择LLaVA-Video-7B作为基线模型,并结合HAICTrain和其他数据集进行训练。通过多个基准测试(如MVBench、ActivityNet-QA和HAICBench),研究团队比较了模型在动作理解和文本到视频生成任务中的表现。实验结果显示,使用HAICTrain进行训练的模型在动作理解能力上提升了1.4%-2.1%,并在文本到视频生成任务中取得了显著的性能提升。具体而言,后训练的LLaVA-Video-ActionPro-7B模型在HAICBench的标准评估中表现优异,超越了基线模型,证明了HAIC数据集在提升人类动作理解能力方面的有效性。
为了帮助多模态大语言模型更好地理解和生成有关人类动作的视频,研究团队采用了一种简单明了的方法。首先,他们从互联网上收集了大量包含清晰人类动作的视频。接着,他们确保每个视频都有足够的人物和动作细节,以便模型可以准确分析。之后,团队使用一种智能工具来生成视频的详细描述,包括每个人的动作和互动。最后,所有的描述都经过人工审核,以确保它们的准确性和质量。通过这种方式,研究人员创建了两个新的数据集,这些数据集不仅可以用于训练模型,还可以用来测试模型的理解能力,从而帮助其更好地处理人类动作相关的视频内容。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录