311-B2|零样本图像对象计数,扩散恢复适配器;实时神经视频编码器;单图像3D重建


311-B2|零样本图像对象计数,扩散恢复适配器;实时神经视频编码器;单图像3D重建

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月3日|周一
2025-02-28|UNottingham,UStAndrews,CUHK,NTU,HIT|CVPR2025|⭐️🟡
http ://arxiv.org/abs/2502.20625v1
https ://github.com/cha15yq/T2ICount
T2ICount是一种新颖的零-shot对象计数框架,旨在通过文本描述估计图像中任意对象类别的数量。现有方法往往依赖于视觉-语言模型(如CLIP),但在文本提示的灵敏度上存在局限性。本研究提出的T2ICount利用预训练的扩散模型,结合丰富的先验知识和细致的视觉理解,克服了这些不足。该方法通过单步去噪实现高效性,然而单步去噪也导致了文本敏感性的减弱。为了解决这个问题,研究者们引入了层次语义校正模块(HSCM),逐步优化文本与图像特征的对齐,并通过代表性区域一致性损失(RRC)提供可靠的监督信号。此外,研究团队还贡献了一个重新标注的FSC-147子集,以便更好地评估文本引导的计数能力。实验结果表明,T2ICount在不同基准测试中表现优越,充分展现了其在零-shot计数任务中的潜力。
T2ICount的核心目标是实现文本引导的零-shot对象计数,具体为估计输入图像中指定对象类别的密度图。其方法论主要包括以下几个方面:
特征提取:通过单步去噪的方式,利用预训练的扩散模型提取图像和文本特征。
层次语义校正模块(HSCM):该模块通过多阶段处理逐步优化文本与图像特征的对齐,增强模型对文本提示的敏感性。
代表性区域一致性损失(RRC):利用交叉注意力图生成监督信号,改善模型的文本-图像一致性。该损失函数通过对比真实密度图与模型预测的密度图,强化模型对特定对象类别的学习能力。
PNA图生成:通过将交叉注意力图与真实密度图结合,生成正负模糊样本图,进一步指导模型学习。
在实验中,T2ICount主要在FSC-147和CARPK数据集上进行评估。FSC-147数据集包含6135张图像,涵盖147个对象类别,并且通过划分训练、验证和测试集,确保类别之间不重叠。为了更好地评估模型的文本引导计数能力,研究团队手动提取了一个名为FSC-147-S的子集,以应对图像中存在多个对象类别的场景。在训练过程中,采用均方根误差(RMSE)和平均绝对误差(MAE)作为评估指标。实验结果显示,T2ICount在FSC-147-S数据集上取得了显著的性能提升,MAE和RMSE分别降低了85.1%和86.9%。此外,T2ICount在CARPK数据集上的表现也表明了其良好的泛化能力,进一步验证了该方法的有效性。
T2ICount是一种新方法,旨在通过文本描述来计算图像中物体的数量。它利用一种叫做扩散模型的技术,这种技术可以在图像和文本之间建立更好的联系。具体来说,T2ICount的工作流程分为几个步骤。首先,它从输入的图像中提取特征,并结合文本提示来理解要计数的对象。接着,T2ICount使用一个层次语义校正模块,逐步优化图像和文本之间的对齐,使得模型能够更好地理解文本指示的对象。最后,通过生成正负样本图,模型可以学习到如何准确地预测对象的数量。实验表明,T2ICount在各种测试中表现优异,能够有效地处理复杂场景中的对象计数问题。
2025-02-28|ByteDance|⭐️🟡
http ://arxiv.org/abs/2502.20679v1
本文提出了一种名为扩散恢复适配器(DiffusionRestorationAdapter,DRA)的新框架,旨在从低质量(LQ)图像中恢复高质量(HQ)图像。传统的图像恢复方法通常依赖于复杂的神经网络架构,如生成对抗网络(GAN)和控制网络(ControlNet),但这些方法在处理大规模和多样化数据集时面临参数过多和效率低下的问题。DRA通过引入轻量级的适配器,利用预训练的扩散模型作为生成先验,能够有效地实现高保真图像恢复。该方法不仅适用于去噪的UNet和DiffusionTransformers(DiTs),而且通过特定的恢复适配器模块,增强了对图像恢复过程的控制能力。此外,DRA还引入了一种简单的采样策略,以确保在各种采样器中保持恢复的保真度。
DRA的核心由两个主要组件组成:恢复适配器和扩散适配器。恢复适配器集成在原始去噪网络中,负责将LQ图像作为条件输入,以实现条件生成。具体步骤如下:
恢复适配器设计:适配器嵌入在去噪网络的各个块中,处理LQ图像特征,并将其与网络的输出特征结合,形成条件分布。
扩散适配器的角色:扩散适配器用于微调特定参数,以适应不同的去噪网络架构(UNet或DiTs),同时确保生成过程的高效性。
训练与采样策略:在训练过程中,使用与LQ图像对应的高质量图像对进行训练,采用条件流匹配损失函数,确保生成的图像与LQ图像保持一致。为了提高保真度,提出了一种恢复采样策略,通过调整去噪过程中的方向,增强生成图像的质量。
在实验部分,研究者使用300,000张高质量图像及其对应的低质量图像对进行训练,评估了DRA在不同数据规模下的表现。使用UNet和DiT作为基础模型,设置适配器在各个去噪模块中。实验结果表明,DRA在多种评价指标上均表现出色,尤其在ClipIQA和MUSIQ评分上,展示了其在视觉质量恢复方面的优势。定量比较显示,DRA在处理不同类型的图像降解时,能够有效保持图像的细节和真实性。此外,通过对比其他最先进的方法,DRA在有效性和效率上均具有明显优势,尤其是在参数数量上,DRA大幅减少了模型的复杂性。
在这项研究中,科学家们开发了一种新工具,称为扩散恢复适配器,来帮助从模糊或低质量的图片中恢复出清晰的高质量图片。想象一下,如果你拍了一张照片,但它模糊了,DRA就像一个智能修复工具,可以通过分析这张模糊图像的特征,生成一张清晰的版本。这个工具的工作原理是将模糊图像和一组预先训练好的智能算法结合起来,从而生成更清晰的图像。为了实现这一点,研究者们设计了两个主要部分:一个是负责处理模糊图像信息的“恢复适配器”,另一个是用于微调这些算法的“扩散适配器”。通过这种方式,他们不仅提高了图像的恢复质量,还减少了所需的计算资源,使得这个工具更加高效。
2025-02-28|USTC,MSRA|CVPR2025
http ://arxiv.org/abs/2502.20762v1
https ://github.com/microsoft/DCVC
本研究提出了一种实用的实时神经视频编码器(NVC),旨在实现高压缩比、低延迟和广泛的适用性。尽管现有的NVC在压缩性能上已经超过了传统编码器(如H.265和H.266),但在实际应用中,编码速度依然是一个主要挑战。我们识别出操作成本(例如内存I/O和函数调用次数)是影响编码速度的主要瓶颈,而不是计算成本。因此,本文提出了一系列设计改进,专注于减少操作成本,从而加快编码速度而不牺牲压缩质量。这些改进包括采用隐式时间建模来简化运动估计过程,以及使用单一低分辨率的潜在表示代替传统的逐步下采样方法。此外,我们还实现了模型整数化,以确保跨设备的一致性,以及基于模块库的速率控制机制,提升了实用适应性。
本研究的方法包括以下几个关键设计改进:
隐式时间建模:通过消除复杂的显式运动模块,采用更简单的隐式时间建模,从而减少计算复杂度。
单一低分辨率潜在表示:我们将潜在表示的学习限制在单一低分辨率上,避免传统的逐步下采样方法,显著减少内存I/O开销。
模块库速率控制:引入模块库机制以实现动态速率调整,增强了模型在不同网络条件下的适应性。
模型整数化:通过将模型转化为16位整数,确保跨设备的一致性,避免因浮点计算引起的不确定性。
这些创新使得我们的编码器在1080p视频编码中实现了高达125.2fps的编码速度,同时在比特率上比H.266/VTM节省了21%的空间。
为了验证所提出方法的有效性,我们在多个数据集上进行了实验,包括UVG和MCL-JCV。实验结果表明,DCVC-RT在编码速度和压缩性能上均优于现有的NVC模型。具体而言,DCVC-RT在1080p视频编码中实现了125.2fps的编码速度及112.8fps的解码速度,且在YUV420色彩空间的比特率上比VTM节省了21%。此外,针对不同的量化参数进行的测试显示,模型在低延迟条件下能够保持稳定的编码性能。我们还进行了复杂性分析,结果表明DCVC-RT显著降低了计算复杂度,同时保持了优异的压缩比,展现了其在实际应用中的广泛适用性。
在这项研究中,我们提出了一种新型的视频压缩技术,旨在让视频更小、更快地传输。我们的方法主要通过简化视频编码过程来实现这一目标。首先,我们不再使用复杂的运动计算方法,而是采用一种更简单的方式来处理视频帧之间的变化。其次,我们只使用一种低分辨率的表示方式来存储视频信息,这样可以减少所需的内存和处理时间。我们还引入了一种新的速率控制机制,能够根据网络条件灵活调整视频质量。最后,我们通过将模型转换为整数格式,确保在不同设备上编码和解码时的一致性。通过这些改进,我们的技术在1080p视频编码中实现了非常快的速度和高效的压缩效果。
2025-02-28|OUC,ShandongU|CVPR2025|⭐️
http ://arxiv.org/abs/2502.20861v1
https ://github.com/QINGQINGLE/MESC-3D
本文提出了一种新型的单图像3D重建方法,称为MESC-3D(MiningEffectiveSemanticCuesfor3DReconstructionfromaSingleImage)。该方法旨在从复杂的2D图像中有效挖掘语义线索,以实现更高质量的3D重建。现有方法通常仅仅提取图像的语义信息,并将其与3D点云简单拼接,而忽视了二者之间的深入联系,导致重建质量受限。MESC-3D通过设计两个关键模块:有效语义挖掘模块(ESM)和3D语义先验学习模块(3DSPL),来解决这一问题。ESM使得点云能够自主选择所需的语义信息,而3DSPL则通过对空间结构的理解,模拟人类的3D推理过程,从而提升了模型的重建精度和真实感。
MESC-3D的整体架构包括两个主要模块。首先,采用ResNet18和预训练的PointMAE模型提取输入图像和点云的特征。接着,利用多模态交织变换器(MIT)对这些特征进行互相丰富,从而获得融合特征。第二阶段引入3D语义先验学习模块(3DSPL),该模块通过对比学习获取对象类别的先验知识,帮助模型更准确地推断3D形状。随后,设计有效语义挖掘模块(ESM),使得每个点在重建过程中能够根据特定的选择映射,自主选择相关的语义特征。最后,经过多阶段特征选择后,使用小型多层感知机(MLP)预测每个点的3D坐标。这种方法有效降低了特征之间的纠缠,提高了重建的效率和准确性。
为验证MESC-3D的有效性,研究者在多个数据集上进行了广泛的实验,包括ShapeNet和Pix3D。实验结果表明,MESC-3D在重建质量和鲁棒性方面显著优于现有的最先进方法。具体来说,在Chamfer距离和F-score指标上,MESC-3D在13个类别中均表现出色,尤其在处理复杂背景和未见类别时显示出强大的泛化能力。此外,零-shot性能的评估也表明,该模型能够在没有直接训练数据的情况下,成功重建未见类别的3D形状。通过对不同模块的消融实验,研究者进一步确认了ESM和3DSPL在提升模型性能中的重要作用。
MESC-3D是一种从单张图片中生成3D模型的新方法。想象一下,当我们看到一个物体时,会根据我们之前的经验来推测它的形状和结构。MESC-3D的工作方式类似,它首先从图片中提取出重要的特征,然后通过两个主要步骤来帮助模型更好地理解这些特征。第一个步骤叫有效语义挖掘模块,类似于让模型自己选择哪些信息是有用的。第二个步骤叫3D语义先验学习模块,它教会模型如何像人类一样推断物体的3D形状。通过这种方式,MESC-3D不仅能更准确地重建物体的形状,还能在面对新物体时表现出色,甚至在没有见过的情况下也能进行重建。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录