仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月14日|周五
New!|为了更好的服务广大研究者与爱好者,未来,我们将陆续开源PaperDaily系列源文件至Github平台,欢迎大家持续关注!!!
https ://github. com/AIGCResearch/Awesome-PaperDaily
2025-03-13|HKUST
http ://arxiv. org/abs/2503. 10464v1https ://zhengxunzhi. github.io/flownerf/
在本研究中,作者提出了一种名为Flow-NeRF的统一框架,旨在同时学习场景几何、相机姿态和稠密光流。传统的神经辐射场(NeRF)方法通常依赖于获取相机姿态的先验知识,而Flow-NeRF则突破了这一限制,能够在缺乏姿态信息的情况下进行高质量的场景重建。通过联合优化几何、姿态和光流,Flow-NeRF能够有效地解决场景重建中的几何模糊性问题。研究表明,该模型在多个任务上表现优异,包括新视角合成、深度估计、相机姿态预测和稠密光流估计,超越了现有的先进方法,展示了光流在NeRF优化中的潜在优势。
Flow-NeRF的核心方法包括以下几个方面:
共享点采样机制:在几何分支和光流分支之间共享采样点,确保它们表示相同的物理场景。这种机制通过随机采样2D像素并将其反投影到3D空间中来实现。
像素级新视角稠密光流学习:通过建立双向映射网络,条件化于相机姿态,来学习2D-2D对应关系。这一过程确保了光流的推断能够基于相机的运动变化。
特征消息传递策略:通过将光流分支提取的特征传递到几何分支,增强几何特征的学习。这种策略利用了两者之间的互补性,显著提升了场景几何的重建质量。
优化损失函数:通过结合光流损失和光度一致性损失,进行联合优化,以确保模型在学习过程中能够平衡各个目标的影响。
为了验证Flow-NeRF的有效性,作者在多个数据集上进行了实验,包括TanksandTemples、ScanNet和Sintel。实验结果显示,Flow-NeRF在新视角合成和深度估计等任务上均优于现有的先进方法。具体而言,在TanksandTemples数据集上,Flow-NeRF在PSNR和SSIM等指标上均有显著提高,平均PSNR提升超过2分,而在ScanNet数据集上,深度估计的性能也显著优于其他方法。此外,作者还对光流预测进行了定量评估,结果表明Flow-NeRF在长距离新视角光流预测上表现优异,平均端点误差(EPE)明显低于其他方法。这些实验结果表明,Flow-NeRF不仅在视觉质量上取得了进展,同时在几何建模和光流推断的准确性上也取得了显著提升。
Flow-NeRF的方法可以简单理解为一种智能的图像处理技术,它通过几个关键步骤来实现高质量的场景重建。首先,Flow-NeRF会选择图像中的一些重要点,并确保这些点在不同的视角下都能代表同一个物体。这就像在拍摄同一物体的不同角度时,确保我们关注的点是一致的。接下来,模型利用这些点来计算物体的运动,即光流,这样就能理解物体在不同时间间隔内的变化。为了提高准确性,Flow-NeRF还会将从运动中获得的信息传递给场景的几何结构部分,帮助它更好地理解物体的形状和位置。最后,模型通过对比预测的图像和真实图像,持续优化自身的学习过程,确保最终生成的图像既真实又细致。通过这些步骤,Flow-NeRF能够在没有相机位置信息的情况下,依然产生令人满意的图像效果。
2025-03-13|ZJU,WestlakeU
http ://arxiv. org/abs/2503. 10286v1https ://lizhiqi49. github.io/VicaSplat
VicaSplat是一种新颖的框架,旨在从未标定的视频帧中同时进行3D高斯点云重建和相机位姿估计。该方法解决了在实际应用中快速重建三维场景和合成新视图的挑战,这在计算机视觉领域仍然是一个未被充分探索的任务。与传统方法相比,VicaSplat不需要准确的相机参数或耗时的逐场景优化,显著提高了效率。其核心在于基于变换器的网络架构,通过将每帧图像映射为视觉标记并与可学习的相机标记结合,能够在一次前向传递中生成高质量的3D高斯点云和相机位姿。实验结果表明,VicaSplat在多视图输入下优于现有基线方法,并在新视图合成任务中表现出色,具备良好的跨数据集泛化能力。
VicaSplat的网络架构由编码器和解码器组成,采用变换器模型。首先,编码器将每帧图像映射为一组视觉标记。这些标记在经过处理后,与一组学习到的相机标记结合,形成一个统一的标记序列。解码器通过双向注意力机制使相机标记与视觉标记之间进行全面交互,从而提取视图依赖特征。接着,模型使用不同的预测头分别生成相机位姿和3D高斯点云。相机位姿采用单位双四元数进行参数化,以提高模型的表现。此外,模型采用逐帧调制和跨邻居注意力机制,增强视图一致性。训练过程中,采用渐进式训练策略,首先使用少量视图进行基本几何知识学习,随后逐步增加视图数量,以提升模型的性能。
在实验中,VicaSplat在多个数据集上进行了评估,包括RealEstate10k和ScanNet。通过比较不同输入视图数量的效果,VicaSplat在两视图设置下表现出与现有最先进方法相当的性能,而在多视图情况下则显著优于基线方法。具体而言,在新视图合成任务中,VicaSplat在PSNR、SSIM和LPIPS等指标上均表现优异,展示了在合成高质量图像和深度图方面的能力。此外,VicaSplat在未经过特定数据集训练的情况下,依然在ScanNet上展现出强大的泛化能力。通过一系列定量和定性评估,实验结果验证了VicaSplat的有效性和高效性,证明其在处理未标定视频帧方面的潜力。
VicaSplat是一种新技术,能够从一段没有标定的录像中快速生成三维图像和相机位置。它的工作原理是先把每一帧画面转化为一些特征点,这些点就像图像的“记号”。接着,VicaSplat使用一种特殊的网络结构,让这些记号之间进行交流,以便提取出不同视角的特征。通过这种方式,模型能在一次处理中同时计算出三维形状和相机的角度。为了让模型更聪明,研究人员还设计了一种逐步训练的方式,先让它学习简单的场景,然后逐渐增加复杂度。最后,实验表明,这种方法在生成新图像时比其他传统方法更快、更准确,且在不同场景下都能表现良好。
2025-03-13|SNU,UBC
http ://arxiv. org/abs/2503. 10256v1https ://yeonjin-chang. github.io/ROODI/
在本研究中,提出了一种新颖的方法ROODI,旨在从复杂场景中的多视图图像中重建特定物体,尤其是在物体被遮挡的情况下。尽管近年来3D高斯点云技术(如3DGaussianSplatting)在新视图图像合成方面取得了显著进展,但从场景中提取特定物体仍然面临挑战。该方法的核心在于两个关键原则:首先,通过修剪无关的高斯原语来实现物体中心化;其次,利用生成性修复技术来补偿由于遮挡而造成的缺失观测。通过对局部结构的分析,ROODI能够有效去除浮动物体,并结合遮挡推理,显著提升了物体提取的效果。实验结果表明,该方法在多个基准数据集上优于现有的最先进技术,展示了其在复杂场景中提取对象的有效性。
ROODI方法的实现分为几个步骤:首先,使用预训练的3D高斯模型构建整个场景的三维表示。接着,利用SegmentAnythingModel2(SAM2)从多视图图像中获取目标物体的分割图。然后,将这些分割图信息提取到3D高斯模型中,得到与目标物体相关的高斯原语。为了解决浮动物体的问题,采用K近邻算法来修剪那些与目标物体结构不连通的高斯原语,确保仅保留相关的部分。最后,利用预训练的扩散模型进行遮挡区域的修复,结合深度图推理来识别需要修复的区域。通过这些步骤,ROODI能够在物体提取过程中有效减少浮动物体的干扰,并重建清晰的目标物体。
实验部分主要通过在两个数据集上评估ROODI方法的性能:LERF数据集和自定义的MultiObjectBlender数据集。LERF数据集包含多个真实场景,实验中选择了其中的三个场景进行定性分析。由于真实场景中目标物体的遮挡情况复杂,难以获得准确的地面真实值,因此在评估时主要依赖于视觉效果。同时,为了进行定量评估,研究者创建了MultiObjectBlender数据集,该数据集包含多个对象在复杂场景中的合成图像。评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像补丁相似性(LPIPS)。实验结果表明,ROODI在所有评估指标上均显著优于现有方法,尤其是在处理遮挡和浮动物体时表现出色。
ROODI方法的核心是通过几个简单的步骤来提取物体。首先,研究人员会创建一个三维场景模型,并从不同角度拍摄这个场景的照片。接着,他们使用一种智能工具(叫做SAM2)来识别出我们想要提取的物体。然后,他们会把这个物体的信息转移到三维模型中,去掉那些与目标物体无关的部分,以减少干扰。最后,使用一种先进的修复技术来填补那些被其他物体遮挡的区域,从而确保提取出的物体清晰可见。这种方法不仅能有效去除干扰物体,还能在复杂场景下重建出更真实的目标物体。
2025-03-13|UCL,ULeeds
http ://arxiv. org/abs/2503. 10148v1
在近期的研究中,3DGaussianSplatting(3DGS)作为一种新兴的神经渲染技术,展现了其在新视角合成中的潜力。尽管3DGS取得了显著的成果,但其在表达能力和参数效率方面仍面临挑战。为了解决这些问题,本文提出了一种新的混合模型——Student’stSplattingandScooping(SSS),该模型结合了正负成分,旨在提升3DGS的基本框架和公式。SSS通过引入灵活的t分布,增强了模型的表达能力,并通过新的采样方法优化学习过程。通过对多个数据集的广泛评估,研究表明SSS在渲染质量和参数效率方面超越了现有方法,能够在较少的成分下实现相似或更好的效果。
SSS方法的核心在于将传统的高斯混合模型替换为t分布混合模型,其关键步骤包括:
学生t分布的引入:通过引入具有灵活性和可学习的t分布,SSS能够捕捉更复杂的分布特征,尤其是在处理具有不同尾部厚度的分布时。
正负成分的结合:SSS不仅使用正向的“splatting”过程,还引入了负向的“scooping”过程,使得模型能够同时添加和减去密度,从而提高了表达能力。
采样优化方法:采用基于随机梯度哈密顿蒙特卡洛(SGHMC)的采样方法,解决了参数耦合问题,使得模型在学习过程中更为高效。该方法通过引入动量和噪声,增强了参数的适应性和学习稳定性。
在实验部分,SSS在多个数据集上进行了评估,包括Mip-NeRF360、Tanks&Temples和DeepBlending。实验结果显示,SSS在多个标准指标上均优于基线方法,如PSNR、SSIM和LPIPS等。具体而言,SSS在6个指标上取得了最佳结果,在2个指标上排名第二,展示了其在图像重建和渲染质量方面的优势。此外,SSS在参数效率方面表现突出,使用的成分数量比传统方法减少了82%,同时保持了相似的渲染质量。通过对比不同成分数量的效果,SSS展现了其在高效捕捉复杂场景特征方面的能力。
在SSS方法中,研究者们采用了一种新的方式来处理三维图像。首先,他们用一种叫做t分布的数学工具代替了传统的高斯分布,这使得他们可以更灵活地表示复杂的图像特征。其次,SSS不仅可以添加颜色(正向处理),还可以减去颜色(负向处理),这让它在处理图像时更有创造性。最后,研究者们引入了一种新的学习方法,利用动量和噪声来帮助模型更好地学习,这样可以让模型在学习过程中更加稳定和高效。总的来说,SSS通过这些创新的技术,使得三维图像的处理变得更加高效和准确。
2025-03-13|YonseiU
http ://arxiv. org/abs/2503. 10055v1
本研究提出了一种基于傅里叶分解的三维点云编码方法,旨在有效处理带有颜色属性的点云数据。传统的点云处理方法通常将几何和颜色特征分开处理,导致信息的局部性和特征学习的局限性。为了解决这一问题,研究者们引入了三维傅里叶分解,通过将点云分解为幅度和相位两个部分,分别用于表示颜色和几何信息。该方法不仅能够独立地学习和利用这两种属性,还通过频谱域的操作扩展了感受野,增强了对点云整体结构的理解。实验结果表明,该方法在点云分类和风格迁移任务中均取得了优异的表现,尤其在DensePoint数据集上达到了最先进的性能。
在方法部分,研究者首先将三维点云数据进行体素化处理,以适应傅里叶变换的要求。具体步骤如下:
体素化:将点云映射到一个三维网格中,确定每个体素的边界,并确保每个体素最多只包含一个点。
傅里叶分解:对体素化后的数据应用三维离散傅里叶变换,得到幅度和相位两个分量。幅度用于捕捉颜色属性,而相位则用于表示几何结构。
特征编码:通过两个独立的编码器分别处理幅度和相位,提取出颜色和几何特征向量。最后,将这两个特征向量合并,以便进行后续的任务处理。
重构:通过逆傅里叶变换,将幅度和相位重新组合,生成最终的点云数据。
这种方法充分利用了傅里叶变换的全局特性,使得对点云的处理更加有效。
实验部分主要验证了所提出方法的有效性,涵盖了点云分类、风格迁移和数据增强等任务。首先,在点云分类任务中,使用DensePoint数据集进行训练和测试,评估指标包括整体准确率和每类平均准确率。实验结果显示,所提方法在多个基准模型中表现优异,整体准确率达到了98. 43%。其次,在风格迁移任务中,采用了基于幅度的颜色属性交换,成功将风格点云的颜色特征转移到内容点云上,保持了几何结构的完整性。最后,提出了一种基于幅度交换的数据增强策略,通过丰富数据集的多样性,进一步提升了模型的鲁棒性和泛化能力。整体实验结果表明,该方法在处理带颜色的点云任务中具有显著优势。
在这个研究中,科学家们提出了一种新方法来处理三维点云,这些点云常常包含颜色信息。传统的方法往往将颜色和形状分开处理,但这样会导致信息丢失。新的方法使用了一种叫做傅里叶变换的数学工具,可以将点云分解为两个部分:一个部分专门用来表示颜色,另一个部分用来表示形状。首先,科学家们把点云转变成一个三维网格,然后用傅里叶变换来提取颜色和形状信息。接下来,他们用两个不同的编码器来处理这两个部分,最后把它们结合在一起,形成一个完整的点云。这种方法能够更好地理解点云的整体结构,并在分类和风格迁移等任务中表现得非常出色。通过这种方式,科学家们能够更有效地利用点云中的信息。
2025-03-13|FDU,DIIS,NUS,SJTU
http ://arxiv. org/abs/2503. 10480v1
本文提出了一种新的学习框架——双偏好优化(D²PO),旨在通过偏好学习来提升大型视觉语言模型(LVLMs)在具身任务规划中的能力。尽管现有方法在行动选择或推理过程中利用世界模型,但往往忽视了通过学习世界模型来增强规划能力的潜力。D²PO通过联合优化状态预测和行动选择,使模型能够更好地理解环境动态,从而提高任务成功率和执行效率。为此,研究团队设计了一种树搜索机制,能够在没有人工标注的情况下自动收集轨迹和逐步偏好数据。通过在VoTa-Bench上的大量实验,D²PO方法在多种评估设置中显著超越了现有方法和GPT-4o,表明其在复杂环境中更为有效。
D²PO框架的核心在于同时优化状态预测和行动选择。具体而言,方法分为以下几个步骤:
任务建模:将具身任务规划建模为部分可观察的马尔可夫决策过程(POMDP),模型通过多模态反馈生成行动。
数据探索:引入树搜索机制,逐步探索潜在的行动空间,消除对人工专家标注的依赖。该机制包括行动采样与评估、迭代树扩展和轨迹验证与回溯。
双偏好优化:在优化过程中,模型通过偏好对比来学习选择合适的行动和预测未来状态。此过程不仅关注成功的轨迹,还利用失败的尝试进行学习,从而更全面地理解环境动态。
在VoTa-Bench上进行的实验表明,D²PO显著提升了模型的任务成功率和规划效率。实验中,团队评估了多种基线方法,包括GPT-4o和不同参数规模的LVLMs。结果显示,D²PO在成功率和路径长度加权成功率上均优于其他方法,尤其是在复杂任务中,D²PO的表现更为突出。通过对比,D²PO在任务执行过程中能够更好地处理依赖关系和优化行动序列,证明了世界建模在具身任务规划中的重要性。此外,D²PO在未见场景中的泛化能力也得到了验证,进一步增强了其实际应用潜力。
D²PO的方法可以简单理解为一个智能体在一个未知环境中学习如何做事。首先,这个智能体会观察周围的情况,比如看到哪些物体和它们的位置。接下来,它会尝试不同的动作,比如“捡起一个苹果”或“把杯子放到桌子上”。在这个过程中,智能体会记录哪些动作是成功的,哪些是不成功的。通过这种方式,它不仅能学会如何完成任务,还能记住哪些动作是有效的,哪些是无效的。最后,智能体会利用这些经验来优化自己的行动选择,让未来的任务变得更简单、更高效。这样一来,智能体就像一个不断学习的助手,能够在复杂的环境中更好地帮助人们完成任务。
2025-03-13|Unknown
http ://arxiv. org/abs/2503. 10170v1https ://github. com/hku-mars/GS-SDF
在数字双胞胎技术的背景下,自动驾驶和具身人工智能的发展对高精度表面重建和高保真渲染提出了挑战。尽管高效的高斯点云渲染方法如高斯点云(GaussianSplatting)在视觉效果上表现出色,但在几何一致性方面常常存在问题,尤其是在复杂环境中,稀疏的观测数据使得现有的正则化方法难以适用。为了解决这些问题,研究者们提出了一种统一的LiDAR-视觉系统,结合了高斯点云与神经签名距离场(NSDF),以实现几何上连贯的渲染和重建。该方法利用准确的LiDAR点云为训练的NSDF提供了基础,进而实现了物理基础的高斯初始化以及全面的几何正则化,从而提高了重建精度和渲染质量。实验结果显示,该方法在多种轨迹下均表现出色,为相关研究提供了可用的代码和数据。
本研究的核心方法分为三个主要阶段:首先,利用LiDAR点云训练神经签名距离场(NSDF),建立一个流形几何场。其次,基于NSDF对高斯点进行初始化,确保高斯点的分布与真实场景一致,进而提高训练的收敛性并减少浮动伪影。最后,实施全面的几何正则化,确保高斯点与NSDF之间的形状一致性。具体步骤包括:
SDF辅助几何初始化:通过提取NSDF生成的表面网格作为高斯点的初始位置,确保空间上的准确性。
高斯点的颜色初始化:在训练过程中固定高斯点的结构属性,同时对其颜色进行初始化,以防止在早期训练阶段出现偏差。
几何正则化:结合渲染一致性和SDF辅助的形状正则化,确保渲染过程中的一致性,避免由于前景物体遮挡导致的渲染伪影。
在实验部分,研究者对所提出的方法进行了广泛的测试,并与现有的多种方法进行了比较。实验使用了Replica和FAST-LIVO2数据集,旨在评估方法在表面重建和渲染质量方面的表现。结果表明,所提出的方法在多种场景下实现了更高的重建精度和渲染质量,尤其在细节捕捉方面表现优异。此外,实验还探讨了不同初始化和正则化策略对最终结果的影响。通过定量评估,使用Chamfer距离和F-score等指标,方法在表面重建和插值渲染方面的表现均优于基线方法。尽管在外推渲染的一致性方面存在一定的局限性,但整体性能仍然显著优于传统方法。
在这个研究中,科学家们提出了一种新方法来帮助计算机更好地理解和重建三维场景。首先,他们利用激光雷达(LiDAR)收集的数据来训练一个叫神经签名距离场(NSDF)的模型,这个模型可以帮助计算机理解物体的形状。接着,他们使用这个模型来设置高斯点的初始位置,这样可以确保这些点更准确地反映真实世界的形状。最后,他们通过一些数学方法确保这些高斯点在渲染时保持一致,不会因为遮挡等原因产生错误的视觉效果。通过这些步骤,研究者们的目标是让计算机能够更好地重建和渲染复杂的三维场景,使得最终的图像既真实又精细。