仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月12日|周三
2025-03-11|BUAA,NUS
http ://arxiv. org/abs/2503. 08093v1https ://mvgsr. github.io
在这项研究中,我们提出了一种新方法,名为多视图一致性高斯点云(MVGSR),旨在解决动态环境中表面重建过程中的干扰物体问题。传统的3D高斯点云方法在处理动态对象时常常产生漂浮伪影和色彩错误,影响重建质量。MVGSR通过利用轻量级的高斯模型和启发式的干扰物体遮罩策略,能够在多视图特征一致性的基础上有效区分干扰物体与静态场景元素。该方法在训练早期便能生成精确的干扰物体掩模,从而提高了表面重建的鲁棒性和渲染质量。实验结果表明,MVGSR在几何精度和渲染保真度上均优于现有的表面重建算法,显示出其在复杂场景下的强大能力。
MVGSR的方法主要分为三个步骤:首先是干扰物体检测,其利用自监督的2D基础模型提取特征,通过比较多视图特征相似性来生成初步的干扰物体掩模。其次,采用多视图贡献基础的修剪策略,以减少漂浮伪影的影响,确保在优化过程中移除不可靠信息。最后,使用多视图一致性损失函数来增强表面重建的精度,通过对不同视角下对应点的结构和颜色一致性进行约束,优化高斯点云的表现。这种方法不仅提高了重建的精度,还有效避免了由于视角不同带来的伪影和颜色错误。
在实验部分,我们对MVGSR方法的性能进行了定量和定性评估,主要使用DTU和TnT数据集进行验证。实验结果显示,MVGSR在重建精度和渲染质量上均优于其他基线方法,如PGSR和2DGS。我们采用峰值信噪比(PSNR)和Chamfer距离(CD)作为评价指标,结果表明MVGSR在多个场景中均表现出色,尤其是在存在干扰物体的情况下。此外,消融实验进一步验证了各个组成部分对整体性能的贡献,证明了多视图一致性损失和修剪策略在提升重建质量方面的重要性。
在MVGSR的方法中,我们首先需要识别图像中哪些是干扰物体。为此,我们使用一种智能技术来提取图像特征,并通过比较不同视角下的特征相似度来找出这些干扰物体。接下来,我们会对这些干扰物体进行处理,确保它们不会影响到我们想要重建的静态物体。为了进一步提高重建的效果,我们还会通过一种叫做“多视图一致性”的方法来优化重建结果,这意味着我们会确保从不同角度看到的物体在形状和颜色上都是一致的。这样一来,我们就能得到更精确、更真实的三维重建效果,特别是在复杂场景中,MVGSR能够有效处理动态对象的干扰。
2025-03-10|UMichigan,AmazonLab
http ://arxiv. org/abs/2503. 07819v1
本文提出了一种新颖的算法,旨在通过P-Optimality量化3D高斯点云(3D-GS)中的不确定性和信息增益。尽管3D-GS在高质量光栅化方面表现出色,但其原生并不支持不确定性量化,这在主动感知中尤为重要,尤其是在获取新图像以理解信息增益或识别由于资源限制而可被删除的冗余图像时。为了解决这个问题,作者通过最优实验设计的视角重新构建了3D-GS的信息量化问题,从而提出了一种有效的框架。该框架能够在多个候选视图中选择最佳视图,以训练3D-GS模型,并在两个流行数据集上进行定量和定性评估,结果表明其在信息估计的准确性上优于现有方法。此外,作者还提出了一种3D-GS不确定性的块对角近似方法,以提高信息增益的计算精度。
该方法的核心在于量化3D-GS中的不确定性和信息增益。首先,介绍了3D高斯点云的表示方式,参数化了每个三维椭球体的几何特征,包括中心、尺度和旋转。接着,通过最大似然估计方法推导出每个椭球体的协方差矩阵,以量化不确定性。具体步骤包括:
协方差矩阵近似:采用主对角和块对角近似方法,以降低存储和计算复杂度。
信息增益计算:基于协方差矩阵,评估添加新图像后的不确定性变化,使用泰勒展开近似模型。
P-Optimality应用:通过定义信息增益问题,利用P-Optimality框架计算每个候选图像的信息值。
批量选择:在某些情况下,信息内容可以通过批量图像选择进行评估,识别出最有价值的图像集。
实验部分通过对比不同方法的性能,验证了所提方法的有效性。研究在两个常用数据集上进行,包括Mip-NeRF360和Blender数据集,重点关注单视图选择和批量视图选择的任务。实验结果显示:
单视图选择:在十个和二十个视图设置下,所提方法在PSNR、SSIM和LPIPS等指标上均优于基线方法。
批量视图选择:通过迭代选择多个候选视图进行训练,比较了信息增益的有效性,结果表明D-Optimality和T-Optimality方法在信息量化方面表现突出。
不确定性相关性:通过稀疏化图分析信息增益与重建质量之间的关系,进一步验证了所提方法的可靠性。
在这项研究中,作者开发了一种新方法来帮助机器人或计算机更好地理解周围的环境。首先,他们使用一种叫做3D高斯点云的技术,将环境建模为许多椭球体。每个椭球体都有自己的位置、大小和颜色。为了知道从哪个角度拍摄可以获得最有用的信息,研究人员计算了每个椭球体的不确定性。这就像在拍照时考虑不同的角度,选择最能展示场景的那一个。他们的方法通过数学公式来评估每个候选图像的信息含量,并选择出最能减少不确定性的图像。最终,他们通过实验验证了这种方法的有效性,发现它在选择最佳拍摄角度方面明显优于其他现有方法。
2025-03-11|USTC
http ://arxiv. org/abs/2503. 08512v1https ://peoplelu. github.io/SAS. github.io
在3D场景理解领域,传统方法通常依赖于固定类别的模型进行监督训练,这限制了其对未见物体的识别能力。为解决这一问题,本文提出了一种名为SAS(SegmentAny3DScene)的新方法,旨在将多个2D模型的开放词汇能力迁移至3D领域。SAS通过整合不同2D模型的特征,克服了传统方法在复杂动态场景中的局限性。该方法的核心在于模型对齐,通过文本作为桥梁,将不同2D模型映射到同一特征空间。此外,SAS采用无注释模型能力构建方法,量化2D模型对不同类别的识别能力。通过这些创新,SAS在多个数据集上展现了优越的性能,显著提升了3D场景理解的准确性和鲁棒性。
SAS方法的实施分为几个关键步骤。首先,进行模型对齐,通过文本将不同的2D模型(如LSeg和SEEM)映射到统一的特征空间。这一过程确保了不同模型的特征可以有效融合。其次,采用无注释模型能力构建,通过稳定扩散模型生成合成图像,进而量化每个2D模型在识别不同类别方面的能力。接下来,基于构建的能力指导特征融合,将多个2D模型的点特征整合为更强大的3D点特征。最后,通过特征蒸馏技术,将融合后的2D点特征转化为3D特征,从而实现开放词汇的3D场景理解。整个流程通过多层次的特征对齐与融合,确保了模型在面对复杂场景时的准确性和灵活性。
为了验证SAS的有效性,研究团队在多个数据集上进行了广泛的实验,包括ScanNetv2、Matterport3D和nuScenes。实验结果表明,SAS在零-shot3D语义分割任务中超越了所有现有方法,展现出显著的性能提升。在长尾场景评估中,SAS也表现出强大的开放词汇能力,能够有效处理超过160个类别的复杂情况。此外,研究还进行了消融实验,以验证SAS各个组成部分的有效性,结果显示,特征融合策略和蒸馏技术显著提高了模型性能。整体而言,实验结果不仅证明了SAS在3D场景理解中的优势,也展示了其在其他相关任务(如高斯分割和实例分割)中的广泛适用性。
SAS方法的核心在于如何将不同的2D图像理解模型的能力转移到3D环境中。首先,SAS通过文本将不同的2D模型对齐,使得它们的特征能够在同一个框架下进行比较和融合。接着,SAS使用一种叫做稳定扩散的技术,生成一些合成图像,并通过这些图像来评估每个2D模型在识别不同物体方面的能力。这一过程就像是在给每个模型打分,看看它们能识别多少种类的物体。然后,SAS将这些分数作为指导,把不同模型的特征结合在一起,形成更强大的3D特征。最后,通过特征蒸馏的方式,SAS将这些融合后的特征转化为3D模型的理解能力。这种方法不仅提高了3D场景的理解准确性,还能帮助模型在面对新物体时做出更好的判断。
2025-03-11|SJTU,MonashU,SHU
http ://arxiv. org/abs/2503. 08511v1https ://yihangchen-ee. github.io/project_pcgs/
在3D图像合成领域,3D高斯点云(3DGS)因其出色的渲染质量和实时性能而备受关注。然而,3DGS的庞大数据量在实际应用中造成了显著的存储和传输挑战。现有的压缩技术虽然有所发展,但由于缺乏渐进性,无法有效利用现有的比特流,导致资源浪费。为了解决这一问题,本文提出了一种名为PCGS(渐进式压缩3D高斯点云)的新方法。PCGS通过自适应控制高斯数量和质量,提供了一种有效的渐进性压缩方案,能够在按需应用中提升效率。具体而言,PCGS通过逐步解码新高斯和精炼现有高斯,显著提高了渲染的保真度,同时保持了与最先进非渐进式方法相媲美的压缩性能。
PCGS的核心思想是从数量和质量两个方面共同优化高斯(或锚点)的控制,以实现渐进式的比特流。具体方法包括:
渐进式掩码策略:该策略逐步解码新的锚点,确保新解码的锚点与现有锚点无缝整合,从而提升渲染质量。每个锚点在不同的渐进级别上都有一个可学习的掩码,确保在解码过程中保持一致性和有效性。
渐进量化方法:在每个渐进级别,锚点的属性会逐步精炼,利用三值量化方法来提高属性的准确性。初始解码时,属性通过简单的四舍五入进行量化,而后续级别则使用更精细的量化方法来提高保真度。
上下文模型:利用锚点之间的上下文关系,PCGS在不同级别之间共享信息,以提高熵编码的效率,进一步压缩增量比特流的大小。这种方法确保了在每个级别上都能有效利用之前的解码信息。
在多个数据集上进行的实验表明,PCGS在保持压缩性能的同时,实现了有效的渐进性。我们与现有的压缩方法(如HAC++、GoDe等)进行了比较,结果显示PCGS在多个指标上(如PSNR、SSIM等)均表现优异。实验中使用了大规模的真实世界场景,包括Mip-NeRF360和Tanks&Temples等数据集,充分展示了PCGS在处理大规模3D场景时的优势。通过对比不同的压缩策略,PCGS不仅能够在单次训练中生成渐进比特流,还能在动态带宽和存储条件下灵活适应,显著扩展了3DGS的应用场景。此外,消融实验也验证了各个组件的有效性,表明渐进掩码和量化策略对提升模型性能至关重要。
PCGS的工作原理可以简单理解为一种“逐步升级”的方法。想象一下你在看一幅画,最开始你只看到画的轮廓,然后随着时间的推移,画面逐渐变得清晰,颜色和细节也越来越丰富。PCGS就是这样做的。首先,它通过“掩码”来决定哪些部分需要被逐步解码,确保新解码的部分可以与之前的部分很好地结合。其次,PCGS会在每个阶段对锚点的属性进行“精细调整”,就像在画上添加更多细节一样,从而不断提高画面的质量。最后,PCGS还会利用之前解码的信息来帮助后续的解码过程,确保每一步都能更有效率地利用资源。这种方法不仅提高了图像的质量,还能在不同的网络环境下灵活调整,适应各种应用需求。
2025-03-11|TUMunich,TUDelft,MCML|CVPR2025
http ://arxiv. org/abs/2503. 08363v1https ://parametric-completion. github.io
在三维重建领域,现有的多边形表面重建方法往往依赖于输入点云的完整性,而在处理不完整点云时效果不佳。本文提出了一种新的点云补全方法——参数化补全,旨在通过恢复参数化原始体而非单个点,来捕捉高层次的几何结构。我们的方法PaCo(ParametricCompletion)利用平面代理来同时编码平面参数和对应的内点,从而在数据不完整的情况下实现高质量的多边形表面重建。通过对ABC数据集的全面评估,我们的方法在性能上超越了现有技术,并为多边形表面重建设立了新的标准。
我们的方法分为几个关键步骤。首先,输入的不完整点云被分组为一组平面段,形成平面代理。接着,平面代理通过一个生成模块生成一系列平面原型提案。然后,参数恢复模块提取平面参数并分配内点。与传统方法不同,PaCo使用可变大小的原始体来适应不同复杂度的表面,而不是固定数量的点。我们还建立了一个双边匹配框架,通过多个目标来优化原始体的分布。最后,选择器根据置信度分数选择最优的原始体,以形成最终的参数化补全结果。这一过程确保了重建的多边形表面不仅结构合理,而且在数据缺失的情况下依然保持高精度。
为了评估PaCo的性能,我们在ABC数据集上进行了广泛的实验,涉及15,339个CAD模型,并定义了三种不同的遮挡级别(简单、中等和困难),对应点缺失比例为25%、50%和75%。我们将PaCo与多种传统和神经重建方法进行了定量比较。实验结果表明,PaCo在所有评估指标上均表现优越,尤其是在高遮挡情况下,其他方法的性能显著下降,而我们的算法则保持稳定。此外,我们还对比了PaCo与几种几何简化方法,结果显示我们的重建结果在面数和几何复杂性上具有明显优势,证明了参数化补全的有效性。
在我们的研究中,我们提出了一种新方法,来解决在三维建模中常见的“缺失数据”问题。传统方法往往只关注填补缺失的单个点,而我们的方法则是通过识别和恢复整个平面来进行重建。具体来说,我们首先将输入的点云数据分成多个平面段,然后利用这些平面段生成一个完整的平面提案集合。接下来,我们会提取每个平面的特征,并根据这些特征来分配缺失的数据点。最后,我们会根据每个平面的置信度来选择最合适的平面进行重建。这种方法不仅能更好地处理缺失数据,还能确保重建的表面结构更加准确和完整。
2025-03-11|NJU,ICL(Imperial),Vivo|CVPR2025
http ://arxiv. org/abs/2503. 08352v1
本研究提出了一种基于高斯喷涂(GaussianSplatting,GS)的方法来解决三维分类中的模糊性问题。传统的点云表示在处理三维物体时,由于其离散性和对物体表面描述的不足,常常难以有效区分线状和扁平表面,以及透明和反射物体。这种模糊性导致了分类精度的下降。因此,采用GS点云表示,通过将每个点视为多个高斯椭球体的组合,能够更好地捕捉物体表面的特征。研究中构建了第一个真实世界的GS点云数据集,包含20个类别,每类200个物体,以验证GS点云在三维分类中的有效性。
本研究的方法主要包括以下几个步骤:
GS点云表示:将传统点云表示转变为高斯分布的组合,每个点不仅包含其三维坐标,还记录标准差、旋转矩阵和透明度。这种表示方式能够提供更丰富的几何信息,帮助分类器更好地区分不同类型的表面。
模糊性缓解:通过引入标准差和旋转信息,GS点云能够有效解决传统点云在局部形状表征上的模糊性。具体而言,线状表面由多个细长的高斯椭球体组成,而扁平表面则由少量较大的扁平椭球体构成。
分类框架:采用传统的点云分类框架,输入为GS点云,输出为分类概率。通过对比不同的输入特征组合(如位置、透明度、标准差和旋转),评估GS点云在分类任务中的表现。
为了验证GS点云的有效性,研究构建了一个包含4000个物体的真实世界数据集,并与传统点云数据集进行了比较。实验结果显示,使用GS点云作为输入,分类精度显著提高。具体而言,采用GS点云后,基于PointNet等多种分类方法的整体准确率和平均准确率均有所提升,尤其在区分形状相似但表面特性不同的物体时,GS点云的优势更加明显。此外,实验还分析了不同高斯系数对分类性能的影响,结果表明,结合透明度、标准差和旋转信息的GS点云能够有效减少分类错误,提升模型的可靠性。
在本研究中,我们提出了一种新方法,称为高斯喷涂(GS),用来更好地识别三维物体。我们发现,传统的三维点云表示在区分物体时常常会混淆,比如难以区分线状和扁平的物体。为了改善这一点,我们将每个物体的点用多个高斯椭球体来表示,这样每个点不仅有位置,还有形状和透明度的信息。我们的实验表明,使用这种新的GS点云表示后,识别的准确率大大提高,特别是在面对形状相似但表面特性不同的物体时,GS点云能够更清晰地区分它们。通过构建一个包含4000个物体的数据集,我们验证了这一方法的有效性,结果显示,GS点云的引入显著减少了识别错误,提升了分类的准确性。
2025-03-11|CTUPrague,HOVER,Apple
http ://arxiv. org/abs/2503. 08208v1
本研究旨在评估用于结构化三维重建的自动化度量标准,强调“不可测量则不可改进”的理念。研究中探讨了各种度量标准的缺陷,并通过专家3D建模师的偏好进行深入分析。提出了一系列系统的“单元测试”,以实证验证这些度量标准的理想特性,并根据不同应用场景提供合适的度量标准建议。此外,研究还引入了一种基于人类专家判断的学习度量,并进行了分析。通过对现有度量标准与人类偏好的比较,研究揭示了在三维重建领域中,如何更有效地评估和选择合适的度量标准。
本研究的方法主要包括以下几个步骤:首先,收集了两组3D重建的线框数据,分别为S23DR挑战赛的基准数据和经过人为干扰的真实数据。然后,邀请了专业3D建模师对这些线框进行配对排名,评估其与真实模型的相似度。接着,研究者们设计了一系列“单元测试”,用于检验各度量标准在面对不同类型的重建错误时的表现,包括边缘分割、顶点扰动和错误边缘添加等。最后,通过机器学习方法,构建了一种新度量,并利用人类判断作为监督信号进行训练,以提高度量的准确性和一致性。该方法的设计旨在确保度量标准的实用性和可靠性,最终为结构化三维重建提供更有效的评估工具。
实验部分主要通过对比不同度量标准与人类专家的评估结果来验证其有效性。首先,研究者组织了三组评估人员,包括专业3D建模师、计算机视觉研究人员和普通用户,分别对线框重建进行评分。通过对成对重建的比较,计算出不同度量标准与人类评估之间的一致性。实验结果显示,尽管存在一定的主观性,评估者在判断时更倾向于关注重建的正确部分而非错误部分。随后,研究者还使用了合成样本来测试评估者的一致性和准确性,发现评估者在明显的重建质量差异时表现出较高的正确率。最后,通过Bradley-Terry模型对重建质量进行建模,揭示了人类偏好背后的潜在因素。
在本研究中,我们通过一系列步骤来评估3D重建的质量。首先,我们收集了两组线框模型,一组是经过专家验证的真实模型,另一组则是经过干扰的模型。接着,我们邀请了专业的3D建模师来比较这些模型,看看哪个更接近真实模型。为了测试不同评估方法的有效性,我们设计了一些简单的测试,比如在模型上添加错误的边或移动顶点,然后观察这些变化对评估结果的影响。最后,我们还使用机器学习技术,训练一种新的评估方法,使其能够更好地反映人类的判断。通过这些步骤,我们希望能找到一种更可靠的方式来评估3D重建的质量,帮助设计更好的模型。
2025-03-11|USTC,NUDT,SZU
http ://arxiv. org/abs/2503. 08135v1
本研究提出了一种名为ArticulatedGS的自监督框架,旨在通过3D高斯点云建模技术构建关节物体的数字双胞胎。该方法解决了在不同静态关节配置下,利用多视角RGB图像同时重建物体的外观和几何形状的挑战。ArticulatedGS通过多步优化过程有效地解耦了多个高度相关的参数,实现了稳定的优化过程和高质量的重建结果。与现有方法相比,ArticulatedGS在部件分割、运动参数估计和视觉质量等方面均取得了最佳性能。该方法不依赖于3D监督、运动线索或语义标签,展示了其在关节物体建模领域的创新性和有效性。
ArticulatedGS的方法分为几个关键步骤:首先,输入两组多视角RGB图像,分别代表目标关节物体的起始状态和结束状态。接着,使用3D高斯点云重建起始状态的模型。随后,采用一个称为DeformNet的网络来预测每个高斯点的刚性运动,包括位置和旋转的变化。通过对运动参数的分类,初步识别可移动和不可移动的高斯点。然后,进行运动参数的全局优化,以确保运动过程的刚性。优化过程中,结合外观损失和几何损失,逐步更新模型。最终,进行联合优化,以获得高保真度的重建结果,并扩展到多部件物体的建模过程。
在实验中,ArticulatedGS方法在多个数据集上进行了评估,包括合成数据和真实世界物体。与现有的最先进方法Ditto和PARIS进行对比,ArticulatedGS在视觉质量、运动参数估计和部件分割精度上均表现出色。实验结果显示,该方法在多次迭代中能够稳定地重建出物体的形状和运动状态,且在不同物体类别间具有较强的适应性。通过对比分析,ArticulatedGS在处理复杂关节运动时,展现了更高的准确性和可靠性。此外,实验还验证了该方法的计算效率和优化过程的稳定性,为未来的应用提供了坚实的基础。
ArticulatedGS的方法可以简单理解为一个分步的过程。首先,我们用两组不同角度拍摄的图片来展示一个物体的两种不同形态。接着,利用这些图片创建出物体的3D模型。然后,我们用一个特别的网络来分析每个部分的运动,比如它们的移动和旋转。这个网络会帮助我们确定哪些部分是可以移动的,哪些是固定的。之后,我们会对这些运动进行优化,确保它们在运动时看起来是自然的。最后,我们会将所有信息结合起来,得到一个非常精确的物体模型。这样的方法不仅能准确重建物体的形状,还能让它在不同状态下的表现更加真实。