仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文题目:PE3R:Perception-Efficient3DReconstruction
论文地址:https ://arxiv.org/pdf/2503.07507
代码地址:https ://github.com/hujiecpp/PE3R
PE3R采用前馈架构进行3D语义场重建,避免了传统方法中依赖于场景特定训练和语义提取的计算开销。这种架构使得PE3R能够快速进行3D重建,显著提高了重建速度,相比现有方法实现了至少9倍的速度提升。
为了处理多视角图像中的语义歧义,PE3R引入了像素嵌入消歧模块。该模块通过跨视角、多层次的语义信息聚合,解决了由于不同视角和遮挡导致的语义不一致问题。具体来说,PE3R利用多视角一致性跟踪和面积移动聚合技术,确保每个像素的语义嵌入在不同视角下保持一致。
PE3R将语义信息直接融入3D重建过程中,通过语义引导的细化(semantic-guidedrefinement)来提高重建的精度。该模块利用语义信息来检测和过滤异常点,从而减少噪声并提高重建的准确性。
本图展示了PE3R如何仅使用2D图像进行3D场景重建,并通过语言实现语义理解。图中强调了PE3R在两个关键方面的效率:输入效率允许其仅使用2D图像操作,无需额外的3D数据(如相机参数或深度信息);时间效率确保比以往方法更快地进行3D语义重建。这些能力使PE3R非常适合于获取3D数据具有挑战性的场景,以及需要大规模或实时处理的应用。
本图详细展示了PE3R框架的三个核心模块:像素嵌入消歧(PixelEmbeddingDisambiguation)、语义场重建(SemanticFieldReconstruction)和全局视图感知(GlobalViewPerception)。图中说明了每个模块的功能和它们如何协同工作以实现高效和准确的3D语义重建。例如,在像素嵌入消歧中,基础分割模型(如SAM)将输入图像分割成多级掩码,跟踪模型(如SAM2)为这些掩码分配一致的标签,然后通过区域移动聚合生成像素嵌入。
本图展示了多级消歧对PE3R性能的影响。图中对比了启用和禁用多级消歧时的语义分割结果。没有多级消歧时,较小的物体(如“滴水托盘”和“巧克力甜甜圈”)可以被识别,但较大的物体(如“花盆”、“咖啡机”和“一盒甜甜圈”)会丢失语义信息。启用多级消歧后,不同粒度的物体语义得以成功保留,例如“咖啡机”的“冲泡头”和“滴水托盘”都能被正确识别。
本表格展示了PE3R在小规模数据集(Mipnerf360和Replica)上的2D到3D开放词汇分割性能。这些数据集相对较小,使得所有当前方法,包括基于NeRF和3DGS的方法,都可以在这些数据集上运行。表中列出了不同方法在这些数据集上的性能指标,包括平均交并比(mIoU)、平均像素精度(mPA)和平均精确度(mP)。本表结果表明,PE3R在2D到3D开放词汇分割任务上具有显著的性能优势,能够更准确地识别和分割3D场景中的语义对象。此外,PE3R的性能提升不仅体现在更高的分割精度上,还体现在更快的运行速度上,这使得PE3R在实际应用中具有更高的效率和可扩展性。
–END–
关注“学姐带你玩AI”公众号,回复“3D高斯”
领取3D高斯前沿论文合集+开源代码
往期精彩阅读
👉kaggle比赛baseline合集
👉经典论文推荐合集
👉人工智能必读书籍
👉本专科硕博学习经验
评论区留言参与讨论嗷