【他山之石】ICLR2025 Spotlight Serge Belongie组与ETH提出:「免费」多模态信息助力3D样本分割
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
突破单模态局限,多模态促进3D小样本分割
当人形机器人能够辨识身边的一切,VR/AR设备呈现出定制化的虚拟世界,自动驾驶汽车实时捕捉路面状况,这一切都依赖于对3D场景的精确理解。然而,这种精准的3D理解往往需要大量详细标注的3D数据,极大推高了时间成本和资源消耗,而每当出现新场景或特定目标时,又不得不重复这一繁重过程。
Few-shot学习是一种有效的解决思路——通过极少量标注样本,让模型迅速掌握新类别,从而大幅改善了这一局限性。但当前研究都局限于单模态点云数据,忽略了多模态信息的潜在价值。对此,UniversityofCopenhagen、ETHZurich等团队填补了这一空白,提出了一个全新的多模态Few-shot3D分割设定和创新方法:在无需额外标注成本的前提下,融合了文本,2D,3D信息,助力模型更好地适应到新类别。
这篇文章已被ICLR2025接收为Spotlight论文,欢迎关注论文和代码,了解更多细节!
论文:https ://arxiv.org/pdf/2410.22489
代码:https ://github.com/ZhaochongAn/Multimodality-3D-Few-Shot
3DFew-shot分割结果示例:
1.引言
3D场景理解在具身智能、VR/AR等领域至关重要,帮助设备准确感知和解读三维世界。然而,传统全监督模型虽在特定类别上表现出色,但其能力局限于预定义类别。每当需要识别新类别时,必须重新收集并标注大量3D数据以及重新训练模型,这一过程既耗时又昂贵,极大地制约了模型的应用广度。
3DFew-shot学习旨在利用极少量的示例样本以适应模型来有效的识别任意的全新类别,大大降低了新类适应的开销,使得传统的3D场景理解模型不再局限于训练集中有限的类别标签,对广泛的应用场景有重要的价值。
具体而言,对于Few-shot3D点云语义分割(FS-PCS)任务,模型的输入包括少量支持样本(包含点云及对应新类标签)和查询点云。模型需要通过利用支持样本获得关于新类别的知识并应用于分割查询点云,预测出查询点云中关于新类别的标签。在模型训练和测试时使用的目标类别无重合,以保证测试时使用的类均为新类,未被模型在训练时见过。
目前,该领域涌现出的工作[1,2]都只利用点云单模态的输入,忽略了利用多模态信息的潜在的益处。对此,这篇文章提出一个全新的多模态Few-shot3D分割设定,利用了文本和2D模态且没有引入额外的标注开销。在这一设定下,他们推出了创新模型——MultiModalFew-ShotSegNet(MM-FSS)。该模型通过充分整合多模态信息,有效提升小样本上新类别的学习与泛化能力,证明了利用普遍被忽略的多模态信息对于实现更好的小样本新类泛化的重要性,为未来研究开辟了全新方向。
2.MultimodalFS-PCSSetup
为便于讨论,以下都将Few-shot3D点云语义分割简称为FS-PCS。
多模态FS-PCS任务:作者引入的多模态FS-PCS包括了除3D点云之外的两个额外模态:文本和2D。文本模态相应于支持样本中的目标类别/新类的名称。2D模态相应于2D图片,往往伴随3D场景采集同步获得。值得注意的是,2D模态仅用于模型预训练,不要求在meta-learning和测试时作为输入,保证了其Few-shot输入形式与传统FS-PCS对齐,仅需要相同的数据且无需额外标注。
3.新的MultimodalFS-PCS模型MM-FSS
模型概览
关键模块解析
MM-FSS在Backbone后引入两个特征提取分支:
IntermodalFeature(IF)Head(跨模态特征头):学习与2D视觉特征对齐的3D点云特征。
UnimodalFeature(UF)Head(单模态特征头):提取3D点云本身的特征。
①预训练阶段
MM-FSS先进行跨模态对齐预训练,通过利用3D点云和2D图片数据对,使用2D视觉-语言模型(VLM)输出的2D特征监督IFhead输出的3D特征,使得IFHead学习到与2D视觉-语言模型对齐的3D特征。这一阶段完成后:
此外,该特征也隐式对齐了VLM的文本特征,为后续阶段利用重要的文本引导奠定基础。
②Meta-learning阶段
两套correlations会通过MultimodalCorrelationFusion(MCF)进行融合,生成初始多模态correlations,包含了2D和3D的视觉信息。这个过程可以表示为:
其中和分别表示用IFHead和UFHead特征算得的correlations。为MCF输出的初始多模态correlations。
当前获得的多模态correlations融合了不同的视觉信息源,但文本模态中的语义信息尚未被利用,因此设计了MultimodalSemanticFusion(MSF)模块,进一步利用文本模态特征作为语义引导,提升多模态correlations:
其中为文本模态的语义引导,为文本和视觉模态间的权重(会动态变化以考虑不同模态间变化的相对重要性),为多模态correlations。
③测试阶段
跨模态的语义引导未经meta-learning训练,有更少的trainingbias。为了有效的执行测试时修正,作者提出基于支持样本及其标签估算可靠性指标,用于自动调整修正程度(当该语义引导可靠性更高时,分配更大的修正权重,否则分配更小的权重):
4.实验结果
实验在两个标准的FS-PCS数据集上进行,证明了MM-FSS在各类few-shot任务中都实现了最佳性能。可视化也清楚表明了模型能够实现更优的新类分割,展示了更强的新类泛化能力。更多详细实验和分析内容请参见论文。
5.总结
这项工作首次探索了融合多模态以提升FS-PCS任务的可能性。文中首先提出了全新的多模态FS-PCS设定,无额外开销地融合文本和2D模态。在该设定下,作者提出首个多模态FS-PCS模型MM-FSS,显式的利用文本模态,隐式的利用2D模态,最大化其灵活性和各场景下的应用性。MM-FSS包含了MCF和MSF来有效的从视觉线索和语义信息双重角度高效聚合多模态知识,增强对新类概念的全面理解。此外,为了协调few-shot模型的trainingbias,作者设计了TACC技术,在测试时动态的修正预测。
综合来看,该工作展示了过往被普遍忽略的“免费”多模态信息对于小样本适应的重要性,为未来的研究提供了宝贵的新视野且开放了更多有趣的潜在方向。可参考的方向包括性能的提升[2,3],训练和推理效率的优化[4],更深入的模态信息利用等。
引用:
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!