厦大实验室18篇论文被ICCV 2025录用


厦大实验室18篇论文被ICCV 2025录用

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
来源:厦门大学多媒体重点实验室
第20届ICCV国际计算机视觉大会论文录用结果近日揭晓,厦门大学多媒体可信感知与高效计算教育部重点实验室共有18篇论文被录用。
InternationalConferenceonComputerVision(ICCV)是计算机视觉领域的顶级国际会议,CCFA类会议。ICCV2025将于2025年10月19日-10月23日在美国夏威夷举办,ICCV2025共有11239份投稿,录用2698篇,录取率为24%。实验室录用论文简要介绍如下:(按第一作者姓氏笔画排序)
01
ESCNet:Edge-SemanticCollaborativeNetworkforCamouflagedObjectDetect
简介:针对伪装目标检测(COD)中目标与背景纹理高度相似导致边界本质模糊,以及现有各种特征方法因边界约束不足常产生断断续续预测的问题,本文提出了具备动态耦合边缘-纹理感知能力的ESCNet框架。该框架的核心创新在于三个协同工作的组件:自适应边缘-纹理感知器(AETP),其融合Transformer全局语义的图像多尺度特征,创建了边缘与纹理信息相互协同引导的边缘预测机制;双流特征增强器(DSFA)则依据局部纹理复杂度和边缘方向动态调整核采样位置,精准强化不规则边界和非定型纹理区域的特征信息;多特征调制模块(MFMM)通过增强边缘感知表征及层级融合多种纹理,为特征校准与模型预测建立了渐进细化的优化过程。这些组件相互关联构成一个闭环反馈系统,增强的边缘感知提升纹理预测,而优化的纹理信息亦反哺边缘感知。在三大权威数据集上的实验充分验证了ESCNet的显著性能优势。
该论文第一作者是厦门大学信息学院2024级硕士生叶胜,通讯作者是林贤明助理教授,由2023级硕士陈馨、张岩工程师、曹刘娟教授等共同合作完成。
02

简介:数据异质性问题,包括本地数据的非独立同分布和全局长尾分布,是联邦学习面临的主要挑战之一,也是其性能与集中式学习存在显著差距的关键原因。已有研究认为,特征表示不足和分类器偏差是主要瓶颈,并提出了受神经坍塌启发的合成单纯形ETF方法,但这些方法依然难以真正达到神经坍塌,与集中式训练仍有较大差距。为此,本文从self-bootstrap的角度出发,提出了FedYoYo方法——“你是自己的最佳老师”。我们通过增强自蒸馏,在本地弱增强和强增强样本间进行知识蒸馏,无需额外数据集或模型,有效提升了特征表示能力。同时,引入分布感知的Logit调整,进一步平衡self-bootstrap过程,纠正特征偏差。FedYoYo显著缩小了与集中式学习的性能差距,即使在复杂异质性场景下也能接近集中式表现。大量实验表明,FedYoYo取得了当前最优效果,在全局长尾分布下,甚至比集中式Logit调整方法高出5. 4%。
该论文的第一作者是厦门大学23级硕士生严珊珊、通讯作者是卢杨助理教授,由李则熹(剑桥大学,浙江大学)、吴超(浙江大学)、庞孟(南昌大学)、严严教授、王菡子教授共同合作完成。
03
Few-ShotImageQualityAssessmentviaAdaptationofVision-LanguageModels
简介:图像质量评估(ImageQualityAssessment,IQA)因其复杂的失真条件、多样的图像内容以及有限的可用数据,至今仍是计算机视觉领域一个尚未解决的挑战。现有的盲IQA(BIQA)方法严重依赖广泛的人工标注来训练模型,由于创建IQA数据集的要求高,这是劳动密集型和成本高昂的。为了减轻对标记样本的依赖,本文提出了一种梯度调节元提示IQA框架(GRMP-IQA)。该框架旨在将强大的视觉-语言预训练模型CLIP快速迁移至下游IQA任务,显著提高在数据有限的场景下的准确性。GRMP-IQA包括两个关键模块:元提示预训练模块和质量感知梯度正则化。前者利用元学习范式对软提示进行预训练,使其学习跨不同失真类型的共享元知识,从而实现对各类IQA任务的快速适应;后者则在目标任务微调过程中调整更新梯度,引导模型聚焦于质量相关的特征,以防止对图像的语义信息产生过拟合。实验结果表明,GRMP-IQA在少样本设定下表现优异。此外,仅用20%的训练数据,其表现即可超越大多数现有的全监督BIQA方法。
该论文第一作者是厦门大学人工智能研究院2023级硕士生李旭东,通讯作者是张岩工程师,由郑侠武副教授、曹刘娟教授、纪荣嵘教授等共同合作完成。
04
OracleFusion:AssistingtheDeciphermentofOracleBoneScriptwithStructurallyConstrainedSemanticTypography
简介:甲骨文是最早的古代语言之一,它封装了古代文明的文化记录和知识表达。尽管发现了大量的甲骨字,但只有一部分甲骨字被破译。未破译甲骨字具有复杂的结构和抽象的图像,对破译构成了重大挑战。为了应对这些挑战,本文提出一种两阶段语义排版框架OracleFusion。在第一阶段,利用具有增强空间感知推理(SAR)的多模态大型语言模型分析甲骨文的字形结构并执行关键组件的视觉定位。在第二阶段,提出了甲骨结构向量融合方法(OSVF)。该方法结合字形结构约束和字形维护约束,确保生成语义丰富的矢量字体。大量的定性和定量实验表明:OracleFusion在语义、视觉吸引力和字形维护方面优于基线模型,显著提高了甲骨字的可读性和美学质量。此外,OracleFusion还提供了关于未破译甲骨字的专家级见解,使其成为推进甲骨文破译的宝贵工具。
该论文的共同第一作者是厦门大学信息学院2023级硕士生李曹硕、安阳师范学院丁增茂和腾讯优图胡晓斌,共同通讯作者是金泰松副教授、腾讯优图罗栋豪和安阳师范学院李邦,由汪钺杰(腾讯优图)、吴运声(腾讯优图)、刘永革教授(安阳师范)、纪荣嵘教授等共同合作完成。
05
RALoc:EnhancingOutdoorLiDARLocalizationviaRotationAwareness
简介:现有基于隐式表达的激光雷达定位方法对旋转敏感,容易导致定位精度显著下降。针对以上问题,本文提出旋转感知增强的户外点云视觉定位方法-RALoc。RALoc设计了点云规范化模块,通过有效提取等变特征将输入点云转换至规范方向,有效消除旋转对点云定位的干扰。此外,本文构建了双向激光雷达定位数据集(BiLiLo),为评估大旋转变化场景下的定位性能提供基准平台。该方法可显著提升大规模复杂户外场景下激光雷达点云的定位精度。这项成果攻克了成像方向干扰难题,提升了激光雷达视觉定位的可用性,赋能#城市空间/#无人驾驶/#低空经济应用。
该论文第一作者是厦门大学信息学院2023级硕士生杨煜阳、2021级博士生李文,通讯作者是王程教授。并由敖晟助理教授、徐青山(南洋理工大学)、于尚书(东北大学)、郭宇、周寅(GACR&DCenter)、沈思淇长聘副教授共同完成。
06
Motal:Unsupervised3DObjectDetectionbyModalityandTask-specificKnowledgeTransfer
简介:无监督三维目标检测不使用标签监督进行三维目标的检测。现有无监督三维目标检测产生的伪标签无法同时保证目标分类和位置尺寸回归任务的性能,进而导致检测精度下降。为此,本文提出了基于模态和特定任务知识迁移的无监督三维目标检测方法——Motal。Motal首先将伪标签解耦为两组候选框。一组通过运动和图像外观先验提取目标分类信息,另一组通过几何先验提取目标回归信息。然后,Motal使用任务特定的掩码训练方法将所有知识迁移到一个学生网络中,实现分类与回归任务的双重提升。该方法可用于构建高效离线三维目标样本自动标注流程。
该论文第一作者是厦门大学信息学院2021级博士生吴海,通讯作者是温程璐教授。并由林宏伟、郭徐晟、XinLi(TexasA&MUniversity)教授、王明明(GACR&DCenter)、王程教授共同完成。
07
TowardsAdversarialRobustnessviaDebiasedHigh-ConfidenceLogitAlignment
简介:尽管深度神经网络在视觉任务中取得突破性进展,但在面对恶意构造的对抗性噪声时仍表现出脆弱性。近年来,逆对抗训练(InverseAdversarialTraining)通过生成高置信度样本,引导模型聚焦于更稳定的分类边界,成为提升鲁棒性的有效策略。尽管该方法取得初步成效,本文首次揭示其存在系统性注意力偏移:模型倾向于关注背景区域并依赖非因果性上下文线索,形成显著的虚假相关性依赖。为此,本文提出DHAT(DebiasedHigh-ConfidenceAdversarialTraining),从结构上矫正偏置信号。DHAT包含两项关键机制:去偏高置信logit正则化(DHLR)用于剔除背景激活引发的偏差信息,对齐对抗样本与去偏目标;前景logit正交增强(FLOE)在仿射空间中弱化背景主导性,引导模型聚焦因果前景区域。实验证明,DHAT在ImageNet-1K等多个基准上显著提升鲁棒性与泛化能力。
该论文第一作者是厦门大学信息学院2023级硕士研究生张珂嘉,通讯作者是罗志明副教授。由翁娟娟、李绍滋教授共同合作完成。
08
PretendBenign:AStealthyAdversarialAttackbyExploitingVulnerabilitiesinCooperativePerception
简介:现有的协同目标感知对抗攻击方法缺乏隐蔽性,由于不加区分地扰乱传输信息,产生大量误报,而这些误报很容易被基于共识的感知防御机制检测到。本文提出了一种新颖的隐蔽对抗攻击方法PretendBenign(PB),该方法利用协同感知机制的漏洞,使攻击者能够伪装成良性合作者。PB首先引入了攻击区域选择模块,根据置信度将感知区域划分为子区域,从而精确定位最佳攻击位置;然后利用多目标对抗扰动生成模块生成攻击信号,以此维持共识,赢得被攻击者的信任,从而影响协同目标感知的性能。该方法可用于提升多智能体协同目标感知的安全性。
该论文第一作者是厦门大学信息学院2024级硕士生林宏伟,通讯作者是温程璐教授。并由潘东屿、夏启明、吴海、沈思淇长聘副教授、王程教授共同完成。
09
IterativePromptRelocationforDistribution-AdaptiveVisualPromptTuning
简介:视觉提示学习旨在通过仅微调轻量化提示使预训练模型适应于下游任务。然而,现有提示方法通常在不同任务下不加区分地使用固定的提示分布,忽略了每个预训练层的提示需求在不同任务中存在显著差异。为此,本文提出了一种全新的视觉提示学习框架——PRO-VPT,旨在通过一个嵌套优化定义来实现提示分布的动态自适应。具体而言,本文基于嵌套优化定义设计了一种提示重定位策略,包含两个优化步骤:首先识别并剪枝惰性提示,随后通过决策将这些提示分配至最优层。通过将提示重定位结合于提示学习中,PRO-VPT能够以优化的形式动态学习各任务的最优提示分布,从而充分发挥提示的潜力。实验结果表明,PRO-VPT在多个下游任务中均显著优于现有方法。
该论文的第一作者是厦门大学2025级硕士生尚驰凯,共同通讯作者是卢杨助理教授与广东工业大学辜方清,由李梦柯(深圳大学)、张逸群(广东工业大学)、陈阵(中国科学院香港创新研究院)、吴锦林(中国科学院自动化研究所)、张晓明(香港浸会大学)等共同合作完成。
10

简介:AI生成内容(AIGC)技术的飞速发展,导致高度逼真的AI生成图像(AIGI)被滥用于传播虚假信息,对公共信息安全构成威胁。现有AI生成图像检测技术虽普遍效果良好,但存在缺乏可人工验证的解释依据以及对新一代生成技术(多模态大模型自回归生成图片范式)泛化能力不足这两大缺陷。为此,本文构建了大规模综合数据集Holmes-Set,其包含提供AI图像判定解释的指令微调数据集Holmes-SFTSet,以及人类对齐偏好数据集Holmes-DPOSet。本文还创新提出”多专家评审机制\“的高效数据标注方法,该方法通过结构化多模态大语言模型(MLLM)解释增强数据生成,并采用跨模型评估、专家缺陷过滤与人类偏好修正实现质量管控。同时,本文还提出一个HolmesPipeline三阶段训练框架:视觉专家预训练、监督微调和直接偏好优化,使多模态大语言模型适配AI生成图像检测任务,生成兼具可验证性与人类认知对齐的解释,最终产出AIGI-Holmes模型。推理阶段,本文还引入协同解码策略,融合视觉专家模型感知与MLLM语义推理,进一步强化泛化能力。在三大基准测试中的广泛实验验证了AIGI-Holmes的有效性。
该论文的共同第一作者是厦门大学人工智能研究院2023级硕士生周子寅和和腾讯优图研究员骆云鹏,通讯作者是孙晓帅教授,由吴远尘(腾讯优图)、鄢科(腾讯优图)、丁守鸿(腾讯优图)、吴运声(腾讯优图)、2021级博士生孙可、博士后研究员纪家沂、纪荣嵘教授等共同合作完成。
11
Task-AwarePromptGradientProjectionforParameter-EfficientTuningFederatedClass-IncrementalLearning
简介:近来,联邦增量学习因其在保护用户隐私的情况下实现连续学习而受到广泛关注。然而,现有工作常需训练整个模型,这在去中心化的联邦设置下带来较大的模型传输和训练负担。本文提出一种基于提示梯度投影的参数高效的微调方法,在有效缓解灾难性遗忘问题的同时,降低了模型训练和传输开销。该方法以visualprompts为基础,提出了“任务感知的提示梯度投影”和“双层提示回放”两个主要模块,前者有效避免对已学习知识的破坏,后者有效利用知识复盘,相辅相成,有针对性地缓解了灾难性遗忘问题。实验结果表明,我们的方法仅以基准方法1%的训练参数量,在相同主干框架下取得了5%的性能提升。
该论文第一作者是厦门大学信息学院2023级硕士生柯华龙,共同通讯作者是曲延云教授和张亚超助理教授,由2022级博士生施江鸣、王方勇(汉江实验室)、谢源教授(华东师范大学)共同合作完成。
12
Multi-SchemaProximityNetworkforComposedImageRetrieval
简介:组合图像检索(CIR)支持用户通过图像与文本的组合方式来检索目标图像,极大提升了表达检索意图的灵活性与准确性。然而,现有CIR方法仍面临两大挑战:其一,缺乏细粒度的显式视觉监督,导致模型难以实现高质量的多模态交互,难以充分理解参考图像与目标图像之间复杂的语义关系;其二,训练过程中往往忽视潜在的噪声负样本对,从而引入干扰,影响检索性能。针对这些问题,本文提出了多模态邻近网络(MAPNet),核心包括多模式交互模块(MSI)与松弛邻近损失函数(RPLoss)。其中,MSI利用文本描述作为隐式引导,在参考图像和目标图像中建立对象与属性之间的细粒度关联,提升图文语义理解能力;RPLoss则通过去噪与重加权策略,显著缓解噪声负样本的干扰,增强查询与目标图像的特征对齐能力。在CIRR、FashionIQ和LaSCo三个数据集上进行了大量实验结果表明MAPNet相较当前主流方法在多个指标上均表现出色,展现出强大的检索能力。
该论文第一作者是厦门大学人工智能研究院2022级博士生施江鸣,共同通讯作者是曲延云教授和华东师范大学谢源教授,由2023级硕士生尹祥博、2022级博士生陈烨赟、张亚超助理教授、张志忠(华东师范大学)等共同合作完成。
13
ASGS:Single-DomainGeneralizableOpen-SetObjectDetectionviaAdaptiveSubgraphSearching
简介:论文首次探索单源域泛化开集检测任务,直面“未知领域+未知类别”的双重挑战。本文提出了ASGS框架,其包含Subgraph-wiseUnknown-classLearning(SUL)与Class-wiseEmbeddingCompaction(CEC)两大模块:SUL通过自适应子图搜索先检测潜在未知样本并提取高阶结构子图,CEC则引入对比学习压紧类内嵌入分布,强化判别边界。实验结果显示,ASGS在同时存在域偏移和未知类别时,显著优于现有开集检测方法,验证了其具有对未知目标的感知与泛化能力。
该论文共同第一作者是厦门大学人工智能研究院2024级博士生袁与炫和信息学院2022级硕士生唐路垚,共同通讯作者是深圳大学陈超奇助理教授和黄悦教授,由陈轶鑫和丁兴号教授等共同合作完成。
14
WildSeg3D:SegmentAny3DObjectsintheWildfrom2DImages
简介:基于二维图像的交互式三维分割技术最近展现了令人印象深刻的性能。然而,当前的模型通常需要大量针对特定场景的训练才能准确地重建和分割物体,这限制了它们在实时场景中的适用性。本文提出一种前馈的交互式分割方法(WildSeg3D),能够在不同的环境中分割任意三维物体。这种前馈方法的一个关键挑战在于跨多个二维视图的三维对齐误差的累积,这会导致三维分割结果不准确。为了解决这个问题,本文提出了动态全局对齐(DGA)技术,通过使用动态调整函数来专注于图像中难以匹配的三维点,从而提高全局多视图对齐的准确性。此外,为了实现实时交互式分割,本文还引入了多视图组映射(MGM)方法,该方法利用对象掩码缓存来集成多视图分割并快速响应用户提示。WildSeg3D展现了跨任意场景的泛化能力,无需针对特定场景进行训练,与现有SOTA模型相比,在保证精度的前提下,很大提升了整体速度。
该论文第一作者是厦门大学信息学院2024级硕士生郭岩松,通讯作者是曹刘娟教授,由胡杰(新加坡国立大学)、2023级博士曲延松等合作完成。
15
DissectingGeneralizedCategoryDiscovery:MultiplexConsensusunderSelf-Deconstruction
简介:尽管广义类别发现(GCD)旨在弥合机器与人类在未知类别识别上的能力差距,但现有方法多聚焦于优化目标函数,忽视了视觉识别的组合本质。本文受人类认知过程启发——将物体分解为视觉基元并建立跨知识比较,提出了ConGCD框架。该框架通过语义重建构建面向基元的表示,利用解构过程绑定类内共享属性;同时模拟人类视觉处理中的偏好多样性,设计主导共识单元与上下文共识单元,分别捕获类别判别模式和内在分布不变量,并通过动态共识调度器优化激活路径,最终通过多重共识整合生成预测。实验表明,ConGCD在粗细粒度基准上均展现出有效性,作为共识感知范式实现了对GCD方法的即插即用兼容。
该论文共同第一作者是厦门大学信息学院2022级硕士生唐路垚和2023级硕士生黄焜泽,通讯作者是深圳大学陈超奇助理教授和黄悦教授,并由香港中文大学的学者共同参与完成。
16
Inter2Former:DynamicHybridAttentionforEfficientHigh-PrecisionInteractiveSegmentation
简介:本文提出了一种名为Inter2Former的交互式分割模型,旨在解决传统交互分割模型的CPU效率与分割精度难以兼顾的问题。所提模型通过优化计算资源的动态分配来提升性能:首先,该模型采用动态提示嵌入(DPE)与动态局部上采样(DLU),将计算量自适应地聚焦于目标所在区域;其次,利用动态注意力混合(DHA)和混合专家模型(HMoE),根据交互迭代中前一次分割结果的边界来动态调整计算复杂度,对CPU任务处理进行了深度优化。结果表明,Inter2Former在多个高精度交互分割基准上达到了最佳水平,同时在CPU设备上保持了较高的效率。
该论文第一作者为厦门大学信息学院2022级博士生黄有,通讯作者是张声传副教授,由2024级硕士生陈立超、博士后研究员纪家沂、曹刘娟教授、纪荣嵘教授等共同合作完成。
17

简介:本文提出了一个创新的框架,旨在让普通的目标检测器不仅能“看见”物体,更能“理解”正在发生的复杂事件。它通过结合大语言模型(LLM)的引导和符号推理来实现这一目标。其核心是一个“即插即用”的模块,无需进行昂贵的额外训练,可以直接与现有的物体检测器配合使用。该模块会自动分析检测到的物体之间的关联和模式,并由LLM引导,进而发现能够定义一个“事件”的逻辑规则。
该论文第一作者是厦门大学人工智能研究院2024级硕士生曾宇晖,通讯作者郑侠武副教授,由2024级硕士生吴豪翔、2023级硕士生聂文杰、沈云航(腾讯优图)、纪荣嵘教授等共同合作完成。
18
LanguageDecouplingwithFine-grainedKnowledgeGuidanceforReferringMulti-objectTracking
简介:本文提出了一种新颖的语言引导多目标跟踪方法DKGTrack,通过将自然语言表达解耦为局部描述与运动状态两部分,有效提升了模型对语言细粒度信息的理解能力,从而实现更精确的目标定位与持续跟踪。为增强语言引导下的目标识别能力,本文设计了静态语义增强模块(SSE),通过分层的跨模态特征交互机制强化区域级视觉语言对齐,获得更具判别性的目标表示;同时,提出的运动感知对齐模块(MPA)建模语言中的动态描述与目标轨迹之间的对应关系,提升了跨帧跟踪的一致性。该方法在多个RMOT基准上均取得了优异表现,验证了其在复杂场景中稳健跟踪能力。
该论文第一作者是厦门大学人工智能研究院2023级博士生黎光耀,通讯作者是王菡子教授,由2023级硕士生庄思萍、2022级硕士生简亚军、严严教授共同合作完成。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录