又有实验室中了11篇ICCV 2025论文


又有实验室中了11篇ICCV 2025论文

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
转载自:华中科技大学VLRLab实验室
第20届ICCV国际计算机视觉大会论文录用结果近日揭晓,华中科技大学VLRLab实验室共11篇论文被ICCV2025录用。
ICCV,英文全称InternationalConferenceonComputerVision,中文全称国际计算机视觉大会,这个会议是由IEEE主办的全球最高级别学术会议,每两年在世界范围内召开一次,在业内具有极高的评价。ICCV2025将于2025年10月19日-10月23日在美国夏威夷举办,ICCV2025共有11239份投稿,录用2698篇,录取率为24%。实验室录用论文简要介绍如下(按第一作者姓氏首字母排序):
Part1
LLaVA-KD:AFrameworkofDistillingMultimodalLargeLanguageModels
简介:大语言模型(LLMs)的成功推动了多模态大模型(MLLMs)在视觉与语言统一理解方面的发展。然而,大规模多模态模型(l-MLLMs)日益增长的模型规模与计算复杂度,限制了其在资源受限场景中的应用。尽管小规模多模态模型(s-MLLMs)能够降低计算开销,但往往面临性能下降的问题。为缓解这一限制,本文提出了一种新颖的LLaVA-KD框架,将l-MLLMs的知识迁移到s-MLLMs。具体而言,我们引入了多模态蒸馏(MDist)以传递教师模型在视觉和语言模态下的鲁棒表征,以及关系蒸馏(RDist)以传递教师模型捕捉视觉token间关系的能力。此外,本文提出了三阶段训练方案,以充分发挥所提蒸馏策略的潜力:1)蒸馏预训练,增强s-MLLMs中视觉-语言表征的对齐;2)有监督微调,赋予s-MLLMs多模态理解能力;3)蒸馏微调,进一步优化s-MLLM的知识。我们的方法在不改变模型结构的前提下,显著提升了s-MLLMs的性能。大量实验和消融研究验证了各个组件的有效性。
该论文第一作者是博士生蔡雨萱,指导老师:白翔、何新卫,其他合作者:张江宁,何昊阳,童奥,甘振业,汪铖杰,薛竹村,刘勇。
Part2
ORION:AHolisticEnd-to-EndAutonomousDrivingFrameworkbyVision-LanguageInstructedActionGeneration
简介:受限于因果推理能力有限,端到端(E2E)自动驾驶方法在闭环评估中仍然难以做出正确的决策。目前的方法试图借助视觉-语言模型(VLMs)强大的理解和推理能力来解决这一困境。然而,由于VLM推理空间的语义特征和动作空间中纯粹数值表示之间存在差距,导致很少有适用于E2E方法的VLMs能在闭环评估中表现出色。为解决这一问题,本文提出了ORION,通过视觉-语言指导的动作生成实现端到端自动驾驶框架。ORION结合了QT-Former来提取场景信息,大型语言模型(LLM)用于驾驶场景推理,生成式规划器用于精确轨迹预测。ORION进一步使推理空间和动作空间对齐,以实现视觉问答(VQA)和规划任务的统一端到端优化。本文的方法在Bench2Drive数据集上实现了卓越的闭环性能,驾驶得分为77. 74,成功率为54. 62%,相较于最先进的(SOTA)方法,分别以14. 28的驾驶得分和19.61%的成功率的巨大优势领先。
该论文第一作者是硕士生付好宇,指导老师:白翔,其他合作者:张点堃、赵宗闯、梁定康。
Part3
Multi-scenarioOverlappingTextSegmentationwithDepthAwareness
简介:在OCR研究领域,重叠文本对文本相关感知任务构成显著挑战,现有研究多局限于文档场景,难以适用于多场景需求。为此,本文提出多场景重叠文本分割新任务,构建覆盖印刷文本、艺术设计等多场景的数据集,并设计分层训练数据合成策略HSOT,以模拟多样化重叠模式。同时,基于深度图能提供三维空间相对位置关系的洞察,提出深度引导解码器,通过融合图像与深度特征捕捉复杂重叠交互。实验表明,该模型在多场景重叠文本分割中表现优异,有效提升了模型对重叠文本的理解与分割能力,为解决多场景重叠文本问题提供了新思路。
该论文第一作者是硕士生刘洋,指导老师:刘禹良、白翔,其他合作者:谢旭东。
Part4
LIRA:InferringSegmentationinLargeMulti-modalModelswithLocalInterleavedRegionAssistance
简介:在多模态理解与分割任务中,当前多模态大模型仍面临两大挑战:目标分割不准确与描述内容幻觉。为此,本文提出LIRA框架,基于视觉理解与像素级分割之间的互补关系,通过两个关键组件提升模型性能:(1)语义增强特征提取器(SEFE),融合高层语义与像素特征,显著提升了属性推理与分割精度;(2)局部交错视觉耦合机制(ILVC),结合分割区域提取局部特征并生成对应描述,实现区域级显式监督,缓解幻觉问题。实验证明,LIRA在分割与理解任务中均取得了SOTA性能,为多模态模型的语义对齐与精细分割提供了新范式。
该论文第一作者是硕士生李长,指导老师:刘禹良、白翔,其他合作者:杨彪、张朔、马智寅、尹亮、邓菱儿。
Part5
Describe,AdaptandCombine:EmpoweringCLIPEncodersforOpen-set3DObjectRetrieval
简介:本文聚焦于3D模型检索领域的前沿问题,提出了一种基于大规模预训练模型CLIP的轻量级适配框架——DAC,旨在解决开放场景下3D对象检索中的类别泛化难题。当前的开放集3D对象检索方法通常依赖复杂的多模态输入(如点云、体素等)进行匹配与检索,而DAC则充分挖掘CLIP在自然图像上的强大表征能力,仅以多视角图像作为输入,并通过低秩适应(LoRA)策略进行高效微调。该过程仅需少量已知类别即可完成适配,显著提升了检索精度的同时也保证了方法的轻量化与实用性。同时为避免微调过程中对已知类别的过拟合,DAC引入了可学习且与输入无关的加性偏置(additivebias),从而在提升已知类检索性能的同时,有效保留模型对未知类别的泛化能力。此外,DAC进一步引入文本模态以辅助检索。具体而言,DAC借助多模态大模型为每个3D对象生成文本描述。这些描述提供了丰富的语义属性信息,显著增强了模型对未知类别的识别与特征匹配能力。
该论文第一作者是硕士生王之川,指导老师:何新卫、白翔、王玉龙,其他合作者:刘哲、俞睿、柏松。
Part6
AnimateAnyMesh:AFeed-Forward4DFoundationModelforText-DrivenUniversalMeshAnimation
简介:本文提出了AnimateAnyMesh,首个通用mesh驱动的4D前馈模型,在效率和驱动效果上远远超过了目前的单场景优化/多阶段方法,能够对于任意输入mesh,在几秒内通过用户给定的驱动指令生成高度逼真的动态物体/场景。AnimateAnyMesh主要由两部分构成:负责顶点轨迹压缩的DyMeshVAE和负责轨迹分布学习的Text-to-TrajectoryRectifiedFlowModel。前者通过形状/轨迹解耦,以及论文提出的一种拓扑感知的注意力机制,和动静协同编码,实现了变长mesh轨迹的高质量压缩和重建;后者基于MMDiT构建了基于形状和文本共同监督的轨迹分布学习网络,并采用基于RectifiedFlow的训练/推理策略学习轨迹特征的后验分布。另外,由于目前动态mesh数据集的缺失,文中提出了包含超过4M动态mesh序列的数据集DyMesh数据集。结合以上数据和方法,AnimateAnyMesh在人物、动物、植物、组合物体甚至场景上都能够实现逼真的驱动效果,在效率上更是大大超越了现有的方法,为meshanimation提供了新的范式。
该论文第一作者是博士生吴子杰,指导老师:白翔,其他合作者:于超辉,王帆。
Part7
简介:多模态大语言模型在文档理解中表现出色,然而,其推理过程仍主要处于黑箱状态,难以确保其在法律、金融和医疗等高风险领域的可靠性与可信度。现有基于固定思维链和监督微调的方法存在灾难性遗忘和泛化能力差的问题。本文提出DocThinker,一种基于规则的强化学习框架,在推理时动态优化策略,能够生成可解释的中间结果,包括推理步骤、改述的问题、感兴趣区域和最终答案。通过引入多目标奖励函数与KL约束,提升了模型的适应性与可解释性。
该论文第一作者是博士生余文文,指导老师:白翔、刘禹良,其他合作者:杨志博。
Part8
ReCamMaster:Camera-ControlledGenerativeRenderingfromASingleVideo
简介:本文提出了条件视频生成模型ReCamMaster,该模型能将输入视频按照新指定的相机轨迹进行重新运镜。用户只需提供任意视频并设定新的拍摄路径,即可实现视频的重新运镜。其技术创新在于充分利用视频生成基座模型的通用能力,并创新性地设计了条件视频注入机制,使模型在保持基础性能的同时能够深入理解场景内容,从而精准合成符合预设轨迹的运镜效果。实验证明该方案显著超越现有方法,并展现出卓越的泛化性能。研究团队同时发布了高品质的多机位同步拍摄数据集MultiCamVideo-Dataset,并开源了相关代码与数据
该论文第一作者是博士生白健弘,指导老师:夏孟涵,胡浩基,白翔,其他合作者:付潇,王鑫涛,牟联瑞,曹晋文,刘佐珠,万鹏飞,张迪
Part9
TowardsComprehensiveLectureSlidesUnderstanding:Large-scaleDatasetandEffectiveMethod
简介:在在线教育领域,讲座幻灯片作为核心教学资源,对学习效果具有重要影响,但目前对于幻灯片的理解研究仍存在不足,尤其是缺乏大规模数据集和综合性的理解任务。为此,本文提出了一个新的研究方向,构建了包含15个领域、25,542场讲座和370,078张幻灯片的LecSlides-370K数据集,并设计了讲座总结和讲座问答(QA)两项任务,以从不同角度促进对幻灯片的理解。同时,针对幻灯片内部复杂文本关系对理解逻辑的阻碍问题,我们提出了一种名为SlideParser的新方法,通过预测幻灯片内文本关系并增强相关文本之间的注意力,提升幻灯片的理解效果。实验结果表明,该方法在幻灯片理解任务中表现出色,有效提高了幻灯片理解的准确性和效率,为在线教育中幻灯片理解的研究提供了新的思路和方法。
该论文第一作者是硕士生张恩铭,指导老师:朱盈盈、白翔、刘禹良,其他合作者:黎宇哲。
Part10
Training-freeGeometricImageEditingonDiffusionModels
简介:近年来,随着高保真图像生成技术的重大突破,可控图像生成成为计算机视觉领域的研究热点,其核心目标是实现图像的精准交互式修改。本文聚焦于极具挑战性的图像几何编辑任务,旨在对图像中的物体进行精准重定位、重定向及形状变换,同时维持场景的视觉一致性。现有基于拖拽交互的编辑方法多采用单阶段优化策略,虽在中小尺度变换中表现良好,但难以处理大尺度或复杂三维几何变换。其核心挑战源于三大耦合任务的相互制约:(1)精确的物体几何变换,(2)高质量的源区域内容修复,(3)目标区域与场景的一致性融合。针对以上挑战,本文创新性地提出了图像几何编辑框架FreeFine,通过任务解耦与模块创新,构建了支持二维、三维场景统一的无训练优化编辑框架,为复杂几何变换提供了高效解决方案。
该论文第一作者是本科生朱翰绅,指导老师:白翔、朱臻,其他合作者:张凯乐。
Part11
HERMES:AUnifiedSelf-DrivingWorldModelforSimultaneous3DSceneUnderstandingandGeneration
简介:本文介绍了一个名为HERMES的统一驾驶世界模型(DWM),旨在同时实现三维场景理解和未来场景生成,以解决现有驾驶世界模型仅限于场景生成而缺乏场景理解能力的局限性。HERMES通过整合鸟瞰图(BEV)表示来融合多视角空间信息,并引入世界查询机制,将世界知识通过大语言模型(LLM)中的因果注意力融入BEV特征,有效弥合了理解与生成任务之间的鸿沟。该模型在nuScenes和OmniDrive-nuScenes数据集上达到了最先进的性能,将生成误差降低了32. 4%,并在理解任务中将CIDEr指标提高了8. 0%。
该论文第一作者是本科生周鑫,指导老师:白翔,其他合作者:梁定康,涂思凡,陈习武,丁宜康,赵恒爽。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录