仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
来源:中山大学人机物智能融合实验室
近日,ICCV2025公布论文录用结果,中山大学人机物智能融合实验室共有16篇论文被录用。
ICCV作为计算机视觉领域的顶级学术会议,每两年举办一次,与CVPR(国际计算机视觉与模式识别会议)、ECCV(欧洲计算机视觉国际会议)并称为计算机视觉领域的三大顶级会议,具有极高的学术影响力。今年ICCV共收到11239份有效投稿,刷新历史记录,经过严格评审,最终仅接受2698篇论文,录用率为24%。
1
DreamFuse:AdaptiveImageFusionwithDiffusionTransformer
JunjiaHuang,PengxiangYan,JiyangLiu,JieWu,ZhaoWang,YitongWang,LiangLin,GuanbinLi
摘要:
图像融合旨在将前景物体与背景场景无缝融合,从而生成逼真和谐的融合图像。与现有直接将物体插入背景的方法不同,自适应交互式融合仍然是一项极具挑战性但又极具吸引力的任务。它要求前景能够根据背景环境进行调整或交互,从而实现更一致的融合。为了解决这个问题,我们提出了一种迭代式人机交互数据生成流程,该流程利用有限的初始数据和多样化的文本提示,生成涵盖各种场景和交互(包括放置、握持、佩戴和风格迁移)的融合数据集。在此基础上,我们提出了一种基于扩散变换器(DiT)模型的全新方法DreamFuse,用于生成包含前景和背景信息的一致和谐的融合图像。DreamFuse采用位置仿射机制将前景的大小和位置注入背景,通过共享注意力机制实现有效的前景-背景交互。此外,我们应用由人工反馈引导的局部直接偏好优化来改进DreamFuse,从而增强背景一致性和前景协调性。DreamFuse实现了和谐的融合,并泛化到基于文本的融合图像属性编辑任务。实验结果表明,我们的方法在多个指标上均优于最先进的方法。
2
BeyondtheDestination:ANovelBenchmarkforExploration-AwareEmbodiedQuestionAnswering
KaixuanJiang,YangLiu,WeixingChen,JingzhouLuo,ZiliangChen,LingPan,GuanbinLi,LiangLin
摘要:
具身问答(EQA)是具身智能中的一项挑战性任务,它要求智能体动态探索3D环境,主动收集视觉信息,并执行多步骤推理来回答问题。然而,当前的EQA方法在探索效率、数据集设计和评估指标方面存在严重局限性。此外,现有数据集经常引入偏差或先验知识,导致推理过程脱离真实的具身交互;而传统的基于边界的探索策略在复杂环境中表现不佳,且难以实现对任务相关区域的细粒度探索。为了应对这些挑战,我们构建了探索感知的具身问答基准EXPRESS-Bench,这是目前专为评估探索与推理能力设计的最大规模数据集。EXPRESS-Bench包含777条探索轨迹和2,044个问题-轨迹对。为了提高探索效率,我们提出了Fine-EQA,一种融合边界驱动与目标导向的混合探索模型,能够更有效地引导智能体前往与任务相关的区域。此外,我们还引入了一种全新的评估指标——探索-答案一致性(EAC),该指标通过衡量答案接地性与探索可靠性之间的一致性,确保评估的准确性。与最先进的EQA模型进行的大量实验比较,证明了我们的EXPRESS-Bench在推进具身探索和问题推理方面的有效性。
项目地址:https ://hcplab-sysu. github.io/EXPRESS-Bench/.
3
RoboPearls:EditableVideoSimulationforRobotManipulation
摘要:
在不同环境下的大规模演示数据的推动下,通用机器人操作策略的开发取得了重大进展。然而,收集真实世界演示的高成本和低效率阻碍了数据采集的可扩展性。虽然现有的仿真平台能够为机器人学习提供受控环境,但将模拟与现实差距弥合的挑战仍然存在。为了应对这些挑战,我们提出了RoboPearls,这是一个用于机器人操纵的可编辑视频模拟框架。RoboPearls基于3D高斯散布(3DGS)构建,能够从演示视频中构建照片级逼真、视图一致的模拟,并支持各种模拟操作,包括各种对象操作,由增量语义蒸馏(ISD)和3D正则化NNFM损失(3D-NNFM)等高级模块提供支持。此外,通过整合大型语言模型(LLM),RoboPearls通过灵活的命令解释和执行,以用户友好的方式自动化了模拟生产过程。此外,RoboPearls采用视觉语言模型(VLM)来分析机器人学习问题,以闭合仿真循环以提高性能。为了证明RoboPearls的有效性,我们在多个数据集和基准上进行了广泛的实验,包括RLBench、COLOSEUM、Ego4D和OpenX-Implementation,这些实验证明了我们令人满意的模拟性能。
4
CanWeAchieveEfficientDiffusionWithoutSelf-Attention?DistillingSelf-AttentionintoConvolutions
ZiYiDong,ChengxingZhou,WeijianDeng,PengxuWei,XiangyangJi,LiangLin
摘要:
当前基于U-Net或DiffusionTransformer(DiT)架构构建的扩散模型,通过基于Transformer的注意力机制,极大地推动了图像生成的发展。主流范式通常采用二次计算复杂度的自注意力机制来处理复杂图像中的全局空间关系,从而合成具有连贯视觉语义的高保真图像。与传统观点相反,我们系统的逐层分析揭示了一个有趣的差异:预训练扩散模型中的自注意力机制主要表现出局部注意力模式,与卷积归纳偏差非常相似。这表明,自注意力机制中的全局交互作用可能没有人们通常认为的那么重要。受此启发,我们提出∆ConvFusion模型,用金字塔卷积模块(∆ConvBlocks)取代传统的自注意力模块。通过将注意力模式提炼为局部卷积操作,同时保持其他组件不变,∆ConvFusion在生成质量不下降的前提下,达到了与Transformer架构相当的性能,并在计算效率上超越LinFusion达5. 42倍。
5
Free-MoRef:InstantlyMultiplexingContextPerceptionCapabilitiesofVideo-MLLMswithinSingleInference
KuoWang,QuanlongZheng,JunlinXie,YanhaoZhang,JinguoLuo,HaonanLu,LiangLin,FanZhou,GuanbinLi
摘要:
视频多模态大型语言模型(Video-MLLM)在视频理解任务中取得了显著进展。然而,受限于底层LLM的上下文长度限制,现有的Video-MLLM在长视频场景下通常表现不佳。为了理解更长的输入帧,常见的解决方案包括令牌压缩和流式推理技术,但这会牺牲特征粒度或推理效率。为了高效理解更长的帧序列,我们借鉴MoE的思路,提出了一种无需训练的方法Free-MoRef,它可以在一次推理过程中立即复用Video-MLLM的上下文感知功能。具体而言,Free-MoRef将视觉令牌重构为多个短序列,作为多参考输入。随后,我们引入MoRef-attention,在并行的多参考片段中聚合线索以生成统一的查询激活。在LLM的“影子层”处理后,我们设计了一个参考融合步骤,从并行片段中选取关键令牌,组成最终的混合推理序列,弥补MoRef-attention中未建模的跨参考视觉交互。通过拆分和融合长视觉令牌序列,Free-MoRef在推理多路复用上下文长度时,以更低的计算成本实现了性能提升,展现出强大的效率和有效性。在VideoMME、MLVU、LongVideoBench等基准上,Free-MoRef能在单张A100GPU上无需压缩地处理2倍至8倍更长的输入帧,并保持即时响应,带来显著性能提升,甚至超越了专门训练的长视频MLLM模型。
6
Sim-DETR:UnlockDETRforTemporalSentenceGrounding
JiajinTang,ZhengxuanWei,YuchenZhu,ChengShi,GuanbinLi,LiangLin,SibeiYang
摘要:
时序句子定位旨在在视频中准确定位与给定文本查询对应的时间片段,这一任务通常采用检测Transformer(DETR)方法来解决。然而,我们发现,为提升DETR性能而设计的常规增强策略在该任务中不仅无效,甚至可能适得其反。为此,我们进行了系统分析,识别出导致这种异常行为的根本原因:(1)来自相似目标片段的查询之间存在冲突;(2)全局语义与局部定位之间的张力导致查询内部冲突。基于上述发现,我们提出了一个简单但有效的基线方法——Sim-DETR,在标准DETR的解码器层中进行两项轻量修改:(1)根据查询之间的语义与位置重叠,约束其自注意力机制;(2)引入查询与帧的对齐操作,以连接全局与局部语境。实验结果表明,Sim-DETR能充分释放DETR在时序句子定位任务中的潜力,成为后续研究的强有力基线方法。
7
RoBridge:AHierarchicalArchitectureBridgingCognitionandExecutionforGeneralRoboticManipulation
KaidongZhang,RongtaoXu,RenPengzhen,JunfanLin,HefengWu,LiangLin,XiaodanLiang
摘要:
在具有多种任务的开放式场景中操作机器人是机器人学的一个重要研究和应用方向。虽然自然语言处理和大型多模态模型的最新进展提高了机器人理解复杂指令的能力,但在开放环境中,机器人操纵仍然面临着程序性技能困境和陈述性技能困境。现有的方法往往会损害认知和执行能力。为了应对这些挑战,在本文中,我们提出了RoBridge,这是一种用于通用机器人操纵的分层智能架构。它由一个基于大规模预训练视觉语言模型(VLM)的高级认知规划器(HCP)、一个作为符号桥梁的不变可操作表示(IOR)和一个多面手体现代理(GEA)组成。RoBridge保留了VLM的陈述性技能,并释放了强化学习的程序性技能,有效地弥合了认知和执行之间的差距。RoBridge在现有基线上表现出了显著的性能改进,在新任务上实现了75%的成功率,在每项任务仅使用五个真实世界数据样本的模拟到真实泛化中实现了83%的平均成功率。这项工作代表了在机器人系统中将认知推理与物理执行相结合的重要一步,为通用机器人操作提供了一种新的范式。
8
VLDrive:Vision-AugmentedLightweightMLLMsforEfficientLanguage-groundedAutonomousDriving
RuifeiZhang,WeiZhang,XiaoTan,SibeiYang,XiangWan,XiaonanLuo,GuanbinLi
摘要:
语言引导的自动驾驶在大型语言模型(LLMs)所具备的高级认知与推理能力推动下取得了最新进展。然而,当前基于LLM的方法仍面临关键挑战:(1)失败分析显示,频繁的碰撞与受阻主要源于视觉表征能力的不足,这仍是实现稳健驾驶性能的主要障碍;(2)LLM庞大的参数规模也带来了显著的部署难题。为解决上述问题,我们提出了VLDrive,这是一种结合轻量级多模态大模型(MLLM)架构与增强视觉模块的新方法。VLDrive通过一系列创新策略实现视觉令牌的紧凑表达,包括循环一致的动态视觉剪枝以及增强记忆的特征聚合机制。此外,我们还提出了一种距离解耦的指令注意力机制,以提升视觉与语言特征的联合学习效果,特别是在处理远距离视觉信息时。在CARLA模拟环境中的大量实验证明了VLDrive的有效性。值得注意的是,VLDrive实现了最先进的驾驶性能,同时将参数减少了81%(从7B到1. 3B),在闭环评估中,在微小距离、短距离和长距离下,驾驶得分分别大幅提高了15. 4%、16. 8%和7. 6%。
9
AdaDrive:Self-AdaptiveSlow-FastSystemforLanguage-GroundedAutonomousDriving
RuifeiZhang,JunlinXie,WeiZhang,WeikaiChen,XiaoTan,XiangWan,GuanbinLi
摘要:
将大型语言模型(LLMs)有效地集成到自动驾驶系统,需要在发挥其高级推理能力与保障实时性能之间取得平衡。现有方法要么过于频繁地调用LLM,造成过高的计算开销;要么采用固定调用策略,难以适应动态驾驶条件。为解决这一问题,我们提出AdaDrive——一种自适应协同的快慢框架,能够最优地判断LLM参与决策的时机与方式。(1)何时激活LLM:AdaDrive引入一种新颖的自适应激活损失函数,通过对比学习机制动态判断是否调用LLM,仅在复杂或关键场景中触发调用,从而避免不必要的计算资源浪费。(2)如何集成LLM辅助:AdaDrive不使用僵硬的二元激活函数,而是引入了一种自适应融合策略,该策略根据场景复杂性和预测置信度来调节连续、缩放的LLM影响,从而确保与传统规划器无缝协作。通过这些策略,AdaDrive构建了一个灵活、具备上下文感知能力的框架,在不影响实时性的前提下最大限度地提高决策准确性。大量语言引导自动驾驶基准测试表明,AdaDrive在驾驶准确性和计算效率方面均达到当前最先进水平。
10
LaneDiffusion:ImprovingCenterlineGraphLearningviaPriorInjectedBEVFeatureGeneration
ZijieWang,WeimingZhang,WeiZhang,XiaoTan,hongxingliu,YaoweiWang,GuanbinLi
摘要:
中心线图在自动驾驶中的路径规划中至关重要,传统上通常采用确定性方法进行学习。然而,这类方法往往缺乏空间推理能力,且在处理被遮挡或不可见的中心线时表现不佳。尽管生成式方法具有巨大潜力,但在该领域的探索仍较为有限。对此,我们提出了LaneDiffusion,一种用于中心线图学习的全新生成范式。LaneDiffusion创新性地在鸟瞰图(BEV)特征层面引入扩散模型,用于生成车道中心线的先验信息,而非直接预测向量化中心线。我们的方法集成了车道先验注入模块(LPIM)和车道先验扩散模块(LPDM),以有效构建扩散目标并管理扩散过程。随后,从注入先验的BEV特征中解码出向量化的中心线与拓扑结构。在nuScenes和Argoverse2数据集上进行的广泛评估表明,LaneDiffusion的性能显著优于现有方法,在细粒度点级指标(GEOF1、TOPOF1、JTOPOF1、APLS和SDA)上分别实现了4. 2%、4. 6%、4. 7%、6. 4%和1. 8%的提升,在分段级指标(IoU、mAPcf、DETl和TOPll)上分别实现了2. 3%、6. 4%、6. 8%和2. 1%的提升。这些结果确立了LaneDiffusion在中心线图学习中的领先性能,并为该任务中的生成模型研究提供了新的启示。
11
DreamLayer:SimultaneousMulti-LayerGenerationviaDiffusionModel
JunjiaHuang,PengxiangYan,JinhangCai,JiyangLiu,ZhaoWang,YitongWang,XinglongWu,GuanbinLi
摘要:
近年来,基于扩散模型的文本驱动图像生成受到广泛关注。为了实现更灵活的图像操作与编辑,相关研究已从单幅图像生成拓展至透明图层生成与多图层合成。然而,现有方法往往未能对多层结构进行深入探究,导致层间交互(例如遮挡关系、空间布局和阴影)不一致。本文介绍了DreamLayer,这是一种新颖的框架,能够通过显式建模透明前景与背景图层之间的关系,实现连贯的文本驱动多图层图像生成。DreamLayer由三个关键组件组成:用于实现全局与局部信息的交互的上下文感知交叉注意力模块,用于建立稳健的图层间连接的图层共享自注意力模块,以及用于在潜在空间中细化图层融合细节的信息保留融合模块。DreamLayer利用一致的全图上下文信息,通过注意力机制构建图层之间的关联,并引入融合优化步骤,实现图层之间的自然融合。为推动多图层生成研究,我们还构建了一个高质量、多样化的多图层数据集,包含40万个样本。大量的实验和用户研究表明,DreamLayer能够生成更连贯、更对齐的图层,并具有广泛的适用性,包括潜在空间图像编辑和图像到图层的分解。
12
DeepShield:FortifyingDeepfakeVideoDetectionwithLocalandGlobalForgeryAnalysis
YinqiCai,JichangLi,ZhaolunLi,WeikaiChen,RushiLan,xixie,XiaonanLuo,GuanbinLi
摘要:
深度生成模型的最新进展使得人脸视频的篡改变得更加容易,由此引发了有关其在诈骗与虚假信息传播中被滥用的严重担忧。现有的检测器通常在领域内场景中表现良好,但由于依赖于特定于伪造对象的伪造数据,因此无法在各种篡改技术中推广。在本研究中,我们提出了一种新颖的深度伪造检测框架DeepShield,它平衡了局部敏感度和全局泛化能力,从而提高了对未知伪造数据的鲁棒性。DeepShield通过两个关键组件增强了CLIP-ViT编码器:局部块引导(LPG)和全局伪造多样化(GFD)。LPG应用时空伪造建模和块级监督来捕获全局模型经常忽略的细粒度不一致性。GFD则引入领域特征增强机制,利用跨域特征生成与边界扩展策略合成多样伪造样本,从而缓解过拟合问题并提升跨域适应能力。通过整合新颖的局部和全局深度伪造检测分析,DeepShield在跨数据集和跨操作评估中优于最先进的方法,实现了对未见深度伪造攻击的卓越鲁棒性。
13
FakeRadar:ProbingForgeryOutlierstoDetectUnknownDeepfakeVideos
ZhaolunLi,JichangLi,YinqiCai,JunyeChen,XiaonanLuo,GuanbinLi,RushiLan
摘要:
在本文中,我们提出了FakeRadar,这是一种新颖的深度伪造视频检测框架,旨在解决现实场景中跨域泛化的挑战。现有的检测方法通常依赖于特定于操作的线索,在已知的伪造类型上表现良好,但在新兴的伪造技术方面却表现出严重的局限性。这种较差的泛化能力源于它们无法有效地适应未知的伪造模式。为了解决这个问题,我们利用大规模预训练模型(例如CLIP)主动探测特征空间,明确地突出真实视频、已知伪造和未知操作之间的分布差距。具体而言,FakeRadar引入了伪造异常值探测,它采用动态子簇建模和簇条件异常值生成,在估计子簇边界附近合成异常样本,从而模拟已知操作类型之外的新型伪造。此外,我们设计了异常值引导的三重训练(Tri-Training),利用提出的异常值驱动的对比学习和异常值条件交叉熵损失,优化检测器以区分真实、虚假和异常样本。实验表明,FakeRadar在各种深度伪造视频检测基准数据集上的表现均优于现有方法,尤其是在跨领域评估中,能够有效应对各种新兴的伪造技术。
14
GeoSplatting:TowardsGeometryGuidedGaussianSplattingforPhysically-basedInverseRendering
KaiYe,ChongGao,GuanbinLi,WenzhengChen,BaoquanChen
摘要:
最近的3D高斯泼溅(3DGS)表示在新视角合成任务中展现出卓越的性能。此外,基于3DGS的材质-光照解耦能力也为重光照以及更广泛的应用提供了可能。虽然后者的通用方法在于集成可微分的基于物理的渲染(PBR)技术来联合恢复BRDF材质和环境光照,但由于准确建模光传输的挑战,实现精确的解耦仍然是一项固有的艰巨任务。现有方法通常近似高斯点的法线,这构成了隐式几何约束。然而,它们通常存在法线估计不准确的问题,从而降低光传输性能,导致材质分解噪声和有缺陷的重新光照结果。为了解决这个问题,我们提出了GeoSplatting,这是一种新颖的方法,它通过显式几何指导增强3DGS,以实现精确的光传输建模。通过基于可优化网格以可微分方式构建基于表面的3DGS,我们的方法充分利用了定义明确的网格法线和不透明网格表面,并进一步促进了基于网格的光线追踪技术的应用,从而实现高效且可感知遮挡的光传输计算。这项增强功能确保了精确的材质分解,同时保留了3DGS的高效性和高质量渲染能力。跨不同数据集的全面评估证明了GeoSplatting的有效性,凸显了其卓越的效率和一流的逆向渲染性能。
15
GlassWizard:HarvestingDiffusionPriorsforGlassSurfaceDetection
WenxueLi,TianYe,XinyuXiong,JinbinBai,FeilongTang,WenxuanSong,ZhaohuXing,LieJu,GuanbinLi,LeiZhu
摘要:
玻璃表面检测(GSD)是计算机视觉中的一项关键任务,可实现与透明表面的精确交互并提高安全性和物体识别的准确性。然而,当前的研究在识别性能和泛化能力方面仍然面临挑战。得益于近年来先进的基于扩散的生成模型,GSD任务可以受益于预先训练的稳定扩散(SD)模型中封装的丰富先验知识。因此,在本文中,我们提出了GlassWizard,旨在收获基于扩散的模型中的先验,以实现准确和具备良好泛化能力的GSD。首先,我们深入研究SD中的文本嵌入空间以构建基于文本的上下文先验,从而增强对玻璃隐式属性的理解并实现细粒度预测。其次,我们采用一步式流程训练端到端扩散模型,实现有效优化和快速推理。此外,为了使我们的适配框架能够扩展到其他多模态GSD任务(例如RGB-D/RGB-TGSD),我们提出了一种模态定制的适配方案,可以快速适应多模态GSD任务。实验结果表明,我们提出的框架在不同数据集上均实现了领先的性能,并展现出强大的泛化能力。此外,它在多模态GSD任务中表现出色,证明了其在不同模态下的可扩展性。
16
DriveMM:All-in-OneLargeMultimodalModelforAutonomousDriving
ZhijianHuang,ChengjianFeng,BaihuiXiao,Fengyan,ZEQUNJIE,YujieZhong,XiaodanLiang,LinMa
摘要:
大型多模态模型(LMM)通过整合大型语言模型,在自动驾驶(AD)中表现出卓越的理解和解释能力。尽管取得了进步,但当前的数据驱动AD方法往往专注于单个数据集和特定任务,忽视了它们的整体能力和泛化能力。为了弥合这些差距,我们提出了DriveMM,这是一种通用的大型多模式模型,旨在处理各种数据输入,如图像和多视图视频,同时执行广泛的AD任务,包括感知、预测和规划。最初,该模型经过课程预训练,以处理各种视觉信号并执行基本的视觉理解和感知任务。随后,我们增强和标准化了各种与AD相关的数据集,以微调模型,从而为自动驾驶提供了一个一体化的LMM。为了评估总体能力和泛化能力,我们对六个公共基准进行了评估,并在一个看不见的数据集上进行了零样本传输,其中DriveMM在所有任务中都实现了最先进的性能。我们希望DriveMM能够成为现实世界中未来端到端自动驾驶应用的有前景的解决方案。
项目地址:https ://github. com/zhijian11/DriveMM
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~