刚刚，CVPR 2025奖项出炉：牛津&Meta博士生王建元获最佳论文，谢赛宁摘年轻研究者奖

发布日期: 2025-06-13

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

机器之心报道
机器之心编辑部
刚刚，在美国田纳西州纳什维尔举办的CVPR2025公布了最佳论文等奖项。
今年共有14篇论文入围最佳论文评选，最终5篇论文摘得奖项，包括1篇最佳论文、4篇最佳论文荣誉提名。此外，大会还颁发了1篇最佳学生论文、1篇最佳学生论文荣誉提名。
根据会方统计，今年大会共收到4万多名作者提交的13008份论文。相比去年（11532），今年的投稿数量增长了13%，最终有2872篇论文被接收，整体接收率约为22. 1%。在接收论文中，Oral的数量是96（3. 3%），Highlights的数量是387（13. 7%）。
计算机视觉技术的火热给大会审稿带来了空前的压力。本届投稿作者数量、论文评审者和领域主席（AC）数量均创下新高。
今年前来现场参会的学者也超过9000人，他们来自70余个国家和地区。
CVPR官方公布了各个细分领域的论文接收情况，如下图所示。可以看到，图像与视频生成领域今年度的论文接收数量最多，而接收率最高的领域则是基于多视角和传感器的3D以及基于单图像的3D。
此次，最佳论文奖委员会成员中有AI圈非常熟悉的ResNet作者何恺明。
最佳论文
VGGT：VisualGeometryGroundedTransformer
CVPR2025的最佳论文来自牛津大学、MetaAI，提出了一种基于纯前馈Transformer架构的通用3D视觉模型，其能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及3D点轨迹等核心几何信息。
作者：JianyuanWang，MinghaoChen，NikitaKaraev等
机构：牛津大学，MetaAI
链接：https ://arxiv. org/abs/2503. 11651
HuggingFace：https ://huggingface. co/spaces/facebook/vggt
下图为架构概览。无需任何后处理优化，该模型已经在多个3D任务中性能显著超越传统优化方法与现有SOTA模型，推理速度可达秒级。这一研究打破了过去3D任务依赖繁琐几何迭代优化的传统范式，展示了「越简单，越有效」的强大潜力。
论文第一作者王建元为牛津大学视觉几何组（VGG）与MetaAI的联合培养博士生（博士三年级），他长期致力于3D重建方法研究。
他的博士工作聚焦于端到端几何推理框架的创新，曾主导开发了PoseDiffusion、VGGSfM，以及本次提出的通用3D基础模型VGGT，相关成果均发表于CVPR、ICCV等顶级会议，推动了数据驱动式3D重建技术的演进。
王建元同样作为第一作者的研究VGGSfM曾被CVPR2024接收，并收录为Highlight论文。
今年3月，机器之心专栏曾介绍过VGGT研究，更多详情请参阅：《3D基础模型时代开启？Meta与牛津大学推出VGGT，一站式Transformer开创高效3D视觉新范式》
最佳论文荣誉提名
论文1：MegaSaM:Accurate,Fast,andRobustStructureandMotionfromCasualDynamicVideos

机构：GoogleDeepMind，加州大学伯克利分校，密歇根大学
链接：https ://arxiv. org/abs/2412. 04463
项目：https ://mega-sam. github.io/
该论文提出了一个系统，能够从日常的单目动态视频中准确、快速且稳健地估计相机参数和深度图。大多数传统的运动恢复结构和单目SLAM技术都假设输入视频主要为静态场景，且存在大量视差。在缺乏这些条件的情况下，此类方法往往会产生错误的估计。近期基于神经网络的方法试图克服这些挑战。然而，此类方法在处理相机运动不受控制或视野未知的动态视频时，要么计算成本高昂，要么性能脆弱。
该论文展示了一个深度视觉SLAM框架的惊人有效性：通过对其训练和推理方案进行精心修改，该系统可以扩展到现实世界中相机路径不受约束的复杂动态场景视频，包括相机视差较小的视频。在合成视频和真实视频上进行的大量实验表明，与之前和同期的研究相比，该系统在相机姿态和深度估计方面显著提高了准确性和稳健性，并且运行时间更快或相当。
从随意捕获的动态场景的单目视频中，MegaSaM可以准确、快速和稳健地估计相机和场景结构。
论文2：NavigationWorldModels
作者：AmirBar,GaoyueZhou,DannyTran,TrevorDarrell,YannLeCun
机构：MetaFAIR，纽约大学，伯克利人工智能研究中心
链接：https ://arxiv. org/pdf/2412. 03572
项目：https ://www. amirbar.net/nwm/
这也是我们之前曾报道过的一项研究成果。整体而言，LeCun团队的这项导航世界模型（NWM）研究的贡献包括：提出了导航世界模型和一种全新的条件扩散Transformer（CDiT）；相比于标准DiT，其能高效地扩展到1B参数，同时计算需求还小得多；使用来自不同机器人智能体的视频和导航动作对CDiT进行了训练，通过独立地或与外部导航策略一起模拟导航规划而实现规划，从而取得了当前最先进的视觉导航性能；通过在Ego4D等无动作和无奖励的视频数据上训练NWM，使其能在未曾见过的环境中取得更好的视频预测和生成性能。
更多详情请参阅《LeCun团队新作：在世界模型中导航》。
论文3：3DStudentSplattingandScooping
作者：JialinZhu，JiangbeiYue，贺飞翔、HeWang
机构：伦敦大学学院（UCL），利兹大学
链接：https ://arxiv. org/abs/2503. 10148
近年来，3D高斯泼溅（3DGaussianSplatting，3DGS）为新型视图合成提供了一个新的框架，并掀起了神经渲染及相关应用领域的新一轮研究浪潮。随着3DGS逐渐成为众多模型的基础组件，任何对3DGS本身的改进都可能带来巨大的收益。本文中，研究者致力于改进3DGS的基本范式和构成。
研究者认为，作为非正则化的混合模型，它既不需要是高斯分布，也不需要是泼溅。为此，他们提出了一个新的混合模型，该模型由灵活的学生分布组成，兼具了正密度（Splatting）和负密度（Scooping）特性。
研究者将该模型命名为StudentSplattingandScooping（SSS）。SSS在提供更好表达能力的同时，也为学习带来了新的挑战。因此，他们还提出了一种新的原则性采样优化方法。
根据对多个数据集、设置和指标的详尽评估和比较，研究者证明了SSS在质量和参数效率方面均优于现有方法。下图为本文方法与现有基线的比较。
论文4：MolmoandPixMo:OpenWeightsandOpenDataforState-of-the-ArtVision-LanguageModels
作者：MattDeitke,ChristopherClark,SanghoLee,RohunTripathi,YueYang等
机构：艾伦人工智能研究所，华盛顿大学，宾夕法尼亚大学
链接：https ://arxiv. org/pdf/2409. 17146
项目：https ://allenai. org/blog/molmo
同样，这也是一篇我们曾经报道过的论文，其中提出了可比肩当时前沿模型的开源模型。其实现在也是如此，当今最先进的视觉语言模型(VLM)仍然是专有的。最强大的开放权重模型严重依赖来自专有VLM的合成数据来实现良好的性能，这样才能有效地将这些封闭的VLM蒸馏为开放的VLM。因此，社区一直缺乏关于如何从头构建高性能VLM的基础知识。
而该团队推出的Molmo就为此做出了贡献。这是一个全新的VLM系列，在同类开放模型中处于领先地位。该研究的主要贡献是一组名为PixMo的新数据集，其中包括一个用于预训练的高精度图像字幕数据集、一个用于微调的自由格式图像问答数据集以及一个创新的2D指向数据集，所有这些数据集均无需使用外部VLM即可收集。
实际上，该方法的成功依赖于谨慎的模型选择、经过精心调优的训练流程，以及他们新收集的数据集的质量。实际效果也非常不错，他们开源的72B模型不仅在开放权重和数据模型方面胜过其他模型，而且还胜过更大的专有模型，包括Claude3. 5Sonnet、Gemini1. 5Pro和Flash，在学术基准和大量人工评估方面均仅次于GPT-4o。
更多详情，请访问《号称击败Claude3. 5Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scalinglaw》。
最佳论文候选名单
除了这些获奖论文，CVPR官方也公布了获奖论文的候选名单。这些论文同样值得一看，比如商汤及南洋理工S-Lab合作的论文「TacoDepth」为雷达-相机深度估计提供了新思路，而英伟达的FoundationStereo则是一个旨在实现零样本泛化能力的用于立体深度估计的基础模型。
感兴趣的读者请访问这里查看详情：
https ://cvpr. thecvf.com/virtual/2025/events/AwardCandidates2025
最佳学生论文
NeuralInverseRenderingfromPropagatingLight
作者：AnaghMalik、BenjaminAttal、AndrewXie、MatthewO’Toole、DavidB. Lindell
机构：多伦多大学、VectorInstitute、CMU
论文地址：https ://arxiv. org/pdf/2506. 05347
论文主页：https ://anaghmalik. com/InvProp/
本文提出了首个基于物理的多视角动态光传播神经逆渲染系统。该方法依赖于神经辐射缓存的时间分辨扩展——这是一种通过存储从任意方向到达任意点的无限反射辐射来加速逆向渲染的技术。由此产生的模型能够准确地计算直接和间接光传输效应，并且当应用于从闪光激光雷达系统捕获的测量结果时，能够在强间接光存在的情况下实现最先进的三维重建。此外，本文还演示了传播光的视图合成、将捕获的测量结果自动分解为直接和间接分量，以及诸如对捕获场景进行多视图时间分辨重新照明等新功能。
本方法相较于基线方法能够重建更精确的法线信息，并在强度图像还原方面达到相当或更优的质量。
最佳学生论文荣誉提名
GenerativeMultimodalPretrainingwithDiscreteDiffusionTimestepTokens
作者：KaihangPan,WangLin,ZhongqiYue,TenglongAo,LiyuJia,WeiZhao,JunchengLi,SiliangTang,HanwangZhang
机构：浙江大学，南洋理工大学，北京大学，华为新加坡研究中心
链接：https ://arxiv. org/pdf/2504. 14666
项目页面：https ://ddt-llama. github.io/
近期，多模态大语言模型（MLLMs）的研究致力于通过结合大语言模型（LLM）和扩散模型来统一视觉的理解与生成。现有的方法依赖于空间视觉token，即图像块按照空间顺序（例如光栅扫描）进行编码和排列。然而，该团队发现空间token缺乏语言所固有的递归结构，因此对于大语言模型来说，这是一种无法掌握的语言。
针对此问题，该团队构建了一种合适的视觉语言，可通过利用扩散时间步来学习离散的、递归的视觉token。
该团队提出的token可随着时间步的增加，递归地补偿噪声图像中逐渐损失的属性，使扩散模型能够在任何时间步重建原始图像。这种方法能够有效地整合大语言模型在自回归推理方面的优势以及扩散模型在精确图像生成方面的优势，在一个统一的框架内实现无缝的多模态理解和生成。
其他奖项
年轻研究者奖
本次大会颁发了两个年轻研究者奖，获奖者为加州大学圣迭戈分校副教授HaoSu和纽约大学计算机科学助理教授谢赛宁。该奖项每年颁发给在计算机视觉领域做出杰出研究贡献的年轻研究人员，不过这些研究人员获得博士学位算起不能超过七年。
HaoSu，北京航空航天大学应用数学博士、斯坦福大学数学与计算机科学博士，目前在加州大学圣迭戈分校担任副教授（兼职）。他的研究领域涵盖了计算机视觉、计算机图形学、机器学习和通用人工智能以及机器人技术。去年，他参与创办了一家名为Hillbot的机器人公司，并担任CTO。目前，他的论文被引量已超过12万。
谢赛宁2013年本科毕业于上海交通大学；2018年，他在加州大学圣迭戈分校的计算机科学与工程系获得博士学位，主要研究方向为深度学习和计算机视觉。之后，他曾任Facebook人工智能研究室（FAIR）研究科学家，并在2022年和WilliamPeebles合作发表了DiT论文，首次将Transformer与扩散模型结合到了一起。目前谢赛宁的论文被引量已经超过7. 5万。
Longuet-Higgins奖
Longuet-Higgins奖可以理解为时间检验奖。今年的奖项颁给了两篇论文。
第一篇是ChristianSzegedy、WeiLiu、贾扬清等人2015年发表在CVPR上的「GoingDeeperwithConvolutions」（隶属谷歌）。
这篇论文提出了著名的深度卷积神经网络架构Inception，它在2014年ImageNet大规模视觉识别挑战赛（ILSVRC2014）中达到了分类和检测领域的新高度。该架构的主要特点是提高了网络内部计算资源的利用率。
这也是贾扬清被引次数最多的论文，已经超过6. 7万次。

这篇论文的关键在于它开创性地建立了一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络。在这篇文章中，作者定义了全卷积神经网络(FCN)的空间结构、解释了FCN在空间密集型预测任务上的应用并且给出了他与之前其他网络之间的联系。它启发了很多后续研究。
目前，这篇论文的引用量已经超过4. 9万。
ThomasS. Huang纪念奖
ThomasS. Huang纪念奖于CVPR2020设立，并于CVPR2021起每年颁发，以表彰在研究、教学/指导和服务计算机视觉领域中被认可为典范的研究人员。该奖项旨在纪念已故的ThomasS. Huang（黄煦涛）教授，他是一位在计算机视觉和图像处理等多个领域留下深刻影响的先驱学者，也是为社区几代研究人员的成长和福祉做出贡献的典范。
该奖项每年颁发一次，授予获得博士学位至少7年的研究人员，最好是在职业生涯中期（不超过25年）。所有计算机视觉领域的研究人员都将被考虑。该奖项包括3000美元的现金奖励和一块奖牌。
今年的获奖者是德克萨斯大学奥斯汀分校计算机科学系的教授KristenGrauman，她领导着该大学的计算机视觉研究组。
CVPR2025还将持续到本周日，我们会保持跟进。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com