仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
CVPR’2025的投稿数量增长了13%,共收到来自全球4万多名作者的13,008篇论文。
毫无意外,竞争愈演愈烈,但除了这一总体趋势之外,深入研究该项目还会发现,学术界目前关注的领域有限。特定领域的进展已经让位于新的研究重点,从而吸引了更多关于新主题的论文。
今天简单聊聊今年最火的三大热门话题:
1. 3DfromMulti-ViewandSensors
2. ImageandVideoSynthesis
3. MultimodalLearning,andVision,Language,andReasoning
近年来,多视角和传感器的3D技术为CVPR带来了大量的投稿,其原因很简单:基于图像的研究已经从探索单幅图像或2D渲染发展到更复杂的3D评估领域。
关于这点,CVPR’25项目联合主席、美国俄勒冈州科瓦利斯俄勒冈州立大学副教授李福欣表示:“自2020年NeRF[ 1]首次发布以来,使用深度网络进行3D重建的趋势一直存在。现在我们有了Gaussiansplatting[ 2],这进一步推动了这一趋势”。
不同于CV和NLP领域早在深度学习起来之后便持续爆火,图形学其实一直处于“哑火”状态,不温不热。
这一切的开始归功于2020年NeRF的推出,为这个领域开辟了新的研究方向。
NeRF,全称NeuralRadianceFields,即神经辐射场,由UCBerkeley联合Google等机构提出,是一种基于神经网络的3D表示和新视角合成方法。它的核心思想是使用一个多层感知机(MLP)来隐式建模整个场景的密度和颜色分布,从而实现任意角度的真实感图像渲染。
NeRF不直接输出图像,而是通过对每个像素方向进行体积渲染积分,估算光线穿过场景的颜色与透明度。给定一个输入光线,它会在3D空间中采样多个点,并将这些点的空间坐标和观察方向输入到神经网络中,最终得到颜色与密度,进而合成图像。
其主要优点是:
•渲染质量高,细节还原逼真;
•能在稀疏图像数据(如几十张)下重建连续的3D表示;
•推动了大量基于神经场的后续研究(如Mip-NeRF、Instant-NGP、DynNeRF等)。
但NeRF的缺点也很明显:训练和渲染速度慢,难以实现实时应用。这也促使研究者不断寻找更快、更高效的替代方案——GaussianSplatting的提出就是其中的一个关键转折点。
GaussianSplatting不再像NeRF那样使用体积渲染积分,而是直接使用3D高斯分布(Gaussians)作为基本渲染单元。
每个点被建模为一个可变形、可透明、带颜色和密度的3D高斯球体,这些Gaussians被投影到图像平面并“splat”上去,再通过加权合成最终图像。
VGGT[ 3]是由牛津大学VGG组和MetaAI在今年CVPR’25上最新发表的一种全新的端到端3D重建方法。
VGGT是一种前馈神经网络,能够从一张或多张图像中直接预测场景的所有关键3D属性,包括:相机参数(内参与外参)、深度图、点云图和3D点轨迹。
与传统的3D重建方法(如运动恢复结构SfM算法)依赖多阶段几何优化不同,VGGT仅通过单次前向传播即可完成上述任务,且在高端GPU上的处理时间通常不到一秒。
VGGT的提出标志着3D重建方法从传统的几何优化向纯神经网络方法的转变。它简化了3D重建流程,降低了计算成本,同时提高了处理速度和准确性。这为实时应用(如增强现实、机器人导航)和大规模场景重建(如城市建模、文化遗产数字化)提供了新的可能性。
随着研究的不断发展,我们能够以视频和图像格式生成更精确的环境表征。该领域的探索已成为CVPR2025论文的焦点,而图像和视频合成已成为今年大会上最大的类别之一。
正如CVPR2025项目联合主席、麻省理工学院副教授PhillipIsola所言,商业聊天机器人正变得多模态,不仅能分析和生成文本,还能分析和生成图像甚至视频,未来甚至有望生成完整的交互式世界。CVPR上展示的图像、视频和世界合成方法正为这类技术铺平道路。
还记得这个经典的视频合成案例吗?当时刚出来时,网上一堆人非常不看好,说这玩意压根不靠谱。仅仅过了两年,我们经历了从Sora、Runway、Kling到谷歌放出的最强Veo3视频生成模型。
下面有几个值得重点关注的趋势:
DiffusionModels已成为图像和视频生成领域的核心技术,通过逐步从噪声中去噪来生成高质量、高逼真度的视觉内容。
目前大部分工作主要围绕提升计算效率、生成质量和可控性三方面。例如,通过改进噪声调度、模型架构(如DiT-DiffusionTransformers)以及训练策略(如渐进式蒸馏、混合建模)来优化性能。
因此,高效视频扩散模型和长视频生成必然是一个趋势。
以OpenAI的Sora为代表的先进模型,展示了从文本描述生成长达一分钟、高保真度、高连贯性视频的惊人能力。这些模型通常采用Transformer架构处理时空图像块的潜在编码,并能处理不同时长、分辨率和宽高比的视频及图像数据。
Sora等模型的出现,被认为是构建物理世界通用模拟器的一条有前景的路径。对这类模型的深入研究,包括其内部机制、数据管理、训练方法以及如何克服其局限性(如物理交互的精确模拟、复杂运动的连贯性等)必将是热点。
除了生成质量,另一方面对生成过程的精细控制也日益重要。这包括通过文本、草图、姿态、运动轨迹、相机参数等多种模态输入来指导生成。
例如,一些研究专注于生成特定角色、特定动作或特定风格的视频,并保持身份一致性。另外一部分相当的工作是对已生成视频进行编辑,如风格转换、对象替换、背景修改等,也是重要的研究方向。
当前许多SOTA模型计算成本高昂,实时生成仍具挑战。因此,研究如何加速视频生成过程,例如通过模型蒸馏、量化、稀疏注意力机制等方法,是一个重要趋势。
同时,如何生成更长(数分钟甚至更长)、叙事连贯的视频内容,也是需要努力突破的方向。比如今年CVPR上有一些工作是通过分层方法、更好的长程依赖建模来实现。
很多人热衷于提出新算法,但其实一个好的基准集对业内的发展也是至关重要的,像ImageNet便极大的推动了计算机社区的蓬勃发展。此外,随着生成模型能力的增强,如何全面有效地评估其性能变得越来越重要。
这里,新的基准测试(如VBench-2. 0[ 4])被提出来,旨在更细致地评估视频生成模型在各种维度上的表现,包括人类保真度、创造力、物理一致性等。
过去两年,LMMs和VLMs是研究焦点,它们通常基于强大的预训练模型构建而成,展现出在多种视觉语言任务上的卓越性能,如视觉问答(VQA)、图像/视频描述生成、视觉定位、图文检索和图文生成等。
本次CVPR2025的研讨会也强调了下一代LMMs和视觉-语言-动作(VLA)系统的重要性。研究趋势包括如何更有效地融合不同模态的信息,提升模型的跨模态理解和生成能力,以及探索更高效的训练方法和模型架构(ARorDiffusion)。
Reasoning技术旨在超越简单的模式识别和描述生成,近期,研究者们正致力于让模型具备更深层次的推理能力。这包括基于视觉内容的常识推理、数学推理、程序化学习以及更复杂的场景理解和事件预测。
另外,一个显著的趋势是VLMs正在越来越多地替代大量的CV任务,正如GabrieleBerton所观察到的,这与LLMs在NLP领域整合各个子领域的方式相似。VLMs凭借其结合视觉信息和语言理解的能力,在如OCR等任务上已经达到了SOTA水平,并且有望在更多任务中实现SOTA表现。
尽管VLMs在许多方面展示出更优的性能和潜力,但在一些对速度和效率要求极高的传统视觉任务(例如物体检测和分割)中,专门的、轻量级的纯视觉模型(如YOLO)目前无论在速度和精度上仍具有绝对优势,VLMs的延迟问题仍是研究者需要持续关注和优化的方向,如最近发布的SmolVLM[ 5]。
EmbodiedAI让AI智能体能够在物理世界中进行感知、交互和执行任务,是多模态学习的重要应用方向。这要求模型不仅能理解视觉和语言指令,还能将这些理解转化为实际的动作。
其中,以VLA为代表的模型是实现这一目标的关键,它们能够处理视觉输入,理解语言指令,并规划和执行动作序列。
今年会议上也有大量关于机器人导航、操作、人机交互以及3D场景理解与语言结合的研究。
现实世界是动态且不断变化的,模型需要具备在开放环境中识别未知概念、适应新场景并持续学习的能力。
关于“开放世界多模态学习”,本质上就是关注模型如何处理未标记数据、区分已知与未知类别,并动态扩展其概念认知范围。
随着LMMs在全球范围内的广泛应用,确保其对不同文化价值观和视角的包容性变得至关重要。
因此,研究如何开发具有地理多样性和文化意识的视觉语言模型,以及如何评估和减轻模型中的偏见,同样也是一个新兴且重要的研究方向。
今天简单总结了一些对CVPR2025上三大热门研究方向及其发展趋势,主要展现了计算机视觉领域正在经历的重要转型:从传统的2D图像处理向3D场景理解跨越,从单模态向多模态融合发展,从学术研究向实际应用转化。个人认为,这三个方向并非孤立发展,而是相互促进的。例如,3D技术为视频生成提供了空间理解基础,多模态学习则将视觉和语言能力整合到具身智能系统中。这种融合趋势预示着未来的AI系统将更加贴近人类的感知和交互方式,能够在真实世界中进行有效的理解、创造和行动。