超越DINOv2! 英伟达开源PS3:让视觉大模型'看清'世界!(附论文及源码)


超越DINOv2! 英伟达开源PS3:让视觉大模型’看清’世界!(附论文及源码)

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

以下文章来源于微信公众号:码科智能
作者:码科智能
链接:https ://mp.weixin.qq.com/s/HIG46aYRJdpe8rizj4NrUQ
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
在视觉AI中,分辨率决定了细节表现,尤其是小目标检测。英伟达成功将视觉预训练扩展到4K分辨率,几乎不增加计算开销,并推出多模态模型VILA-HD,相较Qwen2-VL准确率提升3.2%,推理速度提升3倍。
做过AI视觉任务的都知道,分辨率是决定模型性能的关键因素。还记得那个经典问题:”如何提升小目标检测精度?”知乎高赞回答简单粗暴:”把小目标放大就行了!”
初看像句玩笑,细想却是真理。小目标检测的痛点,本质就是细节丢失。当目标被大幅压缩,目标就像被打上马赛克,模型想不”脸盲”都难。
那直接提升分辨率不就可以了?计算成本先教你做人!视觉模型的复杂度随分辨率二次方暴涨,这就是目前所有主流的视觉基础模型如DINOv2等,仍然在低分辨率上进行预训练的原因。
今天我们来聊聊视觉基础模型如何突破分辨率限制的问题,从而提升提取细节特征的理解能力,英伟达研究团队最近开源了一项突破性成果:将视觉预训练扩展到4K分辨率,且成本几乎保持不变。除此之外,团队还开源了基于4K分辨率的多模态大模型VILA-HD,相比于Qwen2-VL提升了3.2%的准确率并且实现了三倍的加速。
一、PS3:4K分辨率的视觉预训练
首先就是为什么要以4K分辨率进行预训练?答案就是:使用高分辨率图像进行预训练可以提升性能,因为它可以利用大规模预训练数据来学习高质量的高分辨率特征。而常规视觉模型(如SigLIP)处理低分辨率图像(如378×378像素),这对于许多日常任务(例如驾驶时识别停车标志)而言是远远不够的。
来看看在高清电脑桌面上低分辨率的RAM使用率的UI识别,以及在驾驶场景下标识牌识别的场景下,同样的各个模型只有在4K分辨率下才能准确回答,但是PS3的准确率要明显优于GPT-4o和Qwen2-VL:
其次就是英伟达团队怎么解决4K分辨率下计算复杂度的问题?团队发现,为了识别局部细节无需整图理解。于是提出局部对比学习的训练范式,使得PS3能够在没有额外开销的情况下将预训练分辨率提高到4K。例如,在上图中,你只需要查看标识牌标志就能回答这个问题。
SigLIP通过对比全局视觉特征和全局字幕进行预训练,这对于高分辨率图像来说成本较高。PS3预训练时,额外对比了局部高分辨率特征和局部字幕,使得4K分辨率的预训练成本比SigLIP低79倍。
以PS3为视觉编码器能够根据用户提示选择要处理的高分辨率区域。
二、基于PS3构建的多模态大模型
以PS3作为视觉编码器,能够高效处理高达4Kx4K的分辨率。VILA-HD的模型设计如下图所示:首先对于任何输入的图像和文本提示,使用PS3提取低分辨率图像特征,并将其与文本标记一起发送到LLM。然后标记的最后一层嵌入用于在PS3中选择高分辨率图像块,然后由PS3提取其特征,添加额外的位置嵌入,并发送到LLM。用户可以根据计算预算灵活地决定VILA-HD中需要处理的高分辨率块数量。
VILA-HD具备SOTA的性能和效率,与NVILA和Qwen2-VL等最先进的MLLM相比,VILA-HD在图表、文档、OCR和自然图像理解等所有基准测试中都实现了具有竞争力的性能,并在需要高分辨率感知的基准测试上创下了新的SOTA结果。
再来做下总结,本文提出的4K分辨率的基础模型PS3,通过局部-全局区域-标题对比来学习高分辨率感知。它对低分辨率全局图像进行编码,并选择性地仅处理信息丰富的高分辨率区域。最后再放一个动图来看下效果:
更多的消融实验,技术架构可以去原论文中寻找,分辨率的突破可能会给视觉大模型带来新的惊喜,让大模型能更清楚的看世界!
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录