大模型能否代替专用视觉模型?GPT-4o、Qwen2-VL 对图像的理解能有多好?
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:码科智能
作者:码科智能
链接:https ://mp. weixin.qq. com/s/e47oXyY47sKnAlnQbTf2mw
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
随着多模态基础模型的兴起,研究者关注它们在传统视觉任务中能否媲美或超越专用模型。本文围绕这一疑问,系统评测了包括GPT-4o、Gemini等在内的多模态大模型在语义分割、目标检测等标准计算机视觉任务中的表现,从而揭示其真实能力!
做深度学习视觉算法和视觉大模型的同学们一定有个疑问:多模态基础模型除了通用性外,到底能打得过专用模型吗?今天我们来给出这个问题的答案,还会告诉你怎么用GPT-4o等MFM模型获取图像任务的预测结果!
GPT-4o、Qwen2-VL等多模态基础模型在需要联合视觉与语言能力的任务上表现出色,如图像描述、视觉问答和指令执行等。对应的,目前视觉基准测试大多都是针对文本相关的任务,其更多的是反应了模型的语言能力,并未揭示视觉理解的其他方面,如三维几何、目标检测或分割。
一、多模态基础模型能打得过专用模型吗?
直接上结论,多模态基础模型的表现:
1. 在任何任务上都无法与最先进的专家模型相提并论!基于图文任务进行训练的大模型的确是多面手,在语义任务上的表现明显优于几何任务,如GPT-4o在检测的AP指标可达0. 67,但在深度估计任务上指标只不到0. 4;
2. 在非推理类模型中,GPT-4o表现最佳,在6项任务中赢得了其中4项的第一名;另外提示词会影响模型的效果,但是更强的模型对提示变化的敏感度较低。在精度最接近专用模型的分类任务中,第一名的表现仍远不如ModelSoupsViT-G和OpenCLIPH等纯视觉模型!
3. 对具备图像生成能力的模型,它们倾向于生成语义重建而非精确编辑!对具备推理能力的模型在视觉几何任务中表现出了性能的提升。如GPT-4o的最新更新使其能够生成密集的图像输出,下图中幻觉为蓝色虚线标记,不准确的预测为绿色虚线标记!
二、多模态模型如何直接应用于密集预测任务的测试呢?
目前的大多数多模态模型被训练为输出文本,无法直接表达诸如分割或三维几何等多样化的视觉信息。
通过将标准视觉任务转化为可通过提示词链式调用的形式,从而使模型能够完成标准视觉任务,比如检测边界框,为复杂场景生成完整的分割掩码,从图像中提取类似SAM的语义实体等。
将物体检测任务分为两个阶段。首先,模型识别图像中的所有物体。然后,通过递归放大来定位每个物体。将图像划分为网格单元,并要求模型检查每个单元中是否存在物体的任何部分。模型会丢弃空单元,从而缩小搜索范围。通过同时使用粗网格和细网格,快速下采样并细化物体的边缘,从而精确定位其位置。
在语义分割任务中,目标是为图像中的每个像素分配一个类别标签。将图像划分为超像素,并创建超像素的“多尺度金字塔”。然后,使用模型对金字塔进行顺序分类,以生成完整的分割图。多尺度金字塔由三层组成:超像素的裁剪图、裁剪图周围的上下文图像以及完整图像。
三、如何上手测试大模型在你视觉任务中的效果?
目前代码已开源,可以直接安装使用。下面是一个简单的示例,使用所选的MFM模型为所有任务生成示例。以下代码片段演示了如何使用4o模型为所有任务生成示例:
输出如下图,得到语义分割、目标检测、图像分类、深度估计等任务的结果。
上述用到的taskit软件包,包含用于评估各种视觉任务中多模态基础模型的工具。
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程(AI商机->项目签约->算法开发->产品开发->实施运维)中的各方面经验和踩过的坑。
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!