阿里最新Qwen VLo,多角度测评来了!


阿里最新Qwen VLo,多角度测评来了!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

以下文章来源于微信公众号:Datawhale
作者:Eternity
链接:https ://mp. weixin.qq. com/s/r4gShdnjlVBMkukfMaRNhw
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
在图文生成日益重要的今天,本文对比评测了ChatGPT与QwenVLo在图像生成、指令理解、多模态任务等方面的表现,并结合Qwen2. 5-VL进行美学与遵循度分析,探索大模型的真实多模态能力边界。
笔者将基于ChatGPT、QwenVLo使用相同提示词生成图片,在此基础上使用Qwen2. 5-VL-32B-instruct从美学质量、指令遵循度、真实感角度进行评价。测试从复杂指令理解与多重任务、复杂指令理解与多重任务、图像检测及标注、多语言文字生成图像等角度展开,笔者人为加大了难度,测评结果仅代表大模型与个人观点,不代表雇主观点。
生成照片,图中男人带着黑帽子在地铁上看报纸,旁边是一个美丽的带红色墨镜年轻女性,还有一只=哈士奇,地铁的窗外是自由女神像,地铁的站牌显示“QwenVLo”
左:ChatGPT,右:Qwen
美学质量
第一张图片:构图平衡、色彩协调、细节丰富,整体氛围沉稳、视觉完成度高。
第二张图片:构图简单、色彩单一、细节粗糙,氛围轻松但略显平淡。
指令遵循
第一张图片:严格对应提示词的所有元素(人物、动作、服饰、动物、地铁场景等),无明显缺漏。
第二张图片:虽然包含主要元素,但细节存在偏差,如站牌文字不完整、人物表情不符合描述。
真实感
第一张图片:人物表情自然,环境与光影真实,动物细节处理精致,整体接近真实摄影。
第二张图片:人物表情夸张、环境简化、动物不真实,画面平面感强。
生成摆满水果的桌面
笔者注:本次生成结果,显然是Qw-en更胜一筹,以下是Qwen2. 5-VL-32B-instruct测评结果,仅供参考
美学质量:
维度
第一张图片
第二张图片
构图
果品分布对称、有序,整体构图均衡
摆放较为随意,缺乏明显的对称或结构
色彩搭配
多种水果色彩分明且相互衬托,整体色调明快
色彩丰富但偏暖,融合度较高,鲜艳度略低
细节处理
各类水果细节清晰(草莓籽、葡萄光泽等),层次感强
多数水果细节到位,部分(如橙子)光影处理较简单
桌面与背景
木质桌面纹理清晰,增强画面整体协调性
浅色桌面背景简洁,但纹理表现略少
指令遵循:
维度
第一张图片
第二张图片
多种水果是否齐全
包含葡萄、蓝莓、草莓、苹果、香蕉等丰富种类
包含苹果、橙子、葡萄、香蕉等,种类略少
是否“摆满”桌面
桌面密集覆盖水果,搭配碗盘,分布整齐
桌面水果分布较松散,部分直接置于桌面
是否使用桌面容器
多种容器,辅助整齐摆放
仅部分使用容器,整体布局较自由
桌面类型是否匹配
木质桌面,纹理清晰
浅色木质桌面,材质符合但细节较简略
真实感:
维度
第一张图片
第二张图片
水果细节
细节逼真,质感良好,如透明感、光泽、颗粒感等
多数细节表现良好,部分水果(如橙子)质感处理较弱
桌面质感
木质纹理清晰,色彩自然
桌面表现自然但细节略少
光影效果
高光与阴影过渡自然,增强立体感与材质表现
光影较为柔和,立体感与细腻度略逊一筹
ChatGPT4o在预测边缘检测图时,实际调用了Python代码,甚至还很贴心地给出了文字说明:可以更换不同的边缘检测方法。
左:输入,右:边缘检测图
Qwen直接给出了边缘检测图,中间是否涉及到工具使用就不得而知了。
为了公平比较,使用测试2中Qwen生成的图像测试模型分割图像的能力。
用橙色mask分割图中香蕉的边缘
ChatGPT依旧选择了使用工具,但基于HSV颜色空间的算法显然不太能够完成我们的任务。
尝试了2次,目前无法复原po中的生成结果。
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层
左:ChatGPT,右:Qwen
看到ChatGPT生成的结果,笔者感慨万千,硬要鸡蛋里挑骨头——苏打水体积是小于薯片罐的,但这需要常识或者根据互联网资料,仅从图片中也无法推理得到。那再给ChatGPT加点难度:
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层,下层购物篮放置1瓶苏打水、一罐洋葱味薯片
虽然多生成了一个四不像的东西,但甚至推理出了绿罐薯片是洋葱味的。
作为一个图形学博主(bushi),笔者使用ChatGPTo3根据光线追踪场景生成了一份中英文提示词用于测试多语言文字生成图像能力。
左:ChatGPT,右:Qwen
参考资料
QwenVLo:从“看懂”世界到“描绘”世界
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程(AI商机->项目签约->算法开发->产品开发->实施运维)中的各方面经验和踩过的坑。
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录