模型眼中的世界是黑白的吗?GPT-4竟不如开源模型?颜色理解成模型新短板
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
模型眼中的世界是黑白的吗?——颜色理解为何重要
人类通过颜色感知世界——比如红灯停绿灯行、通过皮肤颜色判断健康状态,甚至艺术品中的情感表达都依赖颜色。但对模型来说,颜色可能是个“盲区”。
这篇论文指出,现有的视觉语言模型(VLMs)虽然在识别物体、回答问题上表现优异,但颜色理解能力却被长期忽视。比如,模型能否分辨西红柿是红色还是绿色?能否通过卫星图像的颜色判断植被覆盖?这些问题直接关系到LLM在医疗、遥感、自动驾驶等领域的实用性。
为了让VLM通过“颜色考试”,研究者设计了ColorBench——包含1,448道题目的综合测试,覆盖三大能力:
颜色感知:识别颜色、提取色值(如RGB代码)
颜色推理:计算颜色占比、识破“颜色伪装”(比如迷彩动物)
颜色鲁棒性:抵抗颜色干扰(如整张图片变红后能否正确答题)
测试题目设计贴近现实场景,比如分析画作主色调、解读医疗试纸颜色、识别卫星图像中的植被分布等。
论文评估了32个主流VLM模型(包括GPT-4o、Gemini等),结果让人意外:
大模型不一定更强:虽然整体上模型越大表现越好,但语言模型比视觉编码器更重要(比如GPT-4的视觉模块可能不够敏感)。
所有模型都“偏科”:在基础颜色识别任务上表现尚可(60%以上准确率),但在需要推理的任务(如计算颜色占比)中,准确率接近随机猜测(55%)。
鲁棒性堪忧:当图片颜色被篡改时,多数模型表现大幅下降。例如GPT-4o的鲁棒性仅有46%,而最好的开源模型达到84%。
论文揭示了VLM颜色理解的“迷惑行为”:
颜色反成干扰:在“颜色幻觉”任务中(比如背景色干扰物体颜色判断),AI表现反而在图片变黑白后提升!这说明AI容易被颜色误导。
推理能救场:让模型“多想想”(加入思维链提示),准确率平均提升3.65%。但某些任务(如颜色幻觉)反而会因过度推理出错。
颜色盲点:在色盲测试任务中,多数模型表现极差(准确率<30%),甚至不如人类色盲患者。
论文为模型颜色理解指明方向:
视觉模块需加强:当前模型的视觉编码器规模普遍较小(3-4亿参数),需探索更大规模的视觉模型。
数据与训练优化:需增加颜色相关的训练数据,比如色值提取、颜色推理任务。
应用场景延伸:医疗影像分析、卫星图像解译、艺术创作等领域将直接受益于模型颜色理解的提升。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦