大模型数据处理方案全面综述:兼看视觉模型在推理过程中的认知偏差


大模型数据处理方案全面综述:兼看视觉模型在推理过程中的认知偏差

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

今天是2025年6月4日,星期三,北京,晴
我们继续来看一些有趣的数据和新发现。
一个是评测,结论表明,VLM实际上并不能“看见”,当它们看到熟悉的物体时,会默认使用记忆知识,而不是进行实际的视觉分析。比如,看到有3条腿的鸡的图片时,还是会回答是2条腿。
另一个,还是回到大模型的数据问题,有个大模型数据处理工程的经典总结,很有借鉴意义。
都是很有趣的工作。

结果表明,在热门主题图像计数方面实现了100%的准确率,例如,知道阿迪达斯标志有3条条纹,狗有4条腿。
但是在反事实图像计数方面准确率仅为~17。
例如,计算4条条纹的阿迪达斯标志中的条纹数,或计算5条腿的狗的腿数,例如下图:
又如:
上面的例子表明,视觉模型无法检测到反事实(CF)中的细微变化,并默认给出有偏差的答案。尽管视觉上进行了明显的修改(例如增加了腿、增加了条纹),但所有模型仍然一致地输出预期的“正常”值,而不是统计实际看到的内容。
既然有问题,那么如何进行更正?有两种方法,一种是再检查,另一种是优化prompt去偏见,但效果只是有些好转。
这其实引出来一个很有趣的点,视觉模型存在严重的确认偏差,VLM实际上并不能“看见”,当它们看到熟悉的物体时,会默认使用记忆知识,而不是进行实际的视觉分析。这并非一个小问题,而是这些模型处理视觉信息方式的根本缺陷。
也就是说,它是复杂的模式匹配系统,而非视觉推理系统,擅长识别熟悉的模式,但当这些模式稍有修改时,往往会失效。
这个跟之前我们所想的,多模态大模型并不真正理解文档有关,例如图标理解这些任务,其实很多都是看ocr信息,也有一些图片理解评测表明,其实大模型利用的不是图片本身的信息,把图片盖住,也能出正确结果。

需要特别提一嘴,里面的图,画的是真好看,很专业。
例如,对于整个数据处理流程的概览:
又如,整个数据处理框架的细分模块:
又如,大模型整个周期中的不同数据阶段:
又如,典型训练数据集的处理流程:
又如,数据过滤的一些常用手段:
这些对于增强我们对大模型各个阶段数据的处理是有直接收益的,可以作为一个指南。
1、https ://arxiv. org/pdf/2505. 18458
2、https ://vlmsarebiased. github.io
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录