真实文档理解有多难?GPT识别率暴跌35%!字节开源 WildDoc,完美弥补差异!


真实文档理解有多难?GPT识别率暴跌35%!字节开源 WildDoc,完美弥补差异!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

以下文章来源于微信公众号:码科智能
作者:码科智能
链接:https ://mp. weixin.qq. com/s/FbN8-3ahx6mHWCrxwwHwSg
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
多模态大模型虽擅长解析清晰文档,但在真实拍摄环境中仍面临挑战。字节跳动与华中科大发布的WildDoc数据集揭示了这一短板,并系统评估了主流模型在复杂文档场景下的表现。本文还介绍了多个文档理解基准及新兴解析工具,希望对大家有所帮助!
很多人认为多模态大模型已经能轻松看懂各种文档了。尤其是像GPT-4o、Qwen2. 5-VL、SEED1. 5-VL这类模型,在处理PDF扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。
但如果你把一份手机拍摄的发票照片、一张屏幕截图中的合同,或者一份带反光、褶皱、阴影的纸质表单交给它们处理,结果可能会让你大吃一惊。为什么呢?
因为当前大多数文档理解系统和基准测试,都建立在“干净”的扫描文档或数字文档基础上。而我们日常生活中遇到的真实文档远比这复杂得多,其中针对复杂图表解析的方案可参阅历史文章:PDF文档解析新突破:图表识别、公式还原、手写字体处理!
为了解决这个问题,字节跳动联合华中科技大学发布了WildDoc,这是首个专注于自然场景下文档理解能力评估的基准数据集。它收录了超过12,000张手动拍摄的真实文档图像,并通过不同光照、角度、变形等条件下的重复拍摄,来评估模型是否能在复杂环境下保持稳定输出。
令人震惊的是,在这一真实文档的考验中,GPT-4o的性能平均下降了35. 3%,其他主流MLLM表现也不理想。这说明了一个残酷的事实:当前的大模型在文档理解方面,不只是缺OCR,更缺对“真实世界”的理解和鲁棒性。
一、数据:文档理解基准测试有哪些?(下载链接见文末)
1. DocVQA数据集:是一个文档图像视觉问答数据集,旨在推动文档分析和识别领域的研究。数据来自UCSF行业文档库,涵盖了多种文档类型,如表格、表单、图表等。问题类型分为9种类型,包括表格/列表、表单、布局、手写等,需要理解文档的结构和内容。
2. ChartQA数据集:是一个大规模的图表问答基准数据集,专注于评估模型对图表的理解能力,特别是涉及视觉和逻辑推理的问题。其包含9608个人工编写的复杂推理问题。
主要任务要求模型根据图表图像(柱状图、饼图、折线图等)理解数据趋势并回答相关问题,这就需要结合视觉识别与逻辑推理,比如“哪一年的增长率最高?”、“X轴和Y轴的关系是什么?”
3. InfoVQA数据集:是一个用于评估信息图表理解能力的数据集,通过视觉问答技术来实现。数据主要从互联网上下载,涵盖了数千个不同的来源,具有多样的布局和设计。包含30,035个问题,涵盖5,485张信息图表。
4. WildDoc数据集:一个专注于现实世界文档理解的基准,包含超过12,000张手动拍摄的文档图像,利用了上述三个广泛使用的基准测试的文档来源,并重用了基准测试中现有的问答对,减少标注工作。
考虑到日常生活中遇到的各种场景,摄影因素选择了五个关键因素:环境、照明、视图、失真、效果。每个类别都有多种变化,每个文档在不同条件下采集四次,以充分模拟真实世界的复杂性。
二、测试:MLLM基准测试排行榜
基于WildDoc对多个具有代表性的MLLM进行实验评估,包括开源通用MLLM(如Qwen2. 5-VL)和闭源领先MLLM(如GPT-4o、Doubao-1. 5-pro)。实验结果表明:
与传统文档基准测试相比,现有MLLMs在WildDoc上的表现大幅下降,例如GPT-4o在三个子集上分别下降了28. 3、56. 4和21.3。现有MLLMs在文档理解方面表现出不足的鲁棒性,这从它们在一致性评估中的较低分数中可以看出,Doubao-1. 5-thinking-VL取得整体最优性能,Qwen2. 5-VL取得开源MLLM中最优性能。
三、延伸:复杂图表解析的多模态大模型
字节发布轻量级多模态推理模型Seed1. 5-VL,具备更强的通用多模态理解和推理能力,且具备了强大的OCR识别能力。即便是长度惊人、中英混杂的消费小票,也能分分钟转换成表格。可在Huggingface上体验Seed1. 5-VL,效果相当惊艳,特别是处理一些复杂表格。
合合信息发布的文档解析工具TextInParseX,表格识别能力强大,支持跨行合并、嵌套表格、带注释的复杂表格。并且能够识别文档中的信息,可将文档解析为Markdown格式,并按常见的阅读顺序进行还原,从而赋能下游各类大语言模型任务。迈向OCR新时代!PDF文档解析新突破!你可以点击阅读原文链接快速体验,直接上传文档进行测试,可免费处理1000页的文档。
四、文档理解应扩展到真实世界场景!
WildDoc的发布,让我们对文档理解模型的真实能力有了更清晰的认识,也为推动该领域的发展提供了新的动力。论文数据及源码如下:
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录