仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:程序员涂陌
作者:TyCoding
链接:https ://mp.weixin.qq.com/s/cDALTMV8xwgApbGCvPqeXA
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
现代文档处理面临PDF解析难题,尤其是文本结构复杂的扫描文档。本文介绍olmOCR-7B,在25万页文档上微调Qwen2-VL-7B-Instruct,以高精度、高效能提取纯文本。相比GPT-4oAPI,其成本降低至1/32,并支持Markdown输出,在多种文档类型上均优于主流OCR方案。
olmOCR在250,000页的数据集上微调了Qwen2-VL-7B-Instruct模型,旨在将PDF和文档图像转换为干净且结构化的纯文本。
从预训练到推理,语言模型(LM)都在处理纯文本数据。无论是处理万亿级别的令牌训练,还是为数据密集型AI应用提供服务,这些文本的质量都至关重要。噪声文本会导致训练不稳定性和更差的模型性能,或在完成用户请求时产生较差的输出。
然而,并非所有LM使用的数据都以易于解析的格式(如网页)存在。事实上,在许多领域中,有价值的信息存储在电子文档文件(如PDF)中。这些格式由于设计用于在固定大小的页面上渲染内容而不是保留逻辑文本结构,因此带来了独特的挑战。以PDF为例:该格式将文本存储为字符编码序列,连同其在页面上的位置和格式化信息。虽然这种格式非常高效,但它使得恢复所有文本单元(如标题、段落、表格和方程)并按正确的顺序排列变得具有挑战性。
为了帮助处理电子文档,我们推出了olmOCR,这是一款高性能工具包,旨在将PDF和文档图像转换为干净且结构化的纯文本。olmOCR有何不同之处?
性能:我们在250,000页的数据集上微调了olmOCR,这些数据来自多样化的PDF集合。有些是数字原生的,而其他则是公共领域书籍的扫描副本。这确保了olmOCR能够准确地从各种文档中提取文本。
成本效益:使用olmOCR工具包处理一百万页PDF的成本约为190美元,大约仅为使用GPT-4oAPI批量处理相同数量页面成本的1/32。
Markdown输出:olmOCR以Markdown格式输出文本,便于解析和处理。它可以处理方程、表格和手写文字,并按照正确的阅读顺序处理最复杂的多列文档布局。
开箱即用:olmOCR是一个完全优化的管道,适用于SGLang和vLLM推理引擎。它从一个到数百个GPU都能高效扩展,并包括处理常见解析失败和元数据错误的启发式方法。
完全开源:olmOCR基于Qwen2-VL-7B-Instruct构建。我们发布了工具包的所有组件:模型权重,微调数据集,训练和推理代码。
查看olmOCR如何与比较其他领先的文档提取工具,并了解我们如何构建它。准备好试用后,请访问我们的GitHub仓库以在自己的项目中使用olmOCR。
比较olmOCR与其他领先文档提取工具在样本文档上的表现。使用下面的标签查看不同的输出,并查看处理质量的关键差异。
olmOCR
Marker
GOTOCR2.0
MinerU
一本包含方程式的微积分教科书。
olmOCR
Marker:
GOTOCR2.0
MinerU
olmOCR
Maker
GOTOCR2.0
MinerU
为了获取高质量的数据来训练olmOCR,我们开发了一种称为“文档锚定”的技术。这种方法利用PDF文件中的任何文本和元数据来提高提取文本的质量。
图1:文档锚定在典型页面上如何工作的示例
这种方法提取相关图像位置和文本块,进行拼接并插入到模型提示中。当提示VLM获取文档的纯文本版本时,会结合已锚定的文本和页面的栅格化图像。
使用文档锚定,我们使用GPT-4o对250,000页进行了标记。我们使用了从网络上爬取的公开可访问PDF以及互联网档案馆扫描的公共领域书籍的组合。数据集多样化,包含60%的学术论文、12%的小册子、11%的法律文件、6%的图表、5%的幻灯片和4%的其他文档类型。
为了训练模型本身,我们微调了一个Qwen2-VL-7B-Instruct检查点。我们精心优化了大规模批处理的推理管道,使用SGLang使olmOCR仅需190美元就能转换一百万页PDF——大约仅为使用GPT-4oAPI的成本的1/32。我们的结果显示不仅显著节省了成本,而且在人类评估中也优于其他流行的OCR工具。
图2:olmOCR与其它流行工具的ELO评分对比
我们通过将olmOCR的输出与其他流行的PDF提取工具(Marker、MinerU和GOT-OCR2.0)进行比较来评估olmOCR。我们收集了11名研究人员的成对判断。我们从2,017份PDF中采样并收集了452次有意义的比较,计算ELO评分以量化性能。olmOCR的ELO得分超过1800,显著优于所有竞争对手。在直接比较中,olmOCR在61.3%的比较中优于Marker,58.6%优于GOT-OCR,令人印象深刻的是在71.4%的比较中优于MinerU,展示了其在生成干净、结构良好的文本方面的优越能力。
你可以在此技术报告中查看更多细节和其他评估。
首次发布的olmOCR包括一个演示、模型权重、微调数据集、一份简短的技术报告以及最重要的高效推理管道。
访问我们的GitHub仓库以安装olmOCR并探索文档。然后,在具有GPU的机器上,只需运行:
我们希望尽快发布更多的定量基准测试,以帮助开发更好的PDF提取模型并评估它们的性能。
原文链接:https ://olmocr.allenai.org/blog
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!