olmOCR:重塑PDF文本处理,让语言模型更智能、更强大!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
olmOCR,这是一个高性能工具包,旨在将PDF和文档图像转换为干净、结构化的纯文本。olmOCR的主要特点包括:
高精度文本提取:经过大量多样化PDF内容的训练,采用独特的提示技术,显著提高文本识别的准确性,减少误识别和幻觉现象。
复杂文档处理能力:不仅支持普通文本,还能准确识别和处理表格、公式、手写内容等复杂元素。
高效大规模处理:利用SGLang优化推理管道,可在本地GPU上运行,或通过AWSS3实现多节点并行处理,每百万页文档的处理成本仅190美元左右,适合处理海量文档。
开源与可扩展性:采用Apache2.0许可,所有组件,包括模型权重、数据和训练代码,均已开源,方便用户二次开发与定制。
代码地址:https ://github.com/allenai/olmocr
演示地址:https ://olmocr.allenai.org/
从预训练到推理,语言模型(LM)都对纯文本数据进行操作。无论是在对数万亿个token进行训练时,还是在为数据密集型AI应用程序提供服务时,文本的质量都至关重要。嘈杂的文本会导致训练不稳定和模型性能下降,或者在完成用户请求时输出效果不佳。
然而,并非所有LM使用的数据都以易于解析的格式(例如网页)提供。事实上,对于许多领域来说,有价值的信息都存储在电子文档文件中,例如PDF。这些格式带来了独特的挑战,因为它们旨在在固定大小的页面上呈现内容,而不是保留逻辑文本结构。以PDF为例:这种格式将文本存储为二进制字符编码序列,以及它们在页面上的位置和格式。这种格式虽然高效,但很难恢复所有文本单元(如标题、段落、表格和公式)并按正确顺序排列它们。
为了帮助处理电子文档,我们推出了olmOCR,这是一款高性能工具包,旨在将PDF和文档图像转换为干净、结构化的纯文本。olmOCR有何独特之处?
性能:我们针对从各种PDF中抽样的250,000页对olmOCR进行了微调。有些是数字化的,而有些则是公共领域书籍的扫描副本。这确保了olmoOCR能够准确地从各种文档中提取文本。
经济高效:olmoOCR工具包可以处理一百万个PDF页面,费用约为190美元,olmOCR的成本大约仅为使用GPT-4oAPI以批处理模式处理相同数量页面所需费用的1/32。
Markdown输出:olmOCR以Markdown格式输出文本,易于解析和处理。它可以处理方程式、表格和手写内容,即使对于最复杂的多列文档布局,也能以正确的阅读顺序进行处理。
包含的组件:olmOCR是完全优化的管道,可与SGLang和vLLM推理引擎配合使用。它可以高效地从一个GPU扩展到数百个GPU,并包含启发式算法来处理常见的解析失败和元数据错误。
完全开源:olmOCR建立在Qwen2-VL-7B-Instruct之上。我们发布该工具包的所有组件:模型权重、微调数据集、训练和推理代码。
看看olmoOCR与其他领先的文档提取工具相比如何,并进一步了解我们如何构建它。一旦您准备好试用它,请访问我们的GitHub存储库,在您自己的项目中使用olmOCR。
比较olmOCR与其他领先的文档提取工具在样本文档上的表现。使用下面的选项卡查看不同的输出并了解处理质量的主要差异。
为了获得用于训练olmOCR的高质量数据,我们开发了一种称为文档锚定的技术。此方法利用PDF文件中存在的任何文本和元数据来提高提取文本的质量。图1:文档锚定在典型页面上的工作方式示例。相关图像位置和文本块被提取、连接并插入到模型提示中。当提示VLM获取文档的纯文本版本时,锚定文本将与页面的光栅化图像结合使用。我们使用文档锚定技术,用GPT-4o标记了25万页。我们结合使用了从网络上抓取的可公开访问的PDF和InternetArchive扫描的公共领域书籍。数据集多种多样,其中60%为学术论文,12%为小册子,11%为法律文件,6%为图表,5%为幻灯片,4%为其他文档类型。
为了训练模型本身,我们对Qwen2-VL-7B-Instruct检查点进行了微调。我们使用SGLang精心优化了大规模批处理的推理管道,使olmOCR能够以仅190美元的价格转换一百万个PDF页面-大约是使用GPT-4oAPI成本的1/32。与其他流行的OCR工具相比,我们的结果不仅显示出显着的成本节省,而且在人工评估方面也表现出色。
图2:olmOCR与其他流行工具的ELO排名。我们通过将其输出与其他流行的PDF提取工具(Marker、MinerU和GOT-OCR2.0)进行比较来评估olmOCR。我们收集了11位研究人员的成对判断。我们抽样了2,017个PDF并收集了452个有意义的比较,计算了ELO评分以量化性能。olmOCR的ELO得分超过1800,远远超过所有竞争对手。当直接与其他工具进行比较时,olmOCR在与Marker的比较中占61.3%,与GOT-OCR的比较中占58.6%,与MinerU的比较中占71.4%,这证明了其生成干净、结构良好的文本的卓越能力。
第一个olmOCR版本包括一个演示、模型权重、我们的微调数据集、一份简短的技术报告,以及最重要的一个高效的推理管道。
最新的NVIDIAGPU(在RTX4090、L40S、A100、H100上测试),至少有20GB的GPURAM,30GB可用磁盘空间,您将需要安装poppler-utils和其他字体来呈现PDF图像。然后,在具有GPU的机器上,只需运行:
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~