大模型PDF文档解析：又快又好的MonkeyOCR

发布日期: 2025-06-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是Ai学习的老章
大模型开发之文档处理（1）：PDF转Markdown的OCR模型，本地部署，实测
大模型开发之文档处理(2)——字节跳动文档图像解析模型Dolphin，本地部署，实测
继续看OCR模型
MonkeyOCR用于文档解析并采用了结构识别关系三元组范式（SRR），通过将文档解析抽象为三个基本问题：“它在哪里？”、“它是什么？”和“它是如何组织的？”，对应于布局分析、内容识别和逻辑排序，简化了原本复杂的多工具管道，并避免了处理整页使用大型端到端模型的低效性。
实验结果表明，MonkeyOCR在英语文档解析任务上取得了最先进的平均性能，并且可以高效地部署在单个NVIDIA3090GPU上进行推理。
相较于基于流水线方法的MinerU，MonkeyOCR在九类中英文文档上平均提升了5. 1%的识别准确率，其中公式识别提升15. 0%，表格识别提升8. 6%。
与端到端模型相比，MonkeyOCR30亿参数的模型在英文文档上实现了最佳平均性能，表现优于Gemini2. 5Pro和Qwen2.5VL-72B等模型。
在多页文档解析任务中，MonkeyOCR处理速度达到每秒0. 84页，超越MinerU（0. 65页/秒）和Qwen2. 5VL-7B（0. 12页/秒）。
缺点：不支持扫描版PDF
MonkeyOCR还实现了对多种类型的文档进行快速高效的处理。
公式
报纸示例
财务报告示例
图表解释
1、安装
2、下载模型
模型文件：https ://modelscope. cn/models/AI-ModelScope/MonkeyOCR
3、推理
我看官方文档，4090会报错
pipinstalllmdeploy
要解决此问题，您可以应用以下补丁：
pythontools/lmdeploy_patcher. pypatch
我自己测试，仅需要pipinstalllmdeploy即可
GPU显存占用9GB的样子
速度也很快：7页pdf耗时31s
最终输出：
已处理的Markdown文件（your. md）：最终解析完成的文档内容，采用markdown格式，包含文本、公式、表格等结构化元素。
版面识别结果（your_layout. pdf）：基于原始PDF绘制的版面分析结果。
中间区块结果（your_middle. json）：包含所有检测区块详细信息的JSON文件，内容涵盖：
区块坐标与位置信息
区块内容与类型信息
区块间关联信息
实际效果还是不错的
我准备的测试PDF文档，其中包括：
2张单独测试图片
2个图片形式数学公式
1个复杂表格
1段图文