大模型PDF文档解析:又快又好的MonkeyOCR


大模型PDF文档解析:又快又好的MonkeyOCR

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
大模型开发之文档处理(1):PDF转Markdown的OCR模型,本地部署,实测
大模型开发之文档处理(2)——字节跳动文档图像解析模型Dolphin,本地部署,实测
继续看OCR模型
MonkeyOCR用于文档解析并采用了结构识别关系三元组范式(SRR),通过将文档解析抽象为三个基本问题:“它在哪里?”、“它是什么?”和“它是如何组织的?”,对应于布局分析、内容识别和逻辑排序,简化了原本复杂的多工具管道,并避免了处理整页使用大型端到端模型的低效性。
实验结果表明,MonkeyOCR在英语文档解析任务上取得了最先进的平均性能,并且可以高效地部署在单个NVIDIA3090GPU上进行推理。
相较于基于流水线方法的MinerU,MonkeyOCR在九类中英文文档上平均提升了5. 1%的识别准确率,其中公式识别提升15. 0%,表格识别提升8. 6%。
与端到端模型相比,MonkeyOCR30亿参数的模型在英文文档上实现了最佳平均性能,表现优于Gemini2. 5Pro和Qwen2.5VL-72B等模型。
在多页文档解析任务中,MonkeyOCR处理速度达到每秒0. 84页,超越MinerU(0. 65页/秒)和Qwen2. 5VL-7B(0. 12页/秒)。
缺点:不支持扫描版PDF
MonkeyOCR还实现了对多种类型的文档进行快速高效的处理。
公式
报纸示例
财务报告示例
图表解释
1、安装
2、下载模型
模型文件:https ://modelscope. cn/models/AI-ModelScope/MonkeyOCR
3、推理
我看官方文档,4090会报错
pipinstalllmdeploy
要解决此问题,您可以应用以下补丁:
pythontools/lmdeploy_patcher. pypatch
我自己测试,仅需要pipinstalllmdeploy即可
GPU显存占用9GB的样子
速度也很快:7页pdf耗时31s
最终输出:
已处理的Markdown文件(your. md):最终解析完成的文档内容,采用markdown格式,包含文本、公式、表格等结构化元素。
版面识别结果(your_layout. pdf):基于原始PDF绘制的版面分析结果。
中间区块结果(your_middle. json):包含所有检测区块详细信息的JSON文件,内容涵盖:
区块坐标与位置信息
区块内容与类型信息
区块间关联信息
实际效果还是不错的
我准备的测试PDF文档,其中包括:
2张单独测试图片
2个图片形式数学公式
1个复杂表格
1段图文


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录