3B小模型吊打72B巨头!轻量级文档视觉OCR,性能超Gemini,高效且精准!(附源码)
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:开源星探
作者:痕小子
链接:https ://mp. weixin.qq. com/s/KSbpTyQSUgFStTrtEiftNQ
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
本文为大家介绍轻量级文档解析模型MonkeyOCR,它兼具高效性与准确性。MonkeyOCR以3B参数规模在英文文档解析中超越多个大型模型,支持中英文多文档类型解析,且处理速度显著领先,性能更是超越Gemini。
在文档解析领域,传统方法要么依赖复杂多工具流水线,要么受限于大型多模态模型的低效性。
近日,Yuliang-Liu团队在GitHub上开源了一款轻量级基于LLM的文档解析模型:MonkeyOCR。
GitHub项目地址:https ://github. com/Yuliang-Liu/MonkeyOCR
它以创新的“结构-识别-关系”(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini2. 5Pro和Qwen2.5-VL-72B。
在对多页文档解析场景下,处理速度达每秒0. 84页,显著优于MinerU(0. 65页/秒)和Qwen2. 5-VL-7B(0. 12页/秒)。
•SRR三元组范式:结构检测(YOLO布局分析)、内容识别(Qwen-VL文本提取)、关系预测(逻辑排序)。
•轻量高效:3B参数在英文文档解析上超Gemini2. 5Pro和Qwen2.5-VL-72B。
•超快速度:多页解析0. 84页/秒,超MinerU(0. 65页/秒)和Qwen2. 5-VL-7B(0. 12页/秒)。
•中英文支持:适配MonkeyDoc数据集,覆盖10+文档类型(如论文、发票、报表)。
•结构化输出:生成markdown或json结构化数据,便于下游处理。
MonkeyOCR的安装和使用简单,只需按照以下步骤进行即可。
①项目下载及环境部署,安装依赖
②从Huggingface或ModelScope下载权重模型
③推理
④启动在线GradioDemo
MonkeyOCR的轻量设计和SRR范式让它适用于多种场景,直击文档处理痛点:
•企业文档处理:解析发票、报表、合同,提取表格和文本,自动化数据录入。
•学术研究:处理论文PDF,提取公式和图表,加速文献分析。
•数据提取:从多页PDF中提取结构化信息,生成JSON,适配数据库。
•教育培训:解析教材PDF,提取题目和答案,生成学习资料。
•多语言支持:中英文文档无缝处理,适合跨国企业
MonkeyOCR以其轻量级设计和SRR三元组范式,为文档解析领域带来了新的“血液”。
其3B参数模型更是在英文文档解析中超越Gemini2. 5Pro和Qwen2.5-VL-72B,多页文档处理速度达0. 84页/秒,公式和表格识别分别提升15. 0%和8. 6%。
虽说支持各种类型中英文文档,但暂不支持照片类型输入。
希望未来能在照片文档支持、多语言扩展、实时处理、模型压缩等方面有持续优化。
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程(AI商机->项目签约->算法开发->产品开发->实施运维)中的各方面经验和踩过的坑。
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!