刚刚!PaddleOCR 3.0 正式开源:大模型发力,OCR 精度跃升 13%!


刚刚!PaddleOCR 3.0 正式开源:大模型发力,OCR 精度跃升 13%!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

PaddleOCR自发布以来,凭借其领先的学术算法和强大的产业落地实践,一路走红,赢得了产学研各界的热烈追捧。从Umi-OCR到OmniParser,再到MinerU、RAGFlow等多个开源项目,它的身影无处不在。如今,PaddleOCR已经成为开发者们的“首选神器”!
2025年5月20日,飞桨团队发布PaddleOCR3. 0并对外开源,全面适配飞桨框架3. 0正式版,进一步提升文字识别精度,支持多文字类型识别和手写体识别,满足大模型应用对复杂文档高精度解析的旺盛需求,结合文心大模型4. 5Turbo显著提升关键信息抽取精度,并新增对昆仑芯、昇腾等国产硬件的支持。
全场景文字识别模型PP-OCRv5
|单模型支持5种文字类型和复杂手写体识别
|整体识别精度相比上一代提升13个百分点
PP-OCRv5是面向大模型时代多模态需求、聚焦多语言多场景识别的轻量级端到端文字识别方案。该方案实现以单一模型高效、精准地支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。
左右滑动查看更多
支持复杂手写体识别。手写体混合印刷体的识别是多个应用场景的刚需,例如:教育行业的试卷作业批改场景、医疗行业的病历数字化场景、法律行业的合同笔录数字化场景等。PP-OCRv5支持中英日手写体识别,对复杂连笔、非规范字迹识别精度有显著提升。
整体识别达到SOTA精度。在业务多场景高难度文字识别评估集上,PP-OCRv5的识别精度达到当前最优,比上一版本PP-OCRv4,识别精度提升13个百分点!
欢迎开发者到飞桨星河社区体验PP-OCRv5的能力:
https ://aistudio. baidu.com/community/app/91660/webUI
通用文档解析方案PP-StructureV3
|支持多场景、多版式PDF高精度解析
|在公开评测集中领先众多开源和闭源方案
文档解析是一种从文档图像中提取结构化信息的技术,主要用于将复杂的文档版面转换为结构化数据,这项技术在AI大模型文档处理领域有广泛的应用。通用文档解析方案PP-StructureV3在上一代的基础上,强化了版面区域检测、表格识别、公式识别的能力,增加了图表理解和多栏阅读顺序的恢复能力,并可以将结果转换Markdown和JSON格式。
左右滑动查看更多
PP-StructureV3的主要优势有:
精度高:支持多场景、多版式PDF高精度解析,在OmniDocBench基准测试中领先众多开源和闭源方案。
注:以上精度信息除PP-StructureV3和MinerU-1. 3.11为自测精度外,均来自OmniDocBench
多项专精能力:除了在OmniDocBench上的精度指标更高之外,PP-StructureV3还有多项专精能力,如:印章识别、图表转表格、嵌套公式/图片的表格识别、竖排文本解析及复杂表格结构分析等——这些能力是很多重要场景AI应用落地的刚需。
欢迎开发者到飞桨星河社区体验PP-StructureV3的能力:
https ://aistudio. baidu.com/community/app/518494/webUI
智能文档理解方案PP-ChatOCRv4
|原生支持文心大模型4. 5Turbo
|关键信息抽取精度相比上一代提升15个百分点
PP-ChatOCR系列是飞桨特色智能文档理解类解决方案,融合大模型和小模型的优势能力,达到通用场景下的文档图像关键信息抽取效果,支持身份证、银行卡、企业合同等多种场景的关键信息提取。
PP-ChatOCRv4在上一代基础上,结合文心大模型4. 5Turbo强大的理解优势,并支持离线使用多模态文档理解模型PP-DocBee2,实现了更高效的文本图像信息抽取,一站式解决版面分析、生僻字、多页pdf、表格、印章识别等常见的复杂文档信息抽取难点问题。
PP-ChatOCRv4的主要优势有:
关键信息抽取精度相比上一代提升15个百分点,效果业界领先。在内部业务中文场景评估集(覆盖印刷文字、表格、印章、图表等)中的准确率如下表所示:
原生支持文心大模型4. 5Turbo,还兼容PaddleNLP、Ollama等工具部署离线大模型。
集成PP-DocBee2,支持印刷文字、手写体文字、印章信息、表格、图表等常见的复杂文档信息抽取和理解的能力。
左右滑动查看更多
欢迎开发者到飞桨星河社区体验PP-ChatOCRv4的能力:
https ://aistudio. baidu.com/community/app/518493/webUI
实际测试
PP-OCRv5
因为有在线体验,不用搭环境也可以快速测试,所以小编测试看了看能力究竟如何。
这次飞桨官方说手写能力提升较多,实测效果的确如此,甚至可以识别一些古籍或者书法作品中的竖体繁体字:
自然场景也不错:
密集或者零散的文本都没啥压力:
拼音也可以识别:
过去的模型,如果不切换英文模型的话,英文单词很容易连接起来,现在明显改善许多:
这个比较震惊,运动员衣服上的大文字和小文字竟然都可以识别
不更换日语模型就可以识别日语:
当然,繁体字也都很好:
结语
PaddleOCR3. 0全面适配飞桨框架3.0正式版,并发布三大特色能力,包括:全场景文字识别模型PP-OCRv5,通用文档解析方案PP-StructureV3和原生支持文心大模型4. 5Turbo的智能文档理解方案PP-ChatOCRv4;新增对昆仑芯、昇腾等国产硬件的支持;提供好学易用的工具,赋能开发者轻松应用文字识别和文档解析技术,快速落地AI应用。非常欢迎大家立即体验与使用。
开源地址:
https ://github. com/PaddlePaddle/PaddleOCR
技术交流:扫描下方二维码,加入PaddleOCR开源技术交流群,探索更多技术课程。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录