文档解析PP-StructureV3:PDF秒变高质量Markdown文件
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
背景介绍
在大模型与RAG技术快速发展的当下,结构化数据对于智能系统的重要性日益凸显。将文档图像、PDF等非结构化数据精准地转换成结构化数据(如Markdown、JSON)已成为行业待解决的关键问题。
目前众多开源方案在处理复杂文档情形时,都会遇到文字识别能力差、阅读顺序无法正确恢复、表格识别不准、长难公式无法解析等问题。基于广大用户的反馈和对行业痛点的分析,飞桨团队从文档解析的多个模块全栈优化,打造了新一代文档解析利器——PP-StructureV3,即使面对复杂文档场景,依旧游刃有余,为解决大模型训练微调的数据缺失和大模型的落地问题,提供强有力的保障。该方案已随着PaddleOCR3. 0的发布,全面开源!
PP-StructureV3优势
精度高:PP-StructureV3支持多种场景、多种版式文档图像或PDF文件的高精度解析,可以将文档图像或者PDF文件无缝转换为带图像、文本、表格、阅读顺序等内容的Markdown文件和带文字、段落等坐标信息的JSON文件。PP-StructureV3在OmniDocBench基准测试中领先众多开源和闭源方案。
注:以上精度信息除PP-StructureV3和MinerU-1. 3.11为自测精度外,均来自OmniDocBench
多项专精能力:PP-StructureV3除了在OmniDocBench上的精度指标更高之外,还拥有很多其他开源文档解析方案没有的专精能力,如:印章识别、图表解析、含公式/图片的表格识别、竖排文本解析、中文公式、化学方程式及复杂表格识别等——这些能力是很多重要场景AI应用落地的刚需。
效果速览
文档解析效果速览
论文
<<<左右滑动查看更多图片<<<
财报
<<<左右滑动查看更多图片<<<
杂志
<<<左右滑动查看更多图片<<<
复杂公式
<<<左右滑动查看更多图片<<<
中文公式/化学方程式
<<<左右滑动查看更多图片<<<
竖版文字
<<<左右滑动查看更多图片<<<
含公式/图像表格
<<<左右滑动查看更多图片<<<
在文档解析任务中,阅读顺序恢复能力尤为重要,飞桨团队自研了全新的阅读顺序恢复解决方案,不仅可以应对常规文档,也可以应对报纸、复杂布局的杂志、试卷等较难的文档场景。对于复杂布局的文档,PP-StructureV3的阅读顺序恢复能力远超其他文档解析方案。
复杂文档阅读顺序效果速览
杂志
左右滑动查看更多图片
报纸
<<<左右滑动查看更多图片<<<
试卷
<<<左右滑动查看更多图片<<<
竖版文本
<<<左右滑动查看更多图片<<<
此外,如前文所述,PP-StructureV3也支持将图表转换为表格,图表中的关键数据的获取不再困难。
图表转表效果速览
左右滑动查看更多图片
算法介绍
PP-StructureV3采用了一种精细化的模型组合策略,通过高效协调不同模型的输入输出,来实现高精度的文档解析。首先,文档图像经过文档预处理(可选),然后执行版面区域分析和文字识别。接下来,版面区域分析和文字识别的融合结果会基于其所属的不同版面类型被分别传送到表格识别、公式识别、图表解析和印章识别等多个子模块。最后,阅读顺序恢复模块对不同版面区域的识别结果基于人类阅读顺序进行排序,生成最终的文档解析结果——对应的Markdown文档和JSON文件。以上各个模块涉及的模型算法,飞桨团队均进行了全栈自研,并对关键模块做了细致优化。
其中几个重要模块的核心能力升级优化点如下:
文档图像方向分类:优化了预处理步骤中的文档图像方向分类模型的准确性,大大提升了纯表格文档场景、少文字文档场景、其他语言文档场景的方向分类准确性,整体方向分类的准确率大于99%。
文字识别:自研PP-OCRv5,实现单一模型支持中文简体、中文繁体、中文拼音、英语、日语五大文字类型,同时升级了中英手写体、竖排文本、生僻字等复杂场景的识别能力,较PP-OCRv4端到端提升13个点。OCR模型的升级,可以让PP-StructureV3无缝高精度识别中、英、日三种文档的文字内容。
版面区域检测:升级了PP-DocLayout在复杂布局文档的版面区域检测能力,包含多栏打印/手写试卷、嵌套表格、研报、竖版报纸和杂志等,相比于上一代,精度显著提升。版面区域检测模块的升级,为处理繁杂多样的文档提供了重要布局分析的能力。
版面分块检测:为了应对复杂版面的阅读顺序恢复问题,研发了版面分块检测模型PP-DocBlockLayout,可以将复杂报纸、杂志中不同的文章内容进行分块区分,从而有效降低相近位置区域的相互干扰,从而提升阅读顺序恢复的可靠性。
表格识别:表格识别解决方案PP-TableMagic全新升级,新增单元格直转HTML、OCR文本单元格切分、表格方向矫正等多个重要能力,对旋转表格、复杂有线表等表格的识别准确率显著提升。
公式识别:升级了PP-FormulaNet在复杂公式的识别能力,同时新增了中文公式识别、化学方程式识别的能力。
图表解析:自研图表解析方案PP-Chart2Table,可以将直方图、饼图、折线图等多样化且复杂的图表转换为表格,为图表中的关键数据提取提供强有力的保障。
阅读顺序恢复:自研全新的复杂版面阅读顺序恢复解决方案,强化了对杂志、试卷、报纸和竖版文字等复杂版面场景的阅读顺序恢复能力,可以在多场景中,将多版式的文档段落阅读顺序进行恢复。
Markdown后处理:支持不同层级标题的区分,支持跨段、跨页文本内容的合并,支持根据真实文档的图片尺寸缩放图像,支持居中显示图、表等,支持在识别的表格中插入公式、图像等内容。
使用方式
为了方便开发者使用PP-StructureV3,我们提供了极简API方案,可快速实现本地推理和服务化部署:
本地推理
本地推理提供了两种方式,即CLI预测和PythonAPI的方式,其中CLI预测方式如下:
#支持传入URL、图片路径、文件夹路径、PDF文件、PDF文件夹路径等paddleocrpp_structurev3-ipp_structure_v3_demo. png
PythonAPI预测方式如下:
经过预测后,会通过save_to_json()和save_to_markdown()方法将文档图像的结构化JSON结果和Markdown结果保存在save_path中。
服务化部署
PaddleX提供了PaddleOCR的服务化部署能力,可以通过PaddleX快速完成PP-StructureV3的服务启动。
CLI一键启动服务:
paddlex–installservingpaddlex–serve–pipelinePP-StrcutureV3
服务启动后,客户端通过少量代码即可调用服务。
关于PP-StrutureV3的其他介绍,详见PaddleOCR官方文档:
方案介绍:
使用教程:
https ://paddlepaddle. github.io/PaddleOCR/latest/version3. x/pipeline_usage/PP-StructureV3. html
精彩课程预告
为了帮助您迅速且深入地了解PP-StructureV3全流程解决方案,百度研发工程师将于6月19日(周四)19:00为您深度解析本次技术升级。此外,我们还将开设针对PP-StructureV3的产业场景实战营,手把手带您体验PP-StructureV3的调试和部署。机会难得,立即扫描下方二维码预约吧!
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~