更懂中文文档理解,PP-DocBee2全新升级-PaddleOCR 3.0全栈技术解密系列
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
飞桨PaddlePaddle
在数字化转型不断加速的今天,文档图像理解技术已成为提升企业效率、推动智能化办公的重要支撑。为了让机器能够更全面、深入地“读懂”各类复杂文档,飞桨团队在PP-DocBee的基础上升级推出了新一代文档图像理解模型——PP-DocBee2。
PP-DocBee2基于多模态大模型架构,进行了多项关键性技术升级,包括基础模型结构升级、视觉特征融合策略增强以及合成数据质量提升等,显著增强了模型对多种复杂文档元素的理解能力。在财报分析、研报解读、合同审查、以及法律法规检索等文档QA场景下,PP-DocBee2都展现出了更强的适应性和准确性,尤其在中文场景上的精确率相比上一代模型提升11. 4%,该模型已作为PaddleOCR3. 0的多模态能力发布开源!
文档理解示例
PP-DocBee2在印刷文字、表格、图表等文档理解效果速览:
在内部业务中文场景评估集上,PP-DocBee2相比前代PP-DocBee模型指标提升了11. 4%,同时也高于目前的热门开源和闭源模型:
内部业务中文场景评估集指标
注:内部业务中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景,分为印刷文字类、表格类、印章类、图表类4大类。
使用方式
为了方便开发者使用PP-DocBee2,我们提供了简单易用的API方案,可快速实现本地推理和服务化部署:
本地推理
本地推理提供了PythonAPI的方式,预测方式如下:
服务化部署:
PaddleX提供了服务化部署能力,可以快速完成PP-DocBee2的服务启动。
CLI一键启动服务:
paddlex–installservingpaddlex–serve–pipelinedoc_understanding
服务启动后,客户端通过少量代码即可调用服务。
我们也提供了在线体验环境,可以通过应用中心-飞桨AIStudio星河社区快速体验PP-DocBee2的功能。
PP-DocBee2方案介绍
PP-DocBee2模型采用ViT+MLP+LLM的架构。在PP-DocBee的基础上,进行了多项关键性技术升级,包括基础模型结构升级、视觉特征融合策略增强以及合成数据质量提升等,显著增强了模型对多种复杂文档元素的理解能力。
改进亮点:
1. 多语义的视觉特征融合
在多模态文档理解任务中,图像不仅包含整体的语义信息,其局部区域或中间层次的视觉特征也往往承载着丰富的结构化语义,例如表格中的行列关系、图表中的关键数据点、文本与图像元素之间的空间布局等。传统的VisionTransformer(ViT)通常仅使用最终输出的全局特征表示,忽略了中间层所蕴含的细粒度视觉语义信息。
模型结构示意图
为了更充分地挖掘图像在不同抽象层级上的表达能力,提升模型对复杂文档结构的理解能力,我们在PP-DocBee2中设计了一种中间层特征融合机制。具体来说,我们选取ViT的某一层中间特征,将其与最终输出的特征进行融合(如相加),并将融合后的表示输入至语言模型(LLM)中参与联合训练。这种设计有助于增强模型对文档中图文关联性的建模能力,使其能够更好地捕捉跨模态之间的对齐与推理关系,从而在各类文档理解任务中取得更优表现。
2. 基于损失信息的多模态数据采样方法
我们发现正确且合适的数据对目标模型的训练有着重要的作用。正确的数据即样本中各个模态语义正确且能够对齐没有瑕疵,而合适的数据则表示数据对于模型的学习难度适中,在训练中模型能够学到相关信息。我们提出了一种面向多模态文档理解任务的数据质量优化策略,旨在通过引入强基础模型的判别能力,为小模型训练提供更加清洁、一致的数据分布,提升轻量级目标模型的训练效率与性能表现。
具体而言,我们首先采用一个性能较强、参数规模较大的多模态预训练模型作为“数据评估器”,在未参与训练的原始文档数据集上进行前向推理,计算每个样本的前向交叉熵损失。考虑到多模态文档通常包含文本、图像、布局结构等多种模态信息,该损失值可综合反映模型对不同模态间语义对齐与任务目标的理解难度,从而作为衡量样本质量的有效指标。随后,我们基于统计学中的2σ原则(消融实验最优)对损失分布进行建模:即剔除损失值高于均值加两倍标准差()的异常样本,保留相对“易学”的高质量数据。这一过程有效去除了数据集中可能存在的难样本和错误样本,提升了训练数据的一致性与代表性。
基于损失信息的多模态数据采样方法
采用以上方案,我们进一步过滤了上一代PP-DocBee中使用的数据集,过滤掉约2%的低质量数据,然后在过滤后的高质量文档数据集上训练了一个参数规模较小的目标模型,通过限制其学习空间至更具代表性的样本分布,实现了更高效的知识迁移与更强的泛化能力。实验结果表明,该方法在多个多模态文档理解任务(如文档视觉问答、表单理解与内容提取等)中均带来了显著的性能提升。该策略无需额外人工标注,在降低训练数据成本的同时提升了模型的鲁棒性与跨模态理解能力,具有良好的实际应用前景,尤其适用于资源受限或需快速迭代部署的多模态文档处理场景。
精彩课程预告
为了帮助您迅速且深入地了解PP-DocBee2文档理解特色模型,并熟练掌握实际操作技巧,百度高级研发工程师将在7月2日晚上19:00,为您详细解读PP-DocBee2的核心技术,手把手演示多模态大模型开发全流程。
赶快扫描下方海报二维码预约报名!
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~