PaddleOCR 3.1 发布:文心助力30+语种文字识别精度提升30%+,关键能力支持MCP


PaddleOCR 3.1 发布:文心助力30+语种文字识别精度提升30%+,关键能力支持MCP

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

PaddleOCR3. 0自5月20日发布以来,受到业界的广泛关注,同时我们也收到了众多宝贵意见。我们积极响应、快速升级迭代,并在近日发布了PaddleOCR3. 1,带来了3个新升级:
三大升级
新增PP-OCRv5多语种文本识别模型。支持法语、西班牙语、葡萄牙语、俄语、韩语等37种语言,平均识别精度提升超过30%。同时依托文心4. 5多模态能力,实现了数据的自动高质量标注,有效解决了多语种数据稀缺和标注成本高的问题,进一步提升了模型在多语言、多场景下的识别能力。
新增文档翻译PP-DocTranslation产线。PP-DocTranslation基于文档解析PP-StructureV3和文心4. 5大模型,支持对Markdown、PDF和图片三种格式的文档数据进行翻译,同时支持本地传入专业术语对照表,实现关键词汇的精细化多语言翻译。
支持MCP服务器。用户可通过简单的步骤搭建MCP服务器,将通过本地Python库、云服务、自托管服务等多种方式运行的PaddleOCR核心能力统一集成到下游AI应用中,实现更灵活高效的应用构建。
01
30+语种文字识别精度跃升30%
随着世界各地交流合作的加深,多语种文本识别正成为智能应用领域的重要需求。为提升多语种场景下的文字识别能力,我们通过融合文心大模型的视觉和文本理解能力,实现了高效、高质量的训练数据获取,升级PP-OCRv5在37种语言文字的识别能力,包括韩文、西班牙文、法文、葡萄牙文、德文、意大利文、俄罗斯文等。与前代多语种文字识别模型相比,PP-OCRv5在多语言场景文字识别准确率提升超过30%。
左右滑动查看更多
关键步骤——文心4. 5助力多语种文字高质量数据构建
自动文本行检测与裁剪:利用PP-OCRv5检测模型,自动定位并裁剪图像中的每一行文本,快速、高效地获取标准化的文本行图片。
高置信度文本内容识别:依托文心4. 5强大的视觉和文本理解能力,对每个文本行图像进行多次独立识别,筛选出识别结果一致的样本。不仅显著提升标注数据的准确性,还有效规避了人工标注的主观误差,确保数据高质量和高可靠性。
模型精度对比
注:
为更全面评估多语种模型能力,本次模型研发过程中重新收集了大量来自真实场景的高难度评估数据。
拉丁字母文字涵盖西班牙文、葡萄牙文、法文等33种语言文本。东斯拉夫语言涵盖俄文、乌克兰文、白俄罗斯文。
PP-OCRv5多语种文字识别命令行使用方式
可以通过在命令行中使用–lang参数,来进行指定语种的文本识别模型推理:
#通过`–lang`参数指定使用法语的识别模型

–langfr#此处为法语,刚多请参阅文档
–use_doc_orientation_classifyFalse
–use_doc_unwarpingFalse
–use_textline_orientationFalse
–save_path./output
–devicegpu:0
上述命令行的其他参数说明请参考通用OCR产线的命令行使用方式。
02
PP-StructureV3+文心大模型
复杂文档翻译更简单
在全球化和信息化加速发展的背景下,文档翻译在现代社会中已成为一种不可或缺的需求,企业和个人需要高效、准确地翻译各类复杂文档。为此,我们结合PP-StructureV3和文心大模型,推出了复杂文档翻译工具PP-DocTranslation。PP-StructureV3具备强大的复杂文档解析能力,能够轻松应对很多复杂布局的PDF文档及文档图片,并高效地将其转换为Markdown格式输出。我们在此基础上,融合了文心大模型强大的文本理解和语义分析能力,对生成的Markdown结果进行进一步处理,实现了对相关文档的高质量多语言翻译。此外,为了更好地服务于各类专业领域对精准翻译的需求,该工具特别增加了用户自定义词表功能,用户可以根据自身业务或领域的专业术语,自定义词汇表,从而实现特定场景下更加准确、专业的翻译结果。
效果展示
左右滑动查看更多
文心4. 5助力多语言翻译
精准翻译:依托文心4. 5对多语言的理解,能够实现更为精准、地道的目标语言翻译效果。
多语言支持:借助文心4. 5的多语言处理能力,满足多样化多语言的翻译需求。
PP-DocTranslation的CLI体验方式:
可以通过在命令行中使用–target_language参数,来进行指定要翻译的目标语言:

03
支持MCP服务器轻松连接大模型
发挥OCR的无限想象空间
MCP是一种开放协议,用于规范应用程序向大语言模型提供上下文信息的方式。可以将MCP类比为AI应用中的USB接口。正如USB为设备与各种外设和配件之间的连接提供了标准化方式,MCP同样为AI模型与不同数据源和工具之间的连接提供了统一规范。通过支持实时调用数据或API,MCP能有效拓展应用场景、降低开发门槛,并提升系统安全性。如今,MCP正逐渐成为推动AI生态落地的关键连接桥梁。
为了更便捷地将PaddleOCR能力集成至各类AI应用中,PaddleOCR3. 1版本支持用户通过几步简单操作,即可搭建MCP服务器。具体而言,根据MCP协议,AI应用(作为MCP主机)通过MCP客户端与PaddleOCR的MCP服务器进行通信。PaddleOCR的MCP服务器则通过PythonAPI或服务请求等方式调用其核心能力,并将这些能力标准化后提供给下游的AI应用使用。下图展示了PaddleOCR核心功能、PaddleOCRMCP服务器以及AI应用之间的关系:
当前,PaddleOCRMCP服务器支持以下能力:
文字识别:对图像和PDF文件进行文本检测与识别,返包含文字坐标和文字内容的JSON文件。
文档解析:从图像或PDF中识别和提取文本块、标题、段落、图片、表格等版面元素,并将内容结构化输出为Markdown文档和JSON文件。
根据PaddleOCR的运行方式,MCP服务器支持以下工作模式:
本地Python库:在本地直接运行PaddleOCR模型。
星河社区服务:调用托管在飞桨星河社区的服务。
自托管服务:连接用户自行部署的PaddleOCR服务。
同时,PaddleOCRMCP服务器支持stdio和StreamableHTTP两种传输机制,用户既可以本地部署服务实现快速集成,也可以远程调用服务,满足不同场景的使用需求。
搭建MCP服务器并集成到AI应用中,仅需几个简单步骤。下面以“星河社区服务”模式为例,介绍如何在ClaudeforDesktop中使用PaddleOCRMCP服务器提供的工具。
1. 参考PaddleOCR官方文档,在星河社区部署推理服务

星河社区:https ://aistudio. baidu.com/pipeline/mine
2. 将ClaudeforDesktop配置文件claude_desktop_config.json修改如下(需安装uv):

3. 重启ClaudeforDesktop。新的paddleocr-ocr工具现在应该可以在应用中使用了,如下图所示:
如果希望使用PP-StructureV3的文档解析能力,只需参考上述步骤,在星河社区部署文档版面解析V3产线,并在配置文件中替换对应的服务基础URL即可。除了基本配置外,PaddleOCRMCP服务器还提供丰富的可调参数,用户可根据需求灵活调整,例如替换为自训练的文本识别模型、关闭不需要的功能模块等。
关于更多详细用法,请参考官方文档:
https ://paddlepaddle. github.io/PaddleOCR/v3. 1.0/version3. x/deployment/mcp_server. html
创意案例
以下展示了使用PaddleOCRMCP服务器结合其他工具搭建的创意案例:
Demo1:在ClaudeforDesktop中,提取图像中的手写内容,并存到笔记软件Notion。PaddleOCRMCP服务器从图像中提取了文字、公式等信息,并保留了文档的结构。
除PaddleOCRMCP服务器外,此demo还使用NotionMCP服务器(https ://developers. notion.com/docs/mcp)。
Demo2:在VSCode中,根据手写思路或伪代码一键转换为可运行并符合项目代码风格规范的Python脚本,并将其上传到GitHub仓库中。PaddleOCRMCP服务器从图像中高准确率地提取手写代码供后续步骤使用。

Demo3:在ClaudeforDesktop中,将含有复杂表格、公式、手写文字等内容的PDF文档或图片转存为本地可编辑文件。
PDF转为Word可编辑格式:
图片转为Excel可编辑格式:
左右滑动查看更多

飞桨PaddlePaddle
结语
自PaddleOCR3. 0发布以来,我们收到了大量关于多语种识别和MCP支持的需求反馈。为此,我们近期推出了升级版PaddleOCR3. 1。欢迎各位开发者、研究者和行业用户下载体验PaddleOCR3. 1,并积极提出宝贵建议和反馈。大家的支持和参与将持续助力我们打造更加优质、开放和强大的OCR生态!
开源地址:https ://github. com/PaddlePaddle/PaddleOCR
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录