文档解析类数据合成工具:7个可用的OCR及文档版式、表格数据开源项目
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天是2025年7月8日,星期二,北京,晴
昨天看了看文档版式分析的事情,解决的是业务标签的问题。
今天来看文档方面的数据侧,看看数据合成,尤其是7个可用的OCR合成数据工具以及文档版式及表格数据合成工具,这些都会在实际的工作中用到,很实用。
1、text_renderer
生成用于训练深度学习OCR模型(例如CRNN)的文本图像。支持拉丁语和非拉丁语文本。
地址:https ://github. com/Sanster/text_renderer
2、SynthText
用于生成合成文本图像,逻辑来自:https ://www. robots.ox. ac.uk/~vgg/data/scenetext/
地址:https ://github. com/ankush-me/SynthText
3、TextRecognitionDataGenerator
生成文本图像样本以训练OCR。
地址:https ://github. com/Belval/TextRecognitionDataGenerator
4、Chinese_OCR_synthetic_data
支持合成输出的图像进行增强图片中的文本,其中包括旋转、倾斜、剪切和扭曲。
地址:https ://gitee. com/turingscat/Chinese_OCR_synthetic_data/
5、SynthText3D
从3D虚拟世界合成场景文本图像地址:https ://github. com/MhLiao/SynthText3D
6、UnrealText
用3D图形引擎合成场景文本图像。
地址:https ://github. com/Jyouhou/UnrealText/
7、SynthTIGER
自然场景OCR数据合成。
地址:https ://github. com/clovaai/synthtiger
版式分析是做文档ocr的前置步骤
1、Mesh-candidateBestFit
主要思想是通过搜索采样候选与当前布局中可用网格之间的最佳匹配,迭代地从一小组公共数据集中插入元素,最终实现文档合成。
最终实现的效果如下:
2、表格数据合成工具
通过浏览器渲染生成表格图像,代码修改自论文:https ://arxiv. org/pdf/1905. 13391
地址:https ://github. com/WenmuZhou/TableGeneration
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。