太牛了~~复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%


太牛了~~复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。
在PDF文档解析领域,布局检测、阅读顺序预测、手写体文字识别等领域都已经有了很多非常成熟,且可靠的方案。
但是,复杂表格的解析,依然是眼前非常难啃的骨头。
例如:表格中单元格跨列、跨行的合并;跨页表格的融合;表头重复、冗余等问题
今天分享的OCRFlux是基于qwen2. 5vl-3B模型微调的,一个复杂表格的解决方案。
复杂表格解析
OCRFlux在训练数据中使用HTML格式表示表格,使其能够自然地支持复杂表格结构。
OCRFlux能够精确恢复多列跨越的表格单元格以及跨行和跨列合并的单元格,即使在表格布局复杂的情况下也能保持准确性。
多列布局处理
OCRFlux能够准确识别多列布局文档,并将其转换为具有自然阅读顺序的干净Markdown格式。
能够正确重建跨越列的文本元素之间的序列和关系。
多表格与多语言支持
OCRFlux具备处理单页上多个表格的能力,能够有效区分和解析不同的表格。
同时,它还支持解析包含混合英语和中文内容的文档,展示了其在多语言处理方面的强大能力。
跨3页表格合并
在PDF文档中,表格通常会被分隔在多个连续页面上。
OCRFlux通过自动检测和合并碎片化的表格元素,并匹配表头,实现跨页表格的无缝、准确重建。
表格垂直拆分与表格头重复
有许多列的表格,被拆分到多页的情况,OCRFlux能够有效解决垂直拆分问题,将逻辑相关的段落重新连接起来。
当表格跨越多个页面时,每个页面的标题通常会重复的情况,OCRFlux通过无缝合并跨页面内容解决了这个问题,删除了多余的标题,同时保留了重要的表格数据。
首先,指令微调:
基于Qwen2. 5-VL-3B-Instruct进行微调,使得OCRFlux能够更好地理解和处理文档中的各种元素,包括文本、表格和图像等
其次,单页解析训练:
使用约110万页的私有文档数据集(主要来自金融和学术文件)以及约25万页的公共olmOCR-mix-0225数据集进行训练。
OCRFlux的模型仅使用页面图像作为输入,而不使用任何元数据(如文本块及其位置),这既能保证模型的准确性,又能减少处理时间和内存消耗,同时避免了因元数据损坏或OCR结果错误而导致的潜在问题。
最后,跨页段落/表格合并训练:
使用约45万对样本进行检测任务训练,约10万对样本进行合并任务训练,所有样本均来自私有数据集。
OCRFlux采用联合训练的方式,将单页解析和跨页合并任务集成在同一多模态大语言模型中,通过不同的提示词进行训练,从而使模型在推理过程中更加高效。
基于编辑距离(EditDistanceSimilarity(EDS))的对比测试
OCRFlux-bench-single专门针对单页解析的测试数据集,得分都超过了96%,比现在流行的olmocr、Nanonets-OCR-s、MonkeyOCR高出了至少10个点。
基于树形的编辑距离(TreeEditDistance-basedSimilarity(TEDS))的对比测试
OCRFlux-pubtabnet-single专门针对复杂表格微调的测试数据集
OCRFlux-bench-cross跨页融合测试数据集,中文环境接近满分了。
OCRFlux-pubtabnet-cross跨页表格融合测试数据集,有90%以上的成功率
通过OCRFluxdemo可以测试一下自己的pdf文档
表格跨页融合
https ://github. com/chatdoc-com/OCRFlux
推荐阅读
19. 2KStar超级Agent,超LangGraph5000倍的
GraphRAG性能拉胯,DeepSearcher开箱即用
3. 7KStar!GraphRAG不香了~
修复低质扫描件PDF:不怕页面扭曲、字体模糊
HuggingFace出品:极简且强大的Agent
Alibaba出品:OmniParser通用文档复杂场景下OCR抽取
清华、面壁智能发布:主动式Agent2. 0
Alibaba发布:可编辑CoT,超越ReAct20%
微软发布:工业级Agent落地方案RDAgent
Alibaba开源UReader:通用免OCR文档理解
PDF转中文,版式还原、文字、公式识别、英译中全都要
文档OCR版式识别,兼顾速度与精度,YOLO当首选


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录