再看大模型数据合成开源工具–DataFlow及自然场景文档解析评估问题

发布日期: 2025-07-04

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天是2025年7月4日，星期五，北京，晴

为大模型微调数据集而设计的项目，提供了直观的界面，用于上传特定领域的文件，智能分割内容，生成问题，并为模型微调生成高质量的训练数据。社区成员有测试过，还不错，具体说明说明文档在：https ://rncg5jvpme. feishu.cn/docx/IRuad1eUIo8qLoxxwAGcZvqJnDb?302from=wiki。

另外，继续看文档解析这个场景上，看看自然场景的文档解析评估，有一个评估数据集，也有一个评估结论。

1、有哪些功能？
支持的任务包括纯文本训练合成、强推理数据合成、Text-to-SQL数据合成、AgenticRAG数据合成流程等。
其中：
1）纯文本数据处理不同格式的文本信息，包括预训练文本和指令微调格式文本。从大规模纯文本（多为网络爬取）中挖掘问答对，用于监督微调和强化学习训练。
2）强推理数据合成的核心目标是通过数学问答数据的合成与处理，扩展现有数据集的规模和多样性，增强已有问答对，添加长链式推理（Chain-of-Thought）、类别标注、难度估计。
具体的：问题处理：过滤非数学问题、合成新问题、验证问题正确性、进行难度评分和类别分类；答案生成与处理：根据问题的标准答案或模型生成的答案进行处理，包括格式过滤、长度过滤和正确性验证等；数据去重：对生成的问答数据进行去重，确保数据集的质量。
3）Text-to-SQL数据合成，通过清洗和扩充现有的Text-to-SQL数据，为每个样本生成包含训练提示词（prompt）和长链推理过程（chain-of-thought）的高质量问答数据，将自然语言问题转化为SQL查询，辅以解释、思维链推理和数据库结构上下文信息。
4）AgenticRAG，端到端的框架，基于强化学习的AgenticRAG训练。从提供的文本内容中生成高质量的问题和答案对。
2、如何评估有效性
其实，更为重要的还是如何验证这类工具的有效性问题，最好的方式就是消融实验，例如：
Bird数据集上使用DataFlow-Text2SQL流程构建数据，并分别通过监督微调（SFT）与强化学习（RL）对Qwen2. 5-Coder-14B模型进进行训练，然后看效果：
现在多模态大模型做文档解析的工作越来越多，我们已经做个多个介绍，但其更多的还是针对标准印刷体文档。对于拍照版本的，其实从layout以及解析等任务看，都会存在一些问题，例如下面这个图。
在未矫正前，直接进行布局检测，会发生错乱。
所以，这自然会出来一个问题，就是评估自然环境下文档理解能力，现有的DocVQA和ChartQA等主流基准测试主要涵盖扫描文档或者印刷文档，无法充分反映现实世界中各种场景（例如光照变化和物理变形）所带来的复杂挑战。
那么，怎么评估？关键还是这个评估数据怎么做？

论文理论本身价值不大，重点还是这份数据。
1、具体如何实现？
在具体实现上，靠虑到日常生活中遇到的各种场景，选择了五个关键因素：环境、照明、视图、失真、效果。
2、实际效果如何？
结果表明，当面对常见的现实世界扭曲（例如皱纹、弯曲和折痕）影响的文档时，MLLM的性能会显著下降，具体的指标变化，如下图所示：
其实这是个很有趣的话题，是先矫正，图像增强，然后变成标准文档解析，还是直接让vllm做处理，都是值得探索的方向。
1、https ://github. com/OpenDCAI/DataFlow
2、https ://arxiv. org/pdf/2505. 11015
老刘，NLP开源爱好者与践行者，主页：https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。
加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。