SIGIR 2025 LiveRAG竞赛获奖方案及中文文档版式分析的标签设计

发布日期: 2025-07-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天是2025年7月7日，星期一，北京，晴
今天是小暑，大家注意防暑。
我们继续来看文档智能进展，来看现有中文文档版式分析的标签问题，其实，在实际落地过程中，标签和任务的设定往往会更为重要，如何针对不同的领域文档类型，设定合适的标签，很重要。
另外，我们再看RAG进展，关注几个竞赛获奖方案。比赛是https ://liverag. tii.ae/challenge-details. php，被选中的团队需要构建一个RAG系统，应用如查询重写、文本检索、提示生成等，指定Falcon3-10B-Instruct来进行答案生成，涉及到6个竞赛方案，可以做个记录。
目前开源的针对中文场景的版式分析模型用的比较广泛的，主要有3个，360layoutanalysis、doclayout以及PP-DocLayout。
1、360layoutanalysis标签体系
开源了多个场景，包括中文论文、中文研报、英文论文、通用、教材场景等，不同场景有不同的标签。
2、doclayout标签体系

地址在：https ://arxiv. org/pdf/2410. 12628
3、PP-DocLayout标签体系
包含23个常见的类别：文档标题、段落标题、文本、页码、摘要、目录、参考文献、脚注、页眉、页脚、算法、公式、公式编号、图像、图表标题、表格、表格标题、印章、图表标题、图表、页眉图像、页脚图像、侧栏文本。
和doclayout相比，进行了进一步的细化：
地址在：https ://arxiv. org/abs/2503. 17213
4、M6DOC标签体系
当然，如果要看版式分析这块的精细活，那么必然要提到M6DOC标签，它的标签体系是真的很细致，但数据不开源，也没有对应的开源模型可用。
根据其提供的标注规范，其设计到的标签非常丰富，高达74个标签，
具但是标签分布很不均衡，如下统计数据：

如一个例子如下：
此外，还给出了古籍的标注体系
例子如下：
地址在：https ://arxiv. org/pdf/2305. 08719

获奖方案有6个：
1）TopClustRAGatSIGIR2025LiveRAGChallenge
思路是混合检索策略，结合稀疏索引和密集索引，然后使用K-Means聚类对语义相似的段落进行分组。每个聚类中的代表性段落用于构建大特定聚类提示，生成中间答案，这些中间答案经过筛选、重新排序，最终合成为单一、全面的答案。
方案在：https ://arxiv. org/pdf/2506. 15246，
2）RMIT–ADM+SattheSIGIR2025LiveRAGChallenge
思路是生成一个假设答案，该答案与原始问题一起用于检索阶段，然后在最终答案生成之前加入了一个重排序步骤。
方案在：https ://arxiv. org/pdf/2506. 14516

方案在：https ://arxiv. org/pdf/2506. 14412，https ://github. com/rmit-ir/GRAG-LiveRAG
4）LTRR:LearningToRankRetrieversforLLMs，主要思路是引入查询路由方法，该方法基于查询从检索器池中动态选择，根据检索器对下游性能的预期效用增益对其进行排序。
方案在：https ://arxiv. org/pdf/2506. 13743，https ://github. com/kimdanny/Starlight-LiveRAG，
5）DoTA-RAG:DynamicofThoughtAggregationRAG，主要思想是查询重写、动态路由到专用子索引以及多阶段检索和排序。
方案在：https ://arxiv. org/pdf/2506. 12571

方案在：https ://arxiv. org/pdf/2506. 10844，https ://github. com/muktac5/CIIR-LiveRAG；
老刘，NLP开源爱好者与践行者，主页：https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。
加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。

ZejunCao

https://zejuncao.github.io/2025/07/07/1000001256-2648421586-1-1751860326/