AFAC2025挑战组-赛题二：金融保险场景下多源文件长上下文一致性校验 Baseline

发布日期: 2025-06-11

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

赛题名称：AFAC2025挑战组-赛题二：金融保险场景下多源文件长上下文一致性校验
赛题类型：AI大模型赛
赛题任务：分析保险文本的一致性
https ://tianchi. aliyun.com/competition/entrance/532351
在金融保险行业中，电子保单、保险条款、营销物料等素材的合规性与一致性关乎业务的稳健发展。当前，行业普遍依赖人工核验多源文件内容，存在两大痛点：一是效率瓶颈，长文档（如条款文本、免责声明）的逐项比对耗时耗力；二是动态规则适配难，随着经济发展，保险市场环境也在不断变化，同时，保险产品类目众多，产品迭代频繁，这种动态性为合规校验系统提出了更高的要求。
本赛题聚焦长文本、多素材一致性智能核验技术，要求通过自然语言处理、知识图谱等技术，构建覆盖文本语义对齐等自动化比对引擎，支持动态规则库（如免责条款定义、监管要求）的实时适配。解决该问题将显著提升合规效率、降低运营风险，助力保险业智能化转型。推动保险业从“人工合规”迈向“智能合规”，助力企业规避风险，加速电子投保、智能核赔等场景的规模化落地。
以售卖场景的素材一致性为例，售卖平台上的保险产品一般包含如下素材：保险条款、投保须知、免责条款、售卖页介绍图等，这些素材中约定了保障、免责、产品介绍、必要告知等核心内容。部分关键信息可能会被多处定义，售卖平台需要保证这些定义的一致性，以某责任的赔付比例为例，如果条款、投保须知中定义的赔付比例都为80%，而售卖介绍图片中将比例错配为90%，那么用户在理赔时便可能会产生纠纷、诉讼风险。这就要求对产品物料、售卖素材等进行严格的一致性校验，从而满足监管要求，同时保障客户的合法权益。
本赛题的设计基于保险产品的售卖素材（包含保险条款、投保须知、健康告知、投保页图片等（均已通过文本转换工具转换为markdown格式）），根据实际情况，产品下对应的素材中可能会包含若干风险点（比如，同一个概念在不同文档中的定义不一致）。一款产品可能会包含若干道题目，每道题目均包含一条自然语言规则，如“该产品的免责条款定义一致”。
参赛者需要设计一个风险检测模型，该模型可以结合本赛题给定的保险产品售卖素材和合规规则要求，对产品是否存在风险点进行识别并给出最终结论，模型的性能将通过参赛者给出的风险预测标签来计算和评估。
本赛题不提供训练数据，如有必要，参赛选手可选用公开数据集来构造训练数据（但不允许检索赛题原始文件进行比对分析，也不允许对A榜、B榜数据进行人工打标）。选手可根据情况选择使用多Agent编排、SFT、RL、RAG等技术来解决该问题。另外，参赛者可以利用NVIDIACuDF加速数据处理，NIM预构建容器工具的模型调用等技术，实现基于GPU的Pandas数据库加速，向量数据库构建，LLM快速原型测试和选型等。用户可以参考赛题中的相关文档了解详情并按需使用。
为了帮助参赛选手更好地理解赛题定义，本赛题提供20道题目作为样例数据，详细阐释各个产品中对应的风险点和识别过程，此外，样例集内也会附加相关的解释文档以供参考。
提醒：参赛者被允许使用任意开源且参数量小于等于72B的模型（或对应的API），不可以使用未开源的大模型API。
本赛题包含三个数据集，分别为：
样例集（文件名为：samples. zip）
初赛测试集（测试A集，文件名为：test_A. zip）
复赛测试集（测试B集，文件名为：test_B. zip）
各个数据集均提供一个压缩包，解压后可获得：
data. jsonl文件
materials文件夹
readme. md
其中，data. jsonl的每一行表示一道赛题，每行的数据包含四个字段：material_id、rule_id、rule、result，各个字段的数据类型及内容如下：
字段
数据类型
内容
备注
material_id
str
素材包id，可以通过该id，在materials文件夹中获得对应的素材（详情查看下方示例）
rule_id
str
规则id
rule
str
一句自然语言校验规则
请参考校验规则及释义一节
result
bool
预测标签，标记该素材包是否满足rule的描述；如满足规则要求，则为true，否则为false
仅在样例集中有值，测试集中，该字段为空，需要参赛者预测该值；提醒：在填充该字段时，请保证值为bool类型
materials文件夹下包含多个以material_id命名的目录，每个目录下包含一个产品所包含的素材。素材的结构详见数据样例。
readme. md则包含了有关对应赛题的附加解释说明。
data. jsonl示例：
materials文件夹示例：
其中，每个material_id目录中均包含多个不同类型的子目录，如ADDITIONAL_AGREEMENT、CLAUSE等，这些子目录名均表示不同的素材类型，所有素材类型的映射关系如下：
注：并非每个产品都会包含上述所有的素材类型。
参赛者需要结合各榜测试集的素材和校验规则，将预测结果以jsonl格式写入文件中并提交，文件命名如下：“参赛队伍名_result. jsonl”，每行是一个json格式的字符串，使用utf-8编码。预测结果仅需包含三个字段：material_id（素材id）、rule_id（规则id）和result（预测结果）。
示例：
复赛相关要求：
复赛阶段，除需要按照上述要求提交预测结果文件以外，还需要可完全复现结果的、完整的代码和复现文档、复现脚本等（具体要求参考7. 3代码审核章节）。
根据原始数据的真实风险情况，组织者将结合用户提交的预测文件的result字段，计算出两类指标精确率P和召回率R，接着，根据P和R来计算最终的F1分数。
https ://www. datawhale.cn/learn/summary/172
模块化文本提取：
使用exteract_module_raw_text函数，从大量文本中提取与特定模块（如“投保条款”“保障责任”等）相关的文本内容。
通过向模型提供系统提示（如“你是一个专业的保险行业的信息处理专家”）和用户输入的文本，模型会输出与指定模块相关的原文内容。
一致性分析：
使用analysis_conflict函数，对两个文本片段进行一致性分析。
模型会根据系统提示（如“判断是否相同条件的表达存在不一致的情况”）和用户提供的两个文本片段，输出“一致”或“不一致”的结果。
文本分块处理：
提供了一个辅助函数get_chunk_list，用于将较长的文本列表分割成指定大小的块（默认为200），以便分批处理，避免一次性处理过长文本导致的问题。
使用大模型提取与规则相关的保险段落，参考提示词如下：

使用大模型判断段落之间的一致性，参考提示词如下：
{\“role\“:\“system\“,\“content\“:f\“\“\“你是一个专业的保险行业的信息处理专家，请对下面文本进行严谨的一致性进行分析，判断是否相同条件的表达存在不一致的情况，只需要回答一致或不一致，不要有其他任何输出。-基础产品销售信息：该保险产品的基础配置信息，包括产品名、附加的条款信息、销售限制等；-投保条款：投保过程中的缴费约定、投被保人条件限制等；-保障责任：约定该产品的保险责任细节，如保障范围、保险金额、增值服务等；-保障相关时间：约定该产品的各类时间信息，包括但不限于犹豫期、等待期、宽限期等；-赔付&领取规则：约定该产品的保险责任的赔付、给付、领取及免赔细节，如赔付年龄/比例/次数等；-责任免除：约定该产品不承担保险责任的情形；-续保条款：约定续保相关信息，包括但不限于续保条件、保证续保等；-退保条款：约定退保相关信息，包括但不限于退保条件、退保手续费等；-出险条款：约定出险相关信息，包括但不限于出险地点、出险方式等；-附加条款：约定该产品的附加条款，如特别约定等；-术语解释：约定该产品的术语解释，如名词定义等；\“\“\“}
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~

ZejunCao

https://zejuncao.github.io/2025/06/11/1000001414-2247509768-1/