科大讯飞AI大赛:濒危植物命名实体识别挑战赛 Baseline
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
赛题名称:濒危植物命名实体识别挑战赛
赛题类型:自然语言处理
赛题任务:从非结构化文本中自动抽取与濒危植物相关的关键信息
https ://challenge. xfyun.cn/topic/info?type=endangered-plant-ner&ch=dwsf259
全球植物多样性正面临严峻挑战,濒危植物因人类活动、气候变化、栖息地破坏等因素急剧减少。这些植物不仅具有生态环境调节和维持生态平衡的重要作用,同时也是科学研究和生物医药开发的重要资源。
然而,目前大量关于濒危植物的关键信息分散在科研论文、调查报告、野外观察记录等非结构化文本中,传统人工标注既费时又容易出现疏漏。借助人工智能技术,特别是命名实体识别(NER)技术,可以实现对文本中关键信息的自动抽取,为植物保护、科学研究及政策制定提供有力数据支持。
本次濒危植物知识抽取挑战赛为参赛选手提供了一个包含5种不同命名实体的标注数据库,总共95,351个标注标签。数据集来源于中国珍稀濒危植物信息系统,具备权威性和专业性。
命名实体识别数据集包括95,351个标签,涵盖5种不同实体,旨在展示它们在不同语境条件下的特征,并为每条文本附有对应的实体类型标签。训练集用于模型训练,提供训练文本及其对应的类别标签;测试集用于评估模型性能,仅包含文本数据,参赛者需要识别文本中存在实体的类型。
Label
Training
Testing
plant
50251
13500
class
10100
13500
environment
10000
13500
area
12000
13500
altitude
13000
13500
本模型依据提交的结果文件,采用F1分数进行评价。
首先,对于每一种植物实体类别,首先按照模型预测结果的置信度(预测的准确性)降序排列预测结果。然后,计算每个预测结果的TP(TruePositives,正确检测到的实体),FP(FalsePositives,错误地将背景或其他类别误识别为目标实体),以及FN(FalseNegatives,未能检测到的真实实体)。
对于每个类别,计算Precision和Recall。Precision表示在所有被识别为该类别的预测中,正确预测的比例。Recall表示在所有真实为该类别的样本中,被正确检测出的比例。计算公式如下:
随后,为每个类别计算F1分数。F1分数是Precision和Recall的调和平均,计算公式如下:
最后,为每个类别计算平均F1分数(mF1):将所有类别的F1分数相加,除以类别总数得到mF1。
赛题是一个典型的实体识别任务,因此可以借助BERT或大模型来解决。
加载本地模型:
如下为提示词案例:
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~