仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
赛题名称:MakeDataCount-FindingDataReferences
赛题类型:自然语言处理、信息检索
赛题任务:从科学论文的全文中提取所有被引用的研究数据,并根据上下文将其分类为初级引用(Primary)或次级引用(Secondary)。
https ://www. kaggle.com/competitions/make-data-count-finding-data-references/
MakeDataCount(MDC)是一个全球性的、由社区驱动的倡议,旨在建立开放标准化的指标,用于评估和奖励研究数据的重用和影响力。通过倡导和基础设施项目,MDC旨在将数据作为主要的研究成果加以认可,促进数据在不同数据社区中的共享和重用。通过突出和重视数据的贡献,可以推动更协作、透明和高效的科学实践,从而推动创新和进步。然而,目前科学数据的价值被严重低估,尽管它们是发现和创新的基础。
根据Peters等人(2016)的研究,大约86%的研究数据在当前的数据引用系统中仍然未被引用。此外,数据引用的识别难度较大,因为它们的引用方式多种多样。例如,作者可能在方法部分详细描述数据,或者在其他地方间接提及,或者在参考文献列表中提供正式引用。此外,作者在描述数据与论文之间的关系时,可能会使用不同的语言,例如提到数据是公开可用的(如“publiclyavailable”)或者数据是从其他地方获取的(如“obtainedfrom”)。
本次竞赛的目标是从科学文献的全文中识别出所有数据引用(对研究数据的引用),并标记引用的类型(初级或次级):
初级引用:作为论文的一部分生成的原始或处理过的数据,专门为该研究而产生。
次级引用:从现有记录或已发表的数据中派生或重用的原始或处理过的数据。
竞赛的最终目标是开发一个高性能的模型,能够持续运行在科学文献上,自动化地添加高质量且具有上下文的数据与论文之间的连接,并将其纳入MDC数据引用语料库(MDCDataCitationCorpus)。这将有助于建立开放科学数据的价值和影响力,促进数据的重用。
开始日期:2025年6月11日
参赛截止日期:2025年9月2日(参赛者必须在此日期之前接受竞赛规则)
团队合并截止日期:2025年9月2日(参赛者可以在此日期之前加入或合并团队)
最终提交截止日期:2025年9月9日
竞赛采用的评估指标是F1分数(F1-Score),它通过精确率(precision)和召回率(recall)来衡量准确性。
其中,精确率是真正例(truepositives)与所有预测为正的样本(真正例+假正例)的比率,召回率是真正例与所有实际为正的样本(真正例+假负例)的比率。F1分数平衡了精确率和召回率,一个好的检索算法会同时最大化这两个指标。
参赛者需要从测试数据集中识别出数据引用,并形成唯一的元组(article_id,dataset_id,type)。如果一篇文章中包含多个相同dataset_id和类型的引用,则只需预测一次。没有数据引用的文章不应包含在提交文件中,否则会被视为假正例并受到惩罚。在挖掘研究论文全文时,DOI可能会以完整格式或不完整格式出现,所有DOI都需要转换为完整格式(https ://doi. org/[prefix]/[suffix])。提交文件的格式如下:
在本次竞赛中,参赛者需要从科学论文中提取所有被引用的研究数据(通过其标识符)并根据上下文将其分类为初级引用或次级引用。数据集和论文都有唯一的持久标识符,主要有以下两种类型:
数字对象标识符(DOI):用于所有论文和部分数据集。DOI的格式为[prefix]/[suffix],例如:
https ://doi. org/10. 1371/journal. pone.0303785
https ://doi. org/10. 5061/dryad. r6nq870
存取编号(AccessionIDs):用于部分数据集,其形式因数据存储库而异。例如:
“GSE12345”(GeneExpressionOmnibus数据集)
“PDB1Y2T”(ProteinDataBank数据集)
“E-MEXP-568”(ArrayExpress数据集)
数据文件如下:
训练集(train/{PDF,XML}):包含训练用的文章,格式为PDF和XML。需要注意的是,并非所有PDF文章都有对应的XML文件(大约75%有)。
测试集(test/{PDF,XML}):包含测试用的文章,格式为PDF和XML。重新运行的测试数据集大约有2,600篇文章。
训练标签文件(train_labels. csv):包含训练文章的标签,其中:
Primary(初级):作为论文的一部分生成的原始或处理过的数据,专门为该研究而产生。
Secondary(次级):从现有记录或已发表的数据中派生或重用的原始或处理过的数据。
article_id:研究论文的DOI,位于论文全文中。
dataset_id:论文中引用的数据集标识符及其引用类型。
type:引用类型,分为:
样本提交文件(sample_submission. csv):正确格式的样本提交文件。
科学论文的全文是从EuropePMC开放获取子集下载的PDF和XML格式。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~