仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
整合一下agent常用的评测数据集。(虽然评测数据集很重要,但是谨记Goodhart’slaw,迷信测试指标也不可取。)
数据集
语言
难度
数量
模态
领域
评测方式
GAIA
英文
高
166dev+300test
多模态
涵盖个人日常任务,科学问题,以及通用信息查询
可自动化
BrowseComp
英文
高
1266
文本
多领域
可自动化
BrowseComp-ZH
中文
高
289
文本
11个领域
可自动化
HLE
英文
高
2700+
13%多模态问题
数学、人文科学、自然科学等数十个不同的学科
可自动化
GPQA
英语
中
448道多选题
文本
生物学、物理学和化学
可自动化
ScholarSearch
英文
中
223
文本
覆盖Science&Engineering和SocialSciences&Humanities两大门类,共15个细分学科
可自动化
数据集:GAIA=GeneralAIAgentAssessment,由Meta、HuggingFace等团队联合提出。
数据内容:GAIA所有问题都是研究团队设计的,问题语言都是英文,参考答案也是英文(因此也很依赖英文的搜索工具,所以在中文场景可能略有些局限性)。数据中,大部分是文本(约70%),小部分涉及视频、音频、图像和excel、pdf、ppt、png、jpg、csv、pdb、mp3等多种模态和格式。共有466条数据,其中166条包含唯一答案的问题(valset),因此很适合自动化评测(比如LLM-as-judge);另外还有300条不包含答案的数据(testset,用于leaderboard排名)。
GAIA的数据考察Agent多个维度的能力,包括:推理能力、多模态能力、网页浏览&信息检索、工具使用能力、世界知识等。
GAIA把问题根据难度分成3个等级:level1,level2和level3。level1最简单,level3最难,难度越高,模态也越丰富。通常来说难度越高,需要的工具和步骤越多(但也不是严格绝对的)。
放几条数据样例(valset)的感受一下,数据里除了问题和答案,还有中间step:
可以看到题目的难度是很大的,人来操作也要费一些功夫,特别是level2和level3的题目。
比如第一题,level2的:“一篇关于人工智能监管的论文最初于2022年6月提交到arXiv. org,其中展示了一个包含三个坐标轴的图表,每个坐标轴的两端都有标签词。在2016年8月11日提交到arXiv. org的《物理与社会》文章中,这些词中哪一个被用来描述一种社会类型?”
再看一个,也是level2的:“我正在研究那些被人们当作宠物饲养后放生并成为入侵物种的生物。有一种鱼类因作为电影《海底总动员》的主角而成为热门宠物。根据美国地质调查局(USGS)的数据,在2020年之前,这种鱼在哪些地方作为非本地物种被发现?答案需要以发现地的五位邮政编码格式呈现,若有多处发现地则用逗号分隔。”
看看level1的:“如果埃鲁德·基普乔格能够无限保持他创造纪录的马拉松配速,那么他以最近距离从地球跑到月球需要多少千小时?计算时请使用维基百科上月球的最小近地点数值,并将结果四舍五入到最接近的1000小时,且不要使用任何逗号分隔符。”
最后看个level3的感受一下:“梅赛德斯·索萨在2000年至2009年(含)期间发行了多少张录音室专辑?你可以使用2022年最新版本的英文维基百科。”
BrowseComp(BrowsingCompetition),由OpenAI开源,用于评估agent网络浏览能力的基准测试数据集。
共包含1266个问题,涵盖多个领域。BrowseComp都是文本,没有多模态数据。而且答案都设计为简短、明确的答案,因此可以做自动化验证。
样例:
1、足球比赛查询
答案:爱尔兰对罗马尼亚(Irelandvs. Romania)
2、学术论文查找
答案:《面包制作的基础:面包的科学》(TheFundamentalsofBreadMaking:TheScienceofBread)
BrowseComp的中文版,由港科大(广州)、北京大学、浙江大学、阿里巴巴、字节跳动、NIO等联合发布。大致上是参考BrowseComp搞的。
共有289条数据,覆盖11个领域。
样例:
example1:
example2:
Humanity’sLastExam,人类的最后考试,覆盖了数学、人文科学、自然科学等数十个不同的学科领域。
基本信息:
题目数量:2700+
多模态数据:占比13%
多选题占比:24%
精确匹配题占比:76%
领域分布:
模型表现对比:
OpenAIDeepResearch:26. 6%准确率
Kimi-Researcher:26. 9%准确率
DeepSeek-R1:9. 4%准确率
Gemini2. 5Pro:21. 6%准确率
样例:
Graduate-LevelGoogle-ProofQ&A。
主要包括大学研究生级别的生物学、物理学和化学题目,共有448道多选题:
生物学:33%,约148题
物理学:35%,约157题
化学:32%,约143题
测评结果:
领域博士专家:65%正确率
高技能非专家:34%正确率
GPT-4基线模型:39%正确率
样例:
ScholarSearch是由北京大学DS-Lab团队发布的首个专门用于评估大语言模型在学术研究场景下复杂信息检索能力的数据集,包含223道高难度的学术检索题目及其对应的标准答案。
ScholarSearch是纯文本数据集,覆盖Science&Engineering和SocialSciences&Humanities两大门类,共15个细分学科。数据集主要英文为主。
GPT-4o-search-preview的得分为18. 83%。
样例:
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。