48个流行开源ML数据集及KG三元组抽取工具AI Knowledge Graph
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天是2025年6月3日,星期二,北京,晴
我们继续来看一些有趣的数据和工具。
包括48个流行的开源机器学习数据集,知识图谱三元组抽取工具AIKnowledgeGraph以及模型调用工具的提示项目tooluser。
都是很实用的工作,顺便了解下原理,其实还是有收益的。
先来看数据集方面进展,来看48个最流行的开源机器学习数据集,分成6个类别。
1、自然语言处理类数据集
SQuAD:基于维基百科构建的问答数据集,答案以文本片段形式给出。
MSMARCO:真实世界的搜索查询与段落对。
CoNLL-2003:包含新闻专线文章的命名实体识别数据集。
ThePile:来自EleutherAI的825GB开源文本语料库。
WikiText-103:用于语言建模的长篇维基百科文章。
WMT:机器翻译基准测试的标准。
IMDbReviews:包含5万条评论的情感分类数据集。
GLUEBenchmark:涵盖9项自然语言理解任务的评估基准。
2、计算机视觉类数据集
ImageNet:引发了视觉领域深度学习热潮的数据集。
PASCALVOC:包含检测、分割和分类任务。
OpenImages:900万张带有边界框和标签的图像。
KITTI:包含立体视觉、激光雷达和检测任务的自动驾驶汽车数据集。
COCO:丰富的物体分割和描述数据集。
Cityscapes:城市场景的像素级分割。
MNIST:经典的handwrittendigits数据集。
CIFAR-10和CIFAR-100:小型图像分类数据集。
3、推荐系统数据集
Yambda-5B(Yandex):包含47. 9亿多模态交互,具有音频嵌入和自然与推荐标志。该数据集使用全局时间分割进行评估,与留一法不同,不会破坏时间依赖性。这模拟了现实的模型测试。
MovieLens:不同规模(10万至2500万)的评分和标签。
NetflixPrize:来自Netflix公开竞赛的标志性1亿评分数据集。
Yelp数据集:包含元数据和社交网络特征的本地企业评论。
Last. fm(LFM-1B):10亿次音乐收听事件,带有时间戳和曲目元数据。
Criteo1TB:用于广告的大量点击数据集。
Spotify百万播放列表:用户生成的音乐播放列表,用于序列化推荐。
AmazonReviews:2亿多条跨多年和多个领域的商品评论。
4、表格类数据集
UCIAdult:人口普查收入分类任务。
IrisFlower:经典的3类花卉数据集。
WineQuality:用于回归和分类的红/白葡萄酒数据。
Titanic:预测乘客生存。
UCIMLRepo:500多个经典数据集的集合。
CaliforniaHousing:预测中位房价。
DiabetesDataset:医学回归基准。
RossmannSales:带有商店和促销元数据的时间序列预测。
5、强化学习类数据集
OpenAIGym+Atari:具有离散和连续动作空间的强化学习环境。
D4RL:来自MuJoCo、AntMaze等的离线强化学习基准,包含记录的轨迹。
RLUnplugged:来自DeepMind控制套件和Atari的离线强化学习数据集。
MineRL:用于样本高效强化学习的Minecraft演示数据集。
Meta-World:50多个机器人操作任务。
CARLA:自动驾驶模拟器。
DeepMindControlSuite:连续控制物理任务。
ProcgenBenchmark:用于泛化的程序化生成强化学习游戏。
6、多模态类数据集
COCOCaptions:30万张图像的150万个人工撰写的标题。
Flickr30kEntities:图像标题中的短语-区域映射。
VQAv2. 0:基于图像的视觉问答。
LAION-5B:用于训练CLIP和StableDiffusion等模型的网络规模图像-文本对。
AudioSet:带有事件标签(例如狗叫、钢琴)的音频剪辑。
HowTo100M:来自YouTube教学视频的视频-文本对。
WikipediaImage-Text(WIT):从维基百科抓取的3700万图像-文本对。
MovieQA:基于视频字幕、情节和视觉内容的问答。
此外,基于这些机器学习数据集,还可以再看下有哪些机器学习的算法,以及对应的复杂度。
1、知识图谱三元组抽取工具AIKnowledgeGraph
继续看知识图谱进展,看AIKnowledgeGraph,一个提取spo三元组工具,https ://github. com/robert-mcdermott/ai-knowledge-graph,
实现流程很简单,为文本分块->SPO三元组抽取->实体标准->关系推理->最终进行可视化。
可以看一个直观的例子:
1)文本分块及SPO三元组抽取
2)实体标准化
3)关系推理
2、模型调用工具的提示项目tooluser
看一个项目tooluser,主要是为了一些本身不支持函数调用的LLM模型(DeepSeekV3/R1等,现在R1–0528已经支持了)启用工具使用功能。
最后,在实际使用时,使用模型的json指令遵循能力来做,这个其实就跟23年的langchain是一样的;
1、https ://github. com/robert-mcdermott/ai-knowledge-graph
2、https ://github. com/BeautyyuYanli/tooluser
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。