KDD Cup 2025:Meta CRAG-MM Challenge
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
赛题名称:CRAG-MMChallenge
赛题类型:大模型、知识问答
赛题任务:提高RAG真实的效果
https ://www.aicrowd.com/challenges/meta-crag-mm-challenge-2025
近年来,视觉大语言模型(VLLMs)取得了显著进展,为智能眼镜等设备提供了多模态理解和视觉问答(VQA)能力。然而,VLLMs仍面临一个关键挑战:生成虚假或错误答案(幻觉问题)。研究表明,VLLMs在处理涉及长尾实体或复杂查询时表现不佳,尤其是在需要整合多种能力(如识别、OCR、知识检索和生成)的任务中。
为了突破这一限制,检索增强生成(RAG)技术被扩展至多模态(MM)输入领域。MM-RAG系统能够结合图像和问题生成搜索查询,从外部数据源检索相关信息,并生成基于事实的答案[3]。这一技术有望解决VLLMs的知识局限性,但其实际应用仍面临诸多挑战,例如:
正确识别图像中的主体并理解视觉上下文
高效检索有用信息
整合多源数据生成连贯且准确的答案
支持流畅的多轮对话
目前,领域内亟需一个标准化、可量化的基准测试框架,以全面评估MM-RAG系统的性能,推动技术创新。
CRAG-MM是一个专注于事实性问答的视觉问答(VQA)基准测试,旨在为可穿戴设备提供全面的多模态多轮对话评估。其特点包括:
本次比赛旨在评估和推动多模态检索增强生成(MM-RAG)技术在智能问答系统中的应用。参赛团队需开发能够结合图像理解、外部知识检索和自然语言生成的AI系统,以准确、可靠地回答用户问题,同时避免生成虚假信息(幻觉)。
CRAG-MM包含5类问题,难度递增,覆盖现实场景需求:
答案可直接从图像中获取(如OCR或物体识别)。
(包装标签可见)
需结合外部知识(如商品价格、人物背景)。
需串联多个信息片段(如跨数据源检索)。
需对比或统计多个条目(如菜单筛选、价格比对)。
需基于实体属性进行逻辑推断(如电器兼容性)。
(需推理电压兼容性)
目标:测试基础MM-RAG能力,仅使用图像关联的知识图谱(KG)生成答案。
输入:图像+单轮问题。
检索源:模拟API提供与图像关联的KG结构化数据(如商品信息、地点详情)。
挑战:答案可能不存在于KG中,需模型判断知识边界。
目标:评估多源信息融合能力,新增网页检索作为第二知识源。
输入:图像+单轮问题。
检索源:KG+模拟网页搜索(含相关信息和噪声)。
挑战:过滤噪声网页,精准合成多源信息。
目标:测试对话上下文理解与连贯性。
输入:图像+多轮对话(2–6轮),后续问题可能依赖或不依赖图像。
挑战:指代消解(如“它”“这个”)、历史状态跟踪、动态检索策略调整。
官网开放&注册启动:2025年3月6日23:55UTC
数据集发布:2025年3月15日23:55UTC(提供样本数据供初步测试)
热身赛开始:2025年3月24日23:55UTC(非强制,供调试模型)
提交开放:2025年4月4日23:55UTC
提交截止:2025年5月10日23:55UTC
Phase2开始:2025年5月11日23:55UTC
团队冻结截止:2025年5月21日23:55UTC(此后不可变更团队成员)
Phase2结束:2025年6月1日23:55UTC
本次比赛围绕多模态检索增强生成(MM-RAG)技术,要求参赛者开发能够结合视觉理解与知识检索的智能问答系统,完成以下核心任务:
根据给定的图像和用户问题,生成准确、可靠的答案。
在连续对话中保持上下文一致性,动态结合历史交互与新增图像/问题信息。
针对冷门实体或需多步推理的问题,通过高效检索生成可信答案。
测试MM-RAG系统的基础答案生成能力,仅依赖图像关联的知识图谱(KG)进行回答。
输入:图像+单轮问题。
知识来源:
提供模拟API,可访问基于图像的模拟知识图谱(MockKG)。
KG以图像为索引,存储结构化关联数据(如商品信息、地标介绍等)。
关键点:
答案可能存在于KG中,也可能需要模型判断“未知”。
API返回与输入图像相似的图像及其关联数据,辅助生成答案。
测试MM-RAG系统如何有效整合多源信息,在图像知识图谱(KG)的基础上,新增网页检索作为第二知识来源,并处理其中的噪声信息。
输入:图像+单轮问题(与任务1相同)。
知识来源:
图像关联知识图谱(MockKG)(同任务1)。
模拟网页搜索API:返回可能相关的网页内容(含有效信息和噪声)。
关键点:
需从多源数据(结构化KG+非结构化网页)中筛选、融合有用信息。
网页内容可能包含干扰项(如无关广告、错误信息),要求模型具备抗噪声能力。
测试MM-RAG系统的多轮对话能力,要求模型在2-6轮的连续对话中:
准确理解上下文依赖(如指代消解、话题延续)
动态判断是否需要重新调用图像信息
保持回答的一致性与连贯性,避免幻觉
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~