仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
教程网页:https ://mllm2024. github.io/CVPR2025/
时间:美国纳什维尔时间2025年6月11日星期三,下午1点到5点。对应北京时间2025年6月12日星期四,凌晨2点到6点。
线下现场位置:MeetingRoom208A,atNashvilleMusicCityCenter
线上参会Zoom:请关注网站https ://mllm2024. github.io/CVPR2025/所公布的信息
多模态大语言模型(MLLMs)研究成为当前最为热门的课题之一,而如何有效的评估这些多模态基础大模型,已成为“AI的下半场”关注焦点。尽管当前已经涌现出多种用于评估多模态大语言模型(MLLMs)的新兴基准,但对于这些评估方式的有效性与科学性仍存在进一步探讨的空间。本次教程旨在回应MLLM发展中对全面且科学有效评估体系的迫切需求。我们将系统梳理现有的MLLM评估基准,深入探讨提升模型性能以实现类人通用人工智能(AGI)的必要路径。教程将介绍MLLM的最新研究进展,综述当前主流基准体系,并探讨多种评估方法。内容将涵盖视觉-语言理解能力、视频模态的评估方法,以及模型在多个专业领域中达到专家水平的能力要求。同时,我们将识别现有多模态通才模型评估中存在的空白,并介绍面向多模态AGI的更全面评估框架。最后,教程将特别聚焦于MLLM中普遍存在的“幻觉现象”(hallucination),并讨论如何缓解与应对,以提升模型的可靠性。
本多模态大模型教程系列已经成功在COLING2024(https ://mllm2024. github.io/COLING2024/)、CVPR2024(https ://mllm2024. github.io/CVPR2024/),ACMMM2024(https ://mllm2024. github.io/ACM-MM2024/)成功举办过,并且受到了全球社区相关参与者的大量关注。本轮教程将会延续前面系列的成功,在CVPR2024(美国纳什维尔)继续延续展开。与前面三轮教程不同的在于,本次教程将会更强调对于MLLM的评测以及基准方面的探讨,以及本方向的最新进展,旨在面向各类相关研究群体,尤其是初学者们提供一个全面的、深入的MLLMEvaluation&Benchmark的介绍,从评测的角度来思考如何促进下一代更强大、更高效、更接近人类智能水平的MLLMs和系统。
欢迎社区所有科研工作者参与教程(现场或者线上)。访问教程网页获取所有的教程slides、视频。
本教程团队来自于新加坡国立大学、CMU、上海人工智能实验室、香港科技大学、腾讯以及UTDallas的多名资深学者,其都在多模态大模型、评测和基准方向上具备丰富的研究经验。
教程内容将会覆盖当前MLLM社区针对模型评测和基准相关的几个主流板块,包括:
ExistingMLLMBenchmarkOverallSurvey,现有多模态大语言模型评估基准概述
Vision-LanguageCapabilityEvaluation,视觉-语言能力评估
VideoCapabilityEvaluation,视频模态能力评估
Expert-levelDisciplineCapabilityEvaluation,专家级多学科能力评估
BeyondEvaluation:PathtoMultimodalGeneralist,超越评估:迈向多模态通才模型的路径
MLLMHallucinationEvaluation,多模态大语言模型幻觉现象评估
时间安排表如下:
欢迎感兴趣的同学积极参与本次CVPR25线上或者线下的教程。