仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
多模态论文专题分享@ICML&ACL2025
北京时间:2025. 06.07周六20:00
纽约时间:2025. 06.07周六08:00
[ICML2025Spotlight]OnPathtoMultimodalGeneralist:General-LevelandGeneral-Bench-费豪新加坡国立大学
[ICML2025Spotlight]VideoRoPE:WhatMakesforGoodVideoRotaryPositionEmbedding?-魏熙林上海人工智能实验室
[ICML2025]Subobject-levelImageTokenization-陈德龙香港科技大学&MetaFAIR
特邀嘉宾:费豪新加坡国立大学高级研究员。研究方向为语言视觉语义理解、多模态大语言模型、自然语言处理。在顶会顶刊上(如ICML、NeurlPS、CVPR、ACL、AAAI、ACMMM、TPMAI、TOIS、TKDE等)发表论文80篇,谷歌学术引用超6000次。获2022年中国中文信息学会优博,2023年世界人工智能大会云帆奖明日之星,2024年世界人工智能大会青年优秀论文奖,获得多次会议最佳论文奖或提名,全球前2%科学家。在多模态大语言模型方面的研究获得2023年CCF-百度松果基金、CCF-快手大模型等基金资助。所主持构建的NExT-GPT、Vitron等通用统一多模态大语言模型系列受到了AI社区的广泛关注。所主持的多模态大语言模型的系列教程(MLLMTutorialSeries)受到社区大量关注。常担任顶级AI领域会议的OrganizationCommittee、(高级)领域主席,任AI学术期刊的编委(副主编),如ACMTALLIP、TOMM和Neurocomputing。
论文:OnPathtoMultimodalGeneralist:General-LevelandGeneral-Bench[ ICML2025Spotlight]
当前的人工智能系统已能够处理文本、图像、音频等多种模态数据,但大多数多模态模型仍局限于特定任务或单一数据类型,缺乏类似人类智能的广泛适应性。此外,现有评估方法通常假设跨任务性能越高,模型的多模态能力就越强,这一标准可能存在局限性。为此,本研究提出两项创新资源:(1)General-Level评估框架:用于衡量AI模型在跨任务、跨模态场景下的知识整合与应用能力;(2)General-Bench基准数据集:涵盖700余项任务和32. 5万条样本,专门用于测试模型的通用多模态能力。基于对100多个现有模型的系统评测,我们发现:尽管部分模型在单一任务上表现优异,但其跨任务、跨模态的知识迁移能力仍然薄弱。这一结果表明,当前多模态系统与真正通用的人工通用智能(AGI)仍存在显著差距。本研究的目标是为开发更强大的多模态AI系统提供指导,使其能够无缝理解与生成多种模态数据,从而推动人工智能向类人通用智能的方向发展。
魏熙林上海人工智能实验室研究实习生,复旦大学博士生。
个人主页:https ://github. com/Wiselnn570
论文:VideoRoPE:WhatMakesforGoodVideoRotaryPositionEmbedding?[ICML2025Spotlight]
尽管旋转位置编码(RoPE)及其变体因具备长上下文处理能力而被广泛应用,但RoPE从一维扩展到具有复杂时空结构的视频仍是一个未解决的挑战。本文首先提出一套系统分析,识别出RoPE在适应视频任务时需重点关注的四个关键特性,而这些在以往研究中往往被忽视。为验证分析,我们设计了更具干扰性的V-NIAH-D任务,在原有V-NIAH任务中引入周期性干扰项,结果表明现有RoPE变体在时间维度设计不当时容易被干扰信息误导。基于上述分析,我们提出了VideoRoPE方法,通过三维结构保留视频的时空关系。VideoRoPE具备以下核心特性:(1)低频时间分配,缓解周期性干扰;(2)对角布局,维持空间对称性;(3)可调时间间隔,实现时间与空间索引的解耦。在多个下游任务中(如长视频检索、视频理解、视频幻觉生成),VideoRoPE均显著优于现有RoPE变体。
王一舟香港科技大学(广州)硕士研究生,师从JieSong教授和XumingHu教授。研究兴趣为大模型幻觉等。
个人主页:https ://1zhou-wang. github.io/
我们提出了MemVR方法,解决多模态大模型(MLLMs)生成与图像内容矛盾的“幻觉”问题。受人类“遗忘时重复查看”的认知机制启发,MemVR在解码阶段动态重注视觉标记:当模型中间层不确定性超过阈值(如γ=0. 75)时,将原始视觉特征作为键值对通过FFN层重注入文本解码器,增强视觉证据的实时补充。该方法无需额外训练或微调,在主流幻觉检测与综合性能基准上准确率均有提高,且推理延迟仅增加约4%(68. 32ms/tokenvs基线65. 71ms)。实验表明,MemVR是当前唯一在降低幻觉同时提升通用能力的方法(如MME总分+32. 2),兼容LLaVA、Qwen-VL等主流架构。
叶依林香港科技大学跨学科研究学院计算媒体与艺术博士生,师从曾伟教授和张康教授,主要研究方向是多模态高维数据可视化和人机交互,在ICML,VIS,CHI,CSCW和TVCG等会议和期刊上发表文章。
个人主页:https ://yilinye. github.io/
论文:AKRMap:AdaptiveKernelRegressionforTrustworthyVisualizationofCross-modalEmbeddings[ ICML2025]
多模态高维嵌入如CLIP等在多模态任务中起到基础作用,例如可应用于跨模态生成模型的对齐评估。为增强跨模态对齐评估的透明度,降维可视化是一种重要途径。然而传统的降维可视化方法无法清晰展示大规模多模态数据集的对齐指标分布。本文提出一种核回归引导的参数化降维方法,能够更好地展示指标分布并支持交互式可视化,可用于全局展示文生图模型在基准数据集上的对齐表现,此方法亦可推广至其他跨模态任务如文生视频等。
陈德龙香港科技大学博士生,目前在MetaFAIRParis访问。研究方向包括视觉-语言多模态学习,基于世界模型的推理与规划。
个人主页:https ://chendelong. world/
论文:Subobject-levelImageTokenization[ ICML2025]
我们所感知的视觉世界并不是由一个个固定的方块(patch)拼凑而成的,而是由丰富且连续的物体和细节构成。我们的工作Subobject-levelImageTokenization(https ://arxiv. org/abs/2402. 14327)提出了一种新的imagetokenization方法,自适应地将图像划分成更符合视觉结构的subobjecttoken——正如自然语言以更有语义意义的subword为单位构成一样。这有效提高了visualtoken的单义性(monosemanticity),与VLM结合后在多个视觉语言任务中展示了更快的收敛速度与更好的泛化性能。
井立强现为美国德克萨斯大学达拉斯分校(UTDallas)计算机科学系博士候选人,师从XinyaDu教授。2023年,他于山东大学计算机科学与技术学院获得硕士学位,导师为宋雪萌教授与聂礼强教授。曾先后在阿里巴巴达摩院、腾讯AILab与AWSBedrock担任研究实习生。他的研究方向聚焦于多模态学习与自然语言处理,当前主要关注大型视觉-语言模型(LVLM)/大型语言模型(LLM)的评测与对齐,以及让LLM/LVLM作为智能体解决真实世界任务。井立强是IJCAI2025首届“多模态知识与语言建模(MKLM)”工作坊的主要组织者,并在AAAI2025“AI4Research”工作坊获得最佳论文奖;其研究还获OpenAI“ResearcherAccessProgramAward”。
个人主页:https ://liqiangjing. github.io
论文:FIHA:AutonomousHallucinationEvaluationinVision-LanguageModelswithDavidsonSceneGraphs[ ACL2025]
大型视觉-语言模型(LVLM)快速发展却伴随普遍的幻觉问题,现有评估方法依赖昂贵的人工标注或额外LLM,且难以覆盖对象属性、关系以及多种幻觉之间的依赖。针对这一痛点,本文提出零标注、零-LLM的细粒度幻觉评估框架FIHA(Fine-grainedHallucinationevAluation):它能在任意图像数据集上自动生成问答对,以极低成本同时评估图像和字幕中的幻觉,并显式建模不同幻觉类型的依赖关系。基于该框架,我们构建多模态基准集FIHA-v1,涵盖MS-COCO和FoggyCityscapes场景,并借助DavidsonSceneGraph组织问答结构以提升评测可靠性。对多款主流LVLM的实验结果表明,FIHA-v1能有效揭示模型在细粒度场景理解上的局限,为后续模型对齐和改进提供了数据与指标支持。
饶珈源,上海交通大学二年级博士生,研究方向为计算机视觉、体育分析。
个人主页:https ://jyrao. github.io
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。
编辑:宁钰成中科院博士在读