311-B1|长视频理解,空间推理模型,知识单元RAG,MLLM角色扮演;MLLM机器人操作,长时间任务规划
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月3日|周一
2025-02-28|UCAS,UBuffalo|CVPR2025
http ://arxiv.org/abs/2502.21271v1
https ://github.com/ncTimTang/AKS
随着多模态大语言模型(MLLMs)的发展,视频理解的能力得到了显著提升。然而,长视频的处理面临着挑战,主要是因为视频中包含的信息量远超模型的处理能力。现有的解决方案通常通过从视频中均匀抽样一小部分帧来处理输入,但这种方法往往会导致关键信息的丢失,影响模型的回答准确性。为了解决这一问题,本文提出了一种名为自适应关键帧采样(AKS)的新算法,旨在优化关键帧的选择,以最大化所使用视频标记的有效信息。该算法通过插入一个插拔式模块,进行关键帧选择的优化,确保在固定数量的标记中保留尽可能多的信息,从而提升视频理解的效果。
AKS算法的核心在于关键帧选择,它通过两个主要原则来优化关键帧的质量:相关性和覆盖率。相关性指的是每个关键帧与用户提问的相关程度,而覆盖率则是关键帧在整个视频中信息的代表性。具体步骤如下:
相关性计算:使用视觉语言模型(VL模型)来评估每个候选帧与问题的匹配度。
覆盖率评估:通过将视频时间轴分成多个区间,计算每个区间内选定关键帧的数量,以确保信息的均匀分布。
自适应优化:结合相关性和覆盖率,通过递归的“判断-分割”策略来动态选择关键帧,平衡这两个目标,以获取最佳的关键帧集合。
在实验部分,作者在两个长视频理解基准上评估了AKS的效果,分别是LongVideoBench和VideoMME。实验中,AKS被集成到三种基线MLLM中,分别为Qwen2VL、LLaVA-OV和LLaVA-Video。结果显示,通过AKS优化后的模型在视频问答任务中表现出显著的准确性提升,尤其是在选择关键帧的质量上。具体而言,集成AKS的模型在LongVideoBench上实现了62.7%的准确率,超越了未使用AKS的模型。此外,作者还通过定性分析展示了AKS在选择与问题相关的关键帧方面的优势,进一步验证了该方法的有效性。
自适应关键帧采样(AKS)是一种用于提高长视频理解能力的方法。想象一下,你在看一部电影,想知道某个角色在某个时刻做了什么。视频里有很多帧,但并不是每一帧都是重要的。AKS的工作就是帮助计算机选择那些最能回答你问题的关键帧。它做的第一步是判断每一帧与问题的关系,比如“这个帧里有没有我想知道的内容?”接着,它还会检查这些帧是否能覆盖整个视频的主要信息,确保不会错过重要的细节。最后,AKS会结合这些信息,智能地选择出最合适的关键帧,这样当你问问题时,计算机就能更准确地给出答案。这样一来,即使是复杂的长视频,计算机也能更好地理解和回答你的问题。
2025-02-28|MPI-INF
http ://arxiv.org/abs/2502.21075v1
https ://geometric-rl.mpi-inf.mpg.de/srm/
本研究提出了空间推理模型(SpatialReasoningModels,SRMs),旨在系统性地探讨基于扩散和流的生成模型在处理多变量推理能力方面的表现。我们设计了一系列基准测试,用于量化生成模型的高级推理能力,并发现手动与自动的序列化方案能够显著减少模型的幻觉现象。以经典的数独游戏为例,SRMs成功解决了由MNIST图像构成的数独问题,而传统的扩散模型则未能达到正确解答。该研究的核心在于通过构建一个新的框架,评估和提升生成模型在复杂分布下的推理能力,从而为未来的图像、视频及物理基础模型的发展奠定基础。
本研究中,SRMs采用了一种通用框架,用于推理连续随机变量的集合。该框架的关键在于以下几个方面:首先,定义了多种序列化策略,允许在推理过程中对生成顺序进行灵活调整;其次,引入了一种新的训练时采样算法,旨在优化多变量的生成过程;最后,建立了一套基准测试体系,量化生成模型在视觉领域推理时的幻觉现象。通过对生成顺序和采样策略的系统评估,SRMs能够在推理过程中有效捕捉复杂的依赖关系,从而提高准确性。此外,研究还探索了如何利用噪声水平的动态调整来增强模型的推理能力,确保在不同的上下文中,模型能够做出更为准确的判断。
我们在三个新基准数据集上评估了SRMs的推理能力,分别为MNIST数独、像素计数和多边形计数数据集。MNIST数独数据集包含一百万个正确的数独实例,要求模型理解复杂的空间依赖关系。实验结果表明,SRMs在解决数独问题时,特别是在困难的情况下,准确率超过50%,而传统的扩散模型几乎无法解决。对于像素计数任务,SRMs通过平行生成与序列化生成的混合策略,显著提高了生成图像中不同颜色像素的均匀性。最后,在多边形计数数据集上,SRMs同样表现优于标准扩散模型,表明其在处理真实世界复杂性的潜力。
在本研究中,我们开发了一种新的模型,称为空间推理模型(SRMs),它可以帮助计算机更好地理解和解决复杂问题,比如数独游戏。我们的方法主要包括几步:首先,我们让模型学习如何处理一组相关的数字,而不是单个的数字,这样它就能更好地理解它们之间的关系。其次,我们设计了一种新方法,让模型在学习时能够灵活选择生成数字的顺序,这样可以提高它的准确性。最后,我们还创建了一些测试,以评估模型在不同情况下的表现。通过这些方法,SRMs在解决复杂的数独问题时表现得非常出色,尤其是在那些难度较大的情况下,准确率显著高于传统模型。
2025-02-28|HKUST(GZ),HKUST
http ://arxiv.org/abs/2502.20964v1
本研究提出了一种新颖的知识单元检索增强生成(KU-RAG)方法,以提升多模态大语言模型(MLLMs)在视觉问答(VQA)任务中的表现。传统的VQA方法往往依赖于模型在训练期间所获得的通用知识,无法有效处理领域特定或最新的信息。KU-RAG通过整合外部知识库中的细粒度知识单元,克服了这一局限性。该方法不仅提高了模型的知识检索能力,还通过知识纠正链(KCC)增强了推理能力。实验结果表明,KU-RAG在多个KB-VQA基准测试中显著提升了性能,展示了其在复杂视觉问答场景中的有效性。
KU-RAG方法的核心在于知识单元的构建和检索。具体步骤包括:
知识单元定义:每个知识单元(KU)由知识图像、知识名称和知识文本三部分组成,形成一个三元组,以便于精确匹配和检索。
知识单元构建:从外部知识库中提取知识单元,并将其存储在向量数据库中,以便后续检索。知识单元的细分确保了信息的完整性。
查询处理:对用户输入的查询进行预处理,利用YOLO等实例分割技术识别图像中的相关对象,并将其编码以便于与知识单元匹配。
知识检索:通过计算查询与知识单元之间的相似度,选取最相关的知识单元,并将其整合到最终的生成答案中。
知识纠正链:通过多轮对话和阅读理解,指导MLLM在生成答案时考虑检索到的新知识,以提高答案的准确性和一致性。
为验证KU-RAG的有效性,研究者选择了四个代表性的KB-VQA数据集进行测试。实验结果显示,与传统方法相比,KU-RAG在多个数据集上均实现了显著的性能提升。具体而言,GPT-4o与KU-RAG结合后,在OVEN、INFOSEEK、OK-VQA和E-VQA数据集上的表现均优于现有的最先进模型,特别是在E-VQA数据集中,KU-RAG的引入带来了最大的性能提升。此外,通过消融实验,研究者发现知识纠正链和知识单元的有效性对于提升模型性能至关重要。这些结果表明,KU-RAG方法在处理复杂的视觉问答任务时,能够更好地整合外部知识,提高答案的准确性和可靠性。
KU-RAG的工作原理可以简单理解为一个知识检索和回答生成的过程。首先,它会从大量的知识库中提取与问题相关的细节信息,这些信息被称为知识单元。每个知识单元包含一张相关的图片、一段描述和一个名称。接下来,当用户提出一个问题时,KU-RAG会分析问题,识别出图像中的重要元素,并找到与这些元素最相关的知识单元。然后,它将这些信息结合起来,生成一个更准确的答案。此外,为了确保生成的答案是可靠的,KU-RAG还会进行知识纠正,确保模型在回答时不会忽略自己的知识。这种方法不仅提高了模型的回答质量,也使得它在处理复杂问题时更加高效。
2025-02-27|GeorgiaTech
http ://arxiv.org/abs/2502.20504v1
https ://github.com/claws-lab/persona-modality
本研究探讨了不同模态(文本与图像)在多模态大型语言模型(LLMs)中对角色表现的影响。尽管大型语言模型在扮演多样化角色方面取得了显著进展,但对于如何通过不同的表达方式来体现角色的有效性,尤其是图像与文本之间的差异,仍缺乏系统性的研究。为此,研究团队创建了一个新的模态平行数据集,包含40个多样化的人物角色,涵盖了年龄、性别、职业和地点等多个维度。这些角色分别以图像、文本、图像与文本的结合以及图文排版的形式进行表示。通过这一数据集,研究旨在评估多模态LLMs如何在不同场景下体现角色的特征与一致性。
本研究采用了一系列系统化的方法来评估角色模态对多模态LLMs表达的影响。首先,构建了一个包含40个角色的模态平行数据集,每个角色的描述涵盖以下四种表现形式:
文本(T):以自然语言描述角色的特征。
图像(I):通过图像展示角色的外观及环境。
辅助图像(IA):在图像中添加文本信息,以补充角色特征。
描述性图像(ID):将文本特征嵌入图像中,通过排版展示角色信息。
接着,研究者设计了60个针对角色属性的评估问题,并利用多种指标进行系统评估。最终,通过对比不同模态的表现,分析了LLMs在角色一致性、语言习惯等方面的差异,以揭示文本与图像在角色表现中的相对优势。
实验部分涉及对五种多模态LLMs(包括GPT-4o和Llama系列等)的系统评估,主要聚焦于如何利用四种不同的角色模态表示来生成响应。研究者通过设计的60个问题,评估模型对角色描述的理解与表现。实验结果显示,文本模态的角色表现通常优于图像模态,尤其在语言习惯和角色一致性方面。此外,辅助图像和描述性图像的表现也被分析,结果表明,尽管图像模态在某些情况下提供了额外的信息,但文本仍是更有效的角色表达方式。这些发现强调了在多模态LLMs中,文本对角色表现的重要性和优越性。
在本研究中,科学家们想要了解用不同的方式(比如文字和图片)来描述一个角色,哪个更有效。为了做到这一点,他们创建了一个包含40个不同角色的数据库,每个角色都有文字描述和对应的图片。研究者们还设计了60个问题来测试这些角色在不同情况下的表现。通过对比不同的表现方式,研究发现用文字描述角色通常更能让模型理解角色的特点,而用图片则可能会让模型遗漏一些细节。整体来看,文字描述在角色表达上更具优势,尤其是在让模型保持角色一致性和语言风格方面。这项研究为未来如何更好地利用文字和图像来塑造角色提供了有价值的见解。
2025-02-28|PKU,BAAI,CASIA,CAS,HKU,UCAS|⭐️🟡
http ://arxiv.org/abs/2502.21257v1
https ://superrobobrain.github.io/
本研究提出了RoboBrain,一个统一的多模态大语言模型,旨在提升机器人操作的能力,尤其是在长时间的操控任务中。当前的多模态大语言模型(MLLMs)在视觉理解和语言指令处理方面取得了显著进展,但在机器人操作领域仍存在明显的局限性。这些局限主要体现在缺乏三个关键能力:任务规划能力、物体的可用性感知能力和轨迹预测能力。因此,研究者们开发了ShareRobot,一个高质量的异构数据集,专门用于标注与机器人操作相关的多维信息,包括任务规划、物体的可用性和末端执行器轨迹。基于该数据集,RoboBrain通过多阶段训练策略,结合长视频和高分辨率图像,显著提高了机器人的操作能力,最终在多个机器人基准测试中表现出色。
RoboBrain的核心方法包括三个主要模块:任务规划、可用性感知和轨迹预测。具体步骤如下:
数据集构建:利用ShareRobot数据集,标注多维信息,包括任务规划、物体可用性和末端执行器轨迹。这些信息帮助模型理解复杂的操作指令。
多阶段训练:RoboBrain采用分阶段训练策略。第一阶段使用通用的视觉和语言数据进行基础训练,第二阶段结合机器人操作数据,提升模型的操控能力。
模块化设计:RoboBrain的架构分为三个模块:基础模型用于任务规划,A-LoRA模块用于可用性感知,T-LoRA模块用于轨迹预测。每个模块在训练中相互协作,提高整体性能。
实验部分主要评估RoboBrain在多个基准测试中的表现,包括OpenEQA、ShareRobot和RoboVQA。通过将RoboBrain与现有的多种基线模型进行比较,结果表明RoboBrain在任务规划和轨迹预测方面均表现优异。具体的评估指标包括BLEU分数、离散Frechet距离(DFD)、Hausdorff距离(HD)和均方根误差(RMSE)。在可用性预测方面,模型的平均精度(AP)也显示出显著的提升,表明RoboBrain能够准确识别物体的可用性区域。实验结果不仅验证了ShareRobot数据集的有效性,也证明了RoboBrain在复杂机器人操作任务中的潜力。
RoboBrain的工作原理可以简单理解为一个聪明的助手,它能帮助机器人完成各种任务。首先,研究团队创建了一个包含大量任务信息的数据集,类似于一本详细的说明书,告诉机器人如何做事情。接下来,RoboBrain通过多轮学习来提高自己的能力,就像学生通过不断练习来掌握一门技能一样。它的学习过程分为几个阶段,初步学习基本知识,然后逐渐学习更复杂的操作。最后,RoboBrain的设计分为几个模块,每个模块专注于不同的任务,例如规划如何拿起物体、判断物体的可用性和预测移动轨迹。通过这种方式,RoboBrain能够更好地理解人类的指令,并有效执行任务。
2025-02-28|SYSU(SZ),CUHK,MBZUAI,HuaweiNoah’sArkLab,HKU,SJTU
http ://arxiv.org/abs/2502.20742v1
在当前的机器人技术发展中,长时间的任务规划仍然是一个挑战。尽管现有的视觉语言任务规划方法在短期任务中表现良好,但在复杂的长时间任务中常常难以应对。为了解决这一问题,本文提出了一种新的方法——结构化偏好优化(StructuredPreferenceOptimization,SPO)。SPO旨在通过结构化的偏好评估和优化训练策略,提升机器人在长时间任务中的推理和行动选择能力。具体而言,SPO包括两个主要组成部分:基于偏好的评分和优化,以及课程指导训练。通过这些方法,SPO能够系统性地评估推理链,并在简单到复杂的任务中逐步提升模型的泛化能力,从而提高其在动态环境中的表现。为支持这一研究,本文还引入了ExtendaBench,一个涵盖1509个任务的基准测试,专门设计用于评估长时间任务的表现。
SPO方法的核心由两部分组成:偏好评分与优化和课程指导训练。首先,在偏好评分与优化中,模型通过三个关键标准(任务相关性、视觉基础和历史一致性)系统性地评估推理链。具体而言,模型会根据生成的推理链的文本一致性和图像意识进行自我评估。文本一致性确保推理链的逻辑连贯性,而图像意识则保证决策基于环境的视觉信息。其次,课程指导训练则是通过将任务分为超短、短、中等和长四个难度级别,逐步提升模型的训练复杂性。模型在每个阶段都保留一定数量的先前任务,以强化基本推理技能,避免因新任务的引入而导致的灾难性遗忘。整体而言,SPO通过这两种方法的结合,旨在提升机器人在长时间任务中的推理质量与决策能力。
为了验证SPO的有效性,研究团队在ExtendaBench基准上进行了广泛的实验。实验结果显示,SPO在长时间任务规划中显著提升了推理质量与最终决策的准确性。在虚拟家居(VirtualHome)环境中,SPO实现了5.98%的目标条件回忆率(GCR)和4.68%的成功率(SR)提升,而在Habitat环境中,分别提升了3.30%GCR和2.11%SR。这些结果表明,SPO在处理复杂长时间任务时,优于以往的主流方法。此外,研究还进行了消融实验,分析了不同组件对整体性能的贡献,结果表明文本一致性评分和课程指导训练对模型的推理一致性至关重要。综上所述,SPO展现了在视觉语言长时间任务规划领域的强大潜力。
SPO方法的运作可以简单理解为一个两步走的过程。首先,模型会对它的推理过程进行自我评价,就像老师给学生的作业打分一样。它会检查自己的推理是否符合任务要求,并且是否在视觉信息上做出了正确的判断。第二步是课程指导训练,模型会从简单任务开始,逐步挑战更复杂的任务。这种方式就像在学校里,学生从基础知识学起,逐步过渡到高级课程,确保他们不会在学习新内容时忘记之前学过的知识。通过这两种方式,SPO帮助模型在面对复杂的长时间任务时,能够更好地理解和执行,从而提高任务的完成率。