321-B1|多模态(图像、视频、3D、具身)


321-B1|多模态(图像、视频、3D、具身)

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月17日|周一
New!|为了更好的服务广大研究者与爱好者,未来,我们将陆续开源PaperDaily系列源文件至Github平台,欢迎大家持续关注!!!
https ://github. com/AIGCResearch/Awesome-PaperDaily
2025-03-13|Microsoft,OSU
http ://arxiv. org/abs/2503. 10857v1https ://github. com/microsoft/lmm-graphical-perception
本研究探讨了大型多模态模型(LMMs)在图表理解方面的感知能力,尤其是在简单的图形信息处理任务中。这些模型在复杂的视觉-语言任务中表现出色,但在处理仅需感知的简单图表任务时却显得力不从心。现有的评估基准主要集中于综合能力,未能深入分析模型在图形感知方面的具体局限性。为此,研究者借鉴了图形感知理论,开发了一种评估框架,用于系统地分析LMMs在不同图表类型、视觉元素和任务类型下的感知能力。通过此框架,研究发现当前最先进的LMMs在理解图表时存在显著的缺陷,包括无法跨图表类型进行有效泛化、理解基本视觉元素的能力不足,以及在图表内部进行值的交叉引用的能力欠缺。
本研究提出了一种评估框架,旨在系统地评估LMMs的图形感知能力。该框架包含以下几个关键步骤:首先,利用VisText数据集生成多样化的图表,确保涵盖不同类型的数据属性。其次,设计自动化的任务生成和响应评估流程,针对不同的图表表现任务进行评估。具体而言,研究生成了14种不同类型的图表,并基于这些图表设计了10种任务类型,如值检索、极值查找和异常检测等。这些任务旨在覆盖模型的多层次感知能力,从单个数据点到整个数据集的处理能力。最后,研究通过对模型的响应进行自动化评估,以了解它们在不同任务和图表类型下的表现差异。
在实验部分,研究团队对多种LMMs进行了系统评估,重点分析了它们在处理不同图表类型时的表现。实验结果表明,尽管模型在特定图表类型上表现良好,但在面对不同类型的图表时,性能波动显著,显示出有限的泛化能力。此外,LMMs在没有显式数值注释的情况下,准确性显著下降,进一步揭示了它们对视觉信息的依赖性。通过对不同任务的复杂性进行分层评估,结果显示,模型在处理简单任务时表现优异,但在复杂任务中则面临挑战,尤其是在需要跨图表引用和理解基本视觉元素的任务中。最终,研究提供了对当前LMMs在图形感知方面的洞见,并指出了未来改进的方向。
在这项研究中,科学家们想要了解大型多模态模型(LMMs)如何理解图表。这些模型在复杂的视觉和语言任务中表现得很好,但在处理简单图表时却常常出错。为了更好地评估这些模型的能力,研究人员开发了一种新的方法。这种方法首先利用一个叫VisText的数据集,生成多种不同类型的图表,然后设计了一系列任务,比如从图表中找出特定值或识别异常数据。通过这些任务,研究人员可以观察模型在不同情况下的表现。实验结果显示,尽管模型在某些图表上表现不错,但当面对不同类型的图表时,它们的表现却大相径庭,显示出它们理解图表的能力还有待提高。这项研究帮助我们更好地理解这些模型的局限性,并为未来的改进提供了方向。
2025-03-14|THU,JD,GRGBanking,SCUT
http ://arxiv. org/abs/2503. 11187v1https ://github. com/LLaVA-VL/LLaVA-NeXT
在视频大语言模型(VideoLLMs)中,如何有效理解视频内容是一项挑战。尽管这些模型在视频理解方面表现出色,但高昂的推理成本限制了它们的实际应用,主要原因在于冗余视频令牌的存在。现有的剪枝技术未能充分利用视频数据中固有的时空冗余。为了解决这一问题,本文提出了一种名为FastVID的动态密度剪枝框架,旨在加速视频LLMs的推理速度。FastVID通过对视频进行系统分析,从时间和视觉两个方面探讨冗余,并提出动态时间分割和基于密度的令牌剪枝策略。这种方法显著降低了计算开销,同时保持了视频的时空完整性。实验结果表明,FastVID在多个短视频和长视频基准上达到了领先的性能,尤其是在保留98%的原始性能的情况下,成功剪除90%的视频令牌。
FastVID的核心方法包括两个主要部分:动态时间分割(DySeg)和密度时空剪枝(STPrune)。首先,DySeg将视频划分为时间顺序的高冗余段落,确保相似帧被分组在一起,从而保持时间结构。具体步骤如下:
时间分段:通过分析帧之间的相似性,动态调整分段边界,确保每个段落内的帧高度相似。
密度剪枝:在每个段落内,采用密度基令牌合并(DTM)和注意力基令牌选择(ATS)来保留重要的视觉信息。DTM根据令牌的局部密度合并冗余令牌,而ATS则通过[ CLS]注意力分数选择显著视觉细节。
令牌压缩:经过以上步骤,保留适量的令牌供后续处理,确保在降低计算复杂度的同时,尽可能保留关键信息。
为了评估FastVID的有效性,研究团队在多个视频理解基准上进行了广泛的实验,包括MVBench、LongVideoBench、MLVU和VideoMME。这些基准涵盖了不同复杂度和时长的视频,确保对FastVID的全面评估。实验结果显示,FastVID在保留高达98. 0%原始模型性能的同时,能够剪除高达90%的视频令牌。此外,FastVID在与其他最先进的方法(如DyCoke和PruneVID)进行比较时,表现出显著的优势,尤其是在推理速度和准确性方面。通过对不同视频长度和复杂度的评估,FastVID展现出良好的通用性和适应性,证明其在视频理解任务中的潜力。
FastVID的工作原理可以简单理解为对视频内容的“聪明剪裁”。想象一下你在看一部电影,电影中有很多重复的场景和不必要的细节。FastVID就像一个剪辑师,它可以把那些冗余的部分剪掉,只留下精彩的片段。首先,它会将视频分成几个小段,每个段内的场景是相似的,这样可以保持故事的连贯性。接下来,在每个小段中,FastVID会选择最具代表性的画面和重要的细节进行保留,确保我们不会错过任何重要的信息。通过这种方式,FastVID能够在不影响观看体验的前提下,大幅度减少需要处理的视频数据,从而加快了视频分析的速度。
2025-03-14|UWaterloo,UToronto,01. AI ,VectorInstitute,M-A-P
http ://arxiv. org/abs/2503. 11579v1https ://tiger-ai-lab. github.io/Vamba/
VAMBA(HybridMamba-TransformerModel)是一个新提出的模型,旨在高效处理长达一小时的视频理解任务。传统的基于变压器的大型多模态模型(LMMs)在处理长视频输入时面临着计算复杂度高和内存消耗大的问题,尤其是在自注意力机制中存在的二次复杂性。尽管现有的令牌压缩方法可以减少视频令牌的数量,但往往会导致信息损失,并且在极长序列中仍然表现不佳。VAMBA通过采用Mamba-2块以线性复杂度编码视频令牌,避免了令牌的减少,能够在单个GPU上编码超过1024帧的视频。与传统模型相比,VAMBA在训练和推理过程中至少减少了50%的GPU内存使用,并且在每个训练步骤的速度几乎加倍。实验结果表明,VAMBA在长视频理解基准数据集LVBench上比之前的高效视频LMMs提高了4. 3%的准确性,并在多种长短视频理解任务中保持了强大的性能。
VAMBA的方法主要包括以下几个核心设计要素:
Mamba-2块:该模型使用Mamba-2块来处理视频令牌,通过线性复杂度的方式减少计算开销,避免了传统变压器模型中自注意力的二次复杂性。
交叉注意力层:在更新文本令牌时,VAMBA采用交叉注意力机制,利用视频令牌作为键和值,而文本令牌作为查询,这样可以有效地减少计算复杂度。
两阶段训练策略:VAMBA采用两阶段的训练策略,首先进行预训练,然后进行指令调优。在预训练阶段,模型初始化自预训练的变压器模型,并冻结部分组件,仅训练新引入的交叉注意力和Mamba层。
信息蒸馏:在预训练阶段使用信息蒸馏损失,以确保模型能够恢复其视觉理解能力。
复杂度分析:通过将自注意力和交叉注意力的复杂度分开,VAMBA的复杂度从O(d(M+N)²)降低到O(dMN+d²M),在处理长视频时显著提升了效率。
在实验部分,研究者进行了全面的消融研究,以评估VAMBA的设计选择。首先,比较了不同的Mamba块设计,结果显示Mamba和Mamba-2块均能提高模型性能,后者表现更优。其次,研究了交叉注意力层的初始化策略,发现将交叉注意力层权重初始化为自注意力层的权重对提升模型性能至关重要。接着,模型在长视频理解基准LVBench、HourVideo和HourEval上进行了评估,VAMBA在这些基准测试中均表现优异,超越了多个高效视频LMMs。最后,模型的运行效率分析显示,VAMBA在训练和推理阶段均显著降低了GPU内存使用和计算需求,能够在单个GPU上处理更多帧的视频。
VAMBA是一个新型的模型,专门用于理解长视频。它的工作原理很简单。首先,它使用一种叫做Mamba的技术来处理视频数据,这种方法能够让模型以更快的速度处理更多的画面,而不丢失重要的信息。其次,在处理文本部分时,VAMBA通过交叉注意力的方式来更新文本信息,这样可以更高效地利用视频数据。为了让模型更聪明,VAMBA还采用了两阶段的训练方式,先用已有的知识进行预训练,再进行细化训练。最后,研究人员通过多次实验发现,VAMBA在理解长视频方面表现得非常好,甚至在一些标准测试中超越了其他模型。总的来说,VAMBA通过聪明的设计和训练方法,能够更快、更准确地理解长视频内容。
2025-03-12|WestlakeU,HDU
http ://arxiv. org/abs/2503. 10691v1
本研究提出了COVER(COunterfactualVidEoReasoning),这是一个全新的多维度多模态基准,旨在系统评估多模态大语言模型(MLLMs)在视频理解中的反事实推理能力。以往的多模态基准往往忽视了反事实推理的重要性,而COVER通过将复杂查询分解为结构化的子问题,促进了更细致的推理分析。研究表明,子问题的准确性与反事实推理能力之间存在显著关联,强调了结构化推理在视频理解中的关键作用。此外,COVER为评估MLLMs在动态环境中的逻辑推理能力设定了新标准,揭示了增强模型推理能力对于提升视频理解的鲁棒性至关重要。
COVER基准通过以下几个步骤构建:首先,基于抽象-具体和感知-认知的维度,将任务分为四个象限,每个象限对应不同的推理能力评估。然后,设计了13个具体任务,以评估模型在复杂视频场景下的多样推理能力。接着,COVER引入了子问题推理机制,允许将复杂问题分解为多个必要条件,从而进行更深入的性能评估。最后,通过严格的数据验证过程,确保了数据的高质量和可靠性。通过这种方式,COVER不仅能够评估模型在反事实推理中的表现,还能揭示模型在应对动态变化时的优势和不足。
在实验部分,研究团队对多种规模的MLLMs进行了全面评估,重点分析了它们在COVER数据集上的表现。实验结果显示,模型在子问题的准确性与反事实推理和视频理解的鲁棒性之间存在强正相关。通过比较开源和商业模型的性能,发现大模型在处理复杂推理任务时的表现显著优于小模型。此外,研究还探讨了自动生成的子问题与人工设计的子问题对模型推理能力的影响,结果表明,手动设计的子问题在某些情况下并未显著提升模型性能。实验结果为未来的模型优化和推理能力提升提供了重要的见解。
在COVER基准中,研究者们想要了解机器学习模型在理解视频时的推理能力。为了做到这一点,他们将复杂的问题拆分成更小的、简单的问题,这样模型就可以一步一步地思考,而不是一次性解决所有问题。这个过程就像是把一个大难题分解成多个小难题,逐一攻克。研究还发现,模型在解决这些小问题时的表现,能很好地预测它在更复杂问题上的表现。通过这种方式,COVER帮助研究人员更清楚地了解模型的优缺点,特别是在处理动态和复杂的视频场景时。
2025-03-14|THU,JD,SCUT,GRGBanking
http ://arxiv. org/abs/2503. 11205v1
在视频理解领域,LLaVA-MLB(MitigatingandLeveragingAttentionBias)提出了一种新颖的方法,旨在提升训练免费的视频大型语言模型(LLMs)的性能。传统的训练方法通常需要大量的标注数据和计算资源,而LLaVA-MLB通过利用预训练的图像LLMs来处理视频内容,避免了额外训练的需要。研究中指出,视频序列中存在一种位置注意偏差,导致模型对后期帧的关注过度,从而忽视了早期帧的重要信息。为了解决这个问题,LLaVA-MLB设计了一种两阶段的方法,首先进行序列压缩以减少输入的token数量,然后在扩展阶段有效利用压缩后的信息,从而实现更好的视频理解。实验结果表明,该方法在多个基准测试中超越了现有的最先进技术,显示出在效率和准确性上的显著提升。
LLaVA-MLB的方法分为两个主要阶段:序列压缩和序列扩展。具体步骤如下:
序列压缩:首先,从视频中均匀采样多个帧,并使用图像编码器生成tokens。为了应对LLM的token数量限制,采用GriddedAttentionPooling(GAPool)技术,确保在多个局部网格中选择与查询相关的tokens,从而保留时空结构。这一过程通过选择高注意力分数的tokens来实现,避免了位置偏差的影响。
序列扩展:在压缩后,多个压缩后的token段被合并,以增强时间上下文。此阶段还引入了VisualSummarizationTail(VSTail)模块,利用注意力偏差生成一个小的token集合,作为输入的总结信息,进一步提升视频理解的整体效果。
为了验证LLaVA-MLB的有效性,研究团队在多个任务上进行了实验,包括文本生成、开放式视频问答和多项选择视频问答。实验结果表明,LLaVA-MLB在这些任务中均表现出色,尤其是在ANet-QA和EgoSchema基准测试中,分别提高了0. 8%和4. 2%的准确率。此外,LLaVA-MLB在效率方面也表现优异,预填充时间仅为传统方法的57%。通过与现有技术的对比,LLaVA-MLB不仅在准确性上有所提升,同时在处理速度上也有显著的优化,显示出其在训练免费的视频理解领域的潜力和优势。
LLaVA-MLB的方法可以简单理解为两个步骤:首先是“压缩”,然后是“扩展”。在压缩阶段,系统从视频中选取一些关键帧,并提取出与问题相关的信息。为了确保信息的完整性,系统使用了一种叫做GAPool的技术,这就像在每个小块中找到最有用的内容,避免只关注最后一帧。接着,在扩展阶段,系统把这些压缩的信息合并在一起,形成一个更全面的视角,并加入一些总结信息,帮助理解整个视频的内容。这样做的好处是,系统不仅能更快地处理信息,还能更准确地回答关于视频的问题。
2025-03-13|CMU,Meta
http ://arxiv. org/abs/2503. 10745v1https ://univlg. github.io
在当今的视觉语言理解领域,3D模型的应用受到数据稀缺的限制。尽管先前的研究表明,3D模型通常优于其2D对应物,但由于缺乏大规模的3D数据集,2D模型依然占据主导地位。为了解决这一问题,本文提出了一种新颖的统一架构UniVLG,旨在桥接2D和3D视觉语言理解之间的差距。UniVLG通过初始化大部分模型权重于预训练的2D模型,并同时在2D和3D数据上进行训练,从而提升3D理解能力。此外,该模型采用了一种语言条件的掩码解码器,能够在RGB和RGB-D图像中有效地进行目标分割,超越了传统的基于框的检测方法。通过这些创新,UniVLG在多项3D视觉语言基准任务上取得了最先进的表现,展示了2D视觉语言学习的进展如何能够转移到受限的3D领域。
UniVLG的架构设计基于对2D和3D数据的有效整合。具体方法如下:
输入处理:模型接收语言查询、N个RGB图像和相应的3D点图。RGB图像通过深度估计生成3D点图。
视觉编码器:使用DiNOVIT编码器对每个RGB图像进行独立编码,结合多个层的特征,通过3D相对注意力机制来处理输入的RGB视图。
语言编码器:将自然语言查询嵌入为特征向量,生成与视觉特征相结合的查询。
语言条件掩码解码器:该解码器基于编码的视觉特征和语言信息,输出每个提到对象的3D分割掩码。
监督目标:通过匈牙利匹配算法监督预测的掩码,匹配语言查询与视觉特征,确保模型的输出与输入语言内容高度相关。
为了验证UniVLG的有效性,研究者在多个3D和2D基准任务上进行了评估,包括3D参考定位、3D问答和3D实例分割。实验中,UniVLG分别在仅使用3D数据和同时使用2D与3D数据的情况下进行训练。结果显示,UniVLG在所有3D视觉语言基准上均超越了现有的最先进方法,特别是在使用传感器生成的点云而非传统的网格数据时,表现尤为突出。此外,模型在2D参考定位任务上的表现同样出色,证明了其在多模态任务上的普适性和有效性。通过对比不同训练策略,研究还发现将2D与3D数据结合训练显著提升了模型的3D性能,而不影响2D任务的表现。
UniVLG模型的工作原理可以简单理解为一个多功能的“翻译器”,它能够将语言指令转化为对图像中对象的理解。首先,模型接受用户的语言输入和一系列图像。然后,它会分析这些图像,提取出重要的视觉信息。接着,模型结合这些视觉信息和语言输入,生成每个提到对象的分割区域,就像在图像上画出一个个框框,标注出这些对象的位置。为了确保这些框框准确,模型使用了一种聪明的方式来匹配语言描述和视觉特征,确保它理解用户的意图。这种方法使得模型不仅能够处理3D场景中的对象,还能在2D图像中保持良好的表现,展示了它在不同情况下的灵活性和准确性。
2025-03-14|BICHR,HKUST(GZ),HKUST,UTS(Sydney)
http ://arxiv. org/abs/2503. 11089v1
在当前的研究中,EmbodiedVSR(EmbodiedVisualSpatialReasoning)框架被提出,以解决多模态大语言模型(MLLMs)在空间推理任务中的局限性。尽管这些模型在理解视觉场景和语言指令方面取得了显著进展,但在动态环境下的复杂空间推理任务中仍面临挑战。EmbodiedVSR通过动态场景图生成和链式思维(CoT)推理,增强了具身智能体的空间理解能力。该框架通过构建结构化知识表示,使得机器人能够在没有任务特定微调的情况下进行零-shot空间推理。此外,为了评估该框架的性能,研究团队开发了eSpatial-Benchmark,这是一个包含真实世界场景和细致空间注释的综合数据集,旨在推动多模态大模型在具身智能场景中的应用。
EmbodiedVSR的核心方法包括三个主要部分:动态场景图生成、物理约束的链式思维推理和零-shot生成。首先,动态场景图通过持续跟踪环境状态变化来构建,能够在每个时间步骤中更新对象状态和相互关系。具体而言,场景图被表示为G={V,E},其中V是节点(对象),E是边(对象之间的关系)。其次,物理约束的链式思维推理模块确保在每一步推理中遵循几何可行性,防止因推理错误导致的后续操作失败。最后,零-shot生成允许模型通过与环境的交互进行参数自由的推理,而不依赖于特定的任务训练。通过这种方式,EmbodiedVSR有效地整合了语言推理与物理环境的动态变化,提升了机器人在复杂空间任务中的表现。
为了验证EmbodiedVSR的有效性,研究团队在多个基准数据集上进行了实验,包括eSpatial-X、eSpatial-RoboMIND和eSpatial-Lego。实验结果显示,EmbodiedVSR在空间推理任务中的准确性显著高于基线模型,如GPT-4o、NVLM-D-72B和Llama-3. 2-90B。在短期问答任务中,EmbodiedVSR展示了较强的理解和响应能力,能够有效解读动态场景中的复杂问题。此外,在长期顺序操作任务中,该框架在LEGO组装任务中表现出色,成功率高达100%。通过这些实验,研究表明,EmbodiedVSR不仅提升了模型的空间智能,还在实际应用中有效地桥接了多模态大语言模型与具身智能的差距。
EmbodiedVSR的工作原理可以简单理解为一个智能机器人的思考过程。首先,机器人通过观察周围环境,建立一个动态的场景图,就像在脑海中绘制出一幅图画,记录下所有物体及其之间的关系。然后,机器人利用这个图来判断每一步该怎么做,确保每个动作都是合理的,就像在玩拼图游戏时,必须把每个块放在正确的位置。最后,机器人不需要事先学习特定的任务,而是通过与环境的互动,自主学习如何处理不同的情况。这种方法让机器人在面对复杂的实际任务时,能够灵活应对,做出更准确的判断和决策。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录