仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:自动驾驶Daily
作者:FightingCV
链接:https ://mp.weixin.qq.com/s/QvFjPcV-Y8k6BbljmxwaSQ
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
提到大模型大家可能首先想到的是对话式人工智能,却很少想到视觉领域。其实大模型在视觉领域中也有许多应用,本文对此汇总了目前市面上常用的视觉大模型,希望对大家有所帮助。
https ://github.com/jefferyZhan/Griffon
目前的VLM不能兼备vision-center和vision-language的能力
直接堆叠这两个任务的数据并不能很好的提升两个任务的性能
推出名为CCMD-8M的多维精选和整合的多模态数据集
提出了Griffon-G,一个统一的多模态模型,能够解决视觉语言和以视觉为中心的任务。
提出ParadigmProgressiveLearningPipeline解决了来自不同范式的各种任务联合优化过程中遇到的训练折叠问题
Task-LevelCuration:将多个single-objectrec的数据合并成一个multi-objectrec的数据
Annotation-LevelCuration:过滤掉信息量低(只有类别信息)的数据
Stage1:训练projector对齐视觉语言模态
Stage2:用区域感知预训练集来训练出了Visiontokenizer之外的部分,使其具备一定的视觉感知能力
Stage3:用instruction-following训练,其中只有visualreferringobjectcountingdata才会训练Visiontokenizer
https ://huggingface.co/spaces/fffiloni/Sa2VA-simple-demo
https ://github.com/magic-research/Sa2VA
(8卡A800-80G)
我们开发了Sa2VA,将SAM-2和类似LLaVA的模型组合成一个模型的简单框架
提出一个大的referringvideoobjectsegmentationbenchmark
模型首先将输入文本、视觉提示、图像和视频编码为符元嵌入。然后,这些符元通过一个大型语言模型(LLM)进行处理。输出文本符元用于生成[SEG]符元和相关的语言输出。SAM-2解码器接收来自SAM-2编码器的图像和视频特征,以及[SEG]符元,以生成相应的图像和视频掩码。
Object/part-levelannotation:将mask区域裁剪输入到LLM里面生成part-levelcaption
Scene-levelannotation:“黄色轮廓用于突出显示图像中的对象+上阶段的caption”输入到LLM中生成scene-levelcaption
Video-levelannotation:“黄色轮廓用于突出显示图像中的对象(8帧)+上阶段的caption”输入到LLM生成video-levelcaption
https ://github.com/iSEE-Laboratory/LLMDet
(8L202day)
通过为每张图像生成图像级详细描述,与大型语言模型进行协同训练的开放词汇检测器可以进一步提高性能。
收集一个数据集GroundingCap-1M,其中每张图像都配有相关的定位标签和图像级详细描述。
以包括标准定位损失和描述生成损失在内的训练目标对开放词汇检测器进行微调,得到LLMDet。
改进后的LLMDet反过来可以构建更强大的大型多模态模型
在每一步中,橙色模块是可训练的,而蓝色模块是冻结的。在第一步中,我们训练一个投影器,使检测器的特征与大型语言模型对齐,以便我们可以将大型语言模型集成到检测器中而不破坏预训练的特征。然后,在第二步中,我们使用标准的定位任务和新引入的描述任务来训练检测器。
LLMDet包含一个标准的开放词汇检测器和一个大语言模型(LLM),并在定位损失和语言建模损失的共同作用下进行训练。LLM旨在使用特征图作为视觉输入生成图像级别的描述,同时使用单个目标查询作为视觉输入生成区域级别的描述,这两种描述通过不同的提示进行区分。在区域级别生成中,只有视觉标记会通过LLM中的交叉注意力(CA)模块,这部分用虚线框突出显示。由于图像级别和区域级别生成中的标记数量差异很大,我们分别对LLM进行两次前向传播以节省内存和计算资源。在推理阶段可以丢弃LLM,这样就不会产生额外的成本。
LLMDet的总体训练目标是定位损失和生成损失的组合:
基于CLIP,能够利用图片和文本作为prompt来进行grounding
它能够根据任意文本查询或示例图像进行分割。为了实现这个系统,我们采用预训练的CLIP模型作为主干,并在其顶部训练一个薄条件分割层(解码器)。我们使用CLIP的联合文本-视觉嵌入空间来调节我们的模型,这使我们能够处理文本形式和图像形式的提示。
我们提出了ReferDINO,这是一种端到端的RVOS方法,它通过继承基础视觉定位模型强大的视觉-语言理解和空间定位能力,有效地解决了上述问题。
eferDINO的整体架构。以蓝色着色的模块借自GroundingDINO,而以红色着色的模块是这项工作中新引入的。基于逐帧目标特征{t}t=1T,我们的目标一致性时序增强器利用跨模态文本特征实现帧间目标交互。然后,我们的定位引导的可变形掩码解码器根据位置预测、跨模态文本特征和高分辨率特征图生成候选目标的掩码。为了进一步提高视频处理效率,我们在跨模态解码器中引入了一种置信度感知查询剪枝策略。最佳彩色视图。
For表征
https ://github.com/TIGER-AI-Lab/VLM2Vec
希望利用VLM进行embeding,在多个任务上表现优异
提出一种新的基准,MMEB(大规模多模态嵌入基准),其中包含36个数据集,涵盖四个元任务类别:分类、视觉问答、检索和视觉定位。(将这些任务都改为排序任务,计算Precision@1)
采用Phi-3.5-V和LLaVA-1.6等预训练视觉语言模型作为Vlm2Vec的骨干,利用VLM进行embeding。
Vlm2Vec使用VLM作为主干来深度整合图像和文本特征。它通过遵循特定于任务的指令,使用查询和目标之间的对比损失进行训练。训练数据包括查询和目标两侧各种模态的组合,其中可能包括图像、文本或图像文本对。
https ://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-2B-Instruct
利用MLLM进行单模态检索、跨模态检索、融合模态检索
构建了一个通用多模态检索基准UMRB,包含47个数据集,涵盖单模态检索、跨模态检索、融合模态检索
基于QWen多模态大模型提出GME模型,用于多模态检索
利用MLLM提取embedding,利用对比学习进行训练。
For分割
https ://github.com/facebookresearch/sam2
将图像分割推广到视频领域。该任务将视频任意帧上的点、框或掩码作为输入,以定义感兴趣的片段,并预测其时空掩码(即“小掩码”)。一旦预测出小掩码,就可以通过在其他帧中提供提示对其进行迭代改进。
提出SAM2,进行图像和视频上的可提示视觉分割(PVS)任务。
采用了一个数据引擎,通过使用本文的模型与注释者互动注释新的和具有挑战性的数据来生成训练数据
对于给定的帧,分割预测取决于当前提示和/或先前观察到的记忆。视频以流媒体的方式处理,图像编码器每次使用一个帧,并从前一帧中交叉关注目标对象的记忆。掩码解码器(也可选择接受输入提示)预测该帧的分段掩码。最后,存储器编码器转换预测和图像编码器嵌入(未在图中显示),以便在未来帧中使用。
SAM2解码器使用的帧嵌入不是直接来自图像编码器,而是以过去预测和提示帧的记忆为条件。相对于当前帧提示帧也可能“来自未来”。帧的memory由存储器编码器根据当前的预测产生,并放置在memorybank中以供以后的帧使用。内存attention操作从图像编码器获取每帧嵌入,并在memorybank上对其进行调整,以产生之后传递给掩码解码器的嵌入。
ImageEncoder:图像编码器在整个交互过程中只运行一次,其作用是提供无条件的token(特征嵌入)。我们使用MAE预先训练的Hiera图像编码器,它是分层的、这样就能在解码过程中使用多尺度特征。
Memoryattention:Memoryattention的作用是将当前帧的特征与过去帧的特征和预测以及任何新的提示联系起来。我们堆叠了L个transformer模块,第一个模块将当前帧的图像编码作为输入。每个区块执行self-attention,然后cross-attention(提示/未提示)帧和对象的记忆,这些记忆存储在一个记忆库中,接着是一个MLP。
Memoryencoder:通过使用卷积模块对输出掩码进行下采样,并将其与图像编码器的无条件帧嵌入相加,生成记忆,然后使用轻量级卷积层来融合信息。
Memorybank:通过维护最多N个最近帧的FIFO记忆队列来保留视频中目标对象的过去预测信息,并将提示信息存储在最多M个提示帧的FIFO队列中。
Promptencoder:提示编码器与SAM的相同,可以通过点击(正或负)、边界框或蒙版来提示,以定义给定帧中对象的范围。稀疏提示由位置编码表示,并对每种提示类型的学习嵌入求和,而掩码则使用卷积嵌入并使用帧嵌入求和。
maskdecoder:解码器设计很大程度上遵循SAM,如下图所示:堆叠“双向”transformer块来更新提示符和帧嵌入。与SAM不同的是,在SAM中,只要有positive的提示,就一定会有一个有效的对象被分割,而在PVS任务中,有可能在某些帧上不存在有效的对象(例如由于遮挡)。为了应对这种新的输出模式,增加了一个额外的头,用于预测当前帧上是否存在感兴趣的对象。
https ://github.com/facebookresearch/segment-anything
SAM借鉴了NLP领域的Prompt策略,通过给图像分割任务提供Prompt提示来完成任意目标的快速分割。Prompt类型可以是「前景/背景点集、粗略的框或遮罩、任意形式的文本或者任何指示图像中需要进行分割」的信息。如下图(a)所示,模型的输入是原始的图像和一些prompt,目标是输出”valid”的分割,所谓valid,就是当prompt的指向是模糊时,模型能够输出至少其中一个mask。
Task:这里构建了一个提示分割任务,这类任务在结构分类上,一般体现为多模态的模型;
Model:模型框架设计上主干是分割的架构,图像编码器,这里使用的VIT+MAE的组合方式进行训练;提示部分有不同输入的有不同的编码器;一个融合提示编码和图像编码的解码器;
Data:数据工程,个人理解这是SAM模型牛逼之处,虽然数据工程这块处理手段看起来比较简单,但是SAM团队给我们展示了大道至简。这种让模型自动标注的思路、细节处理实际有非常大的研究、应用价值。
SAM由三部分组成,包括:图像编码器、提示编码器、轻量化的掩码解码器
Imageencoder:这里使用的是基于MAE训练的ViT模型。编码器只在一张图片上跑一次,然后应用到不同的提示。
Promptencoder:提示有离散(points、boxes、text)和稠密(masks)两类。我们通过位置编码[95]来表示点和框,并使用CLIP的现成文本编码器(tip:CLIP模型的文本编码器在其他模型中大量使用,一般这个结构都不会再参与训练)来表示自由格式文本。稠密提示(即掩码)使用卷积编码,并与图像嵌入逐元素求和。
Maskencoder:掩码解码器有效地将图像编码、提示编码和输出token映射到掩码。
ForLLM
DeepSeek-V3是一款性能卓越的混合专家(MoE)语言模型,整体参数规模达到671B,其中每个token激活的参数量为37B。
Multi-HeadLatentAttention(MLA):
DeepSeek-V3在注意力机制方面采用了MLA架构。设向量维度为d,注意力头数为n_h,每个头的维度为dhd_h,在特定注意力层中第tt个token的注意力输入表示为ht∈Rdh_t\in\mathbb{R}^d。MLA的核心创新在于对注意力键和值进行低秩联合压缩,以降低推理过程中的键值(KV)缓存开销:
减少K-Vcache的缓存
DeekSeekMoE:
对于MoE模型,不平衡的专家负载将导致路由崩溃,并在专家并行场景中降低计算效率。传统解决方案通常依赖辅助损失来避免不平衡负载。然而,过大的辅助损失会损害模型性能。为了在负载平衡和模型性能之间实现更好的权衡,研究团队开创了一种无辅助损失负载均衡策略来确保负载平衡。
共享和独立专家;考虑每个专家的学习概率;考虑每个node的负载均衡
FP8训练
基于低精度训练领域的最新进展,本研究开发了一种细粒度混合精度框架,采用FP8数据格式训练DeepSeek-V3。
Multi-TokenPrediction:
DeepSeek-V3创新性地采用了MTP目标,将预测范围扩展到每个位置的多个后续token。
这种设计具有双重优势:
首先,MTP目标通过增加训练信号的密度可能提高数据利用效率;其次,它使模型能够提前规划表征,从而更准确地预测后续token。
https ://blog.csdn.net/qq_41234663/article/details/140796308
https ://www.51cto.com/article/790784.html
https ://www.cnblogs.com/dan-baishucaizi/p/17378276.html
https ://www.51cto.com/article/790784.html
https ://blog.csdn.net/yuanyuanxingxing/article/details/132412847
https ://www.zhihu.com/search?
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!