vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼


vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

vivoAILab发布AI多模态新模型了,专门面向端侧设计,紧凑高效~
能够直接理解GUI页面的那种:
模型BlueLM-2. 5-3B,融合文本和图文的理解和推理能力,支持长短思考模式自由切换,并引入思考预算控制机制。
与同尺寸模型相比,BlueLM-2. 5-3B在多个文本与多模态评测任务中表现出色。
BlueLM-2. 5-3B支持思考预算控制(thinkingtokenbudget),有效平衡思考深度和推理成本:
兼具多模态推理和文本的推理能力,思考范围扩展:
另外值得一提的是,作者对模型结构与训练策略进行了深度优化,显著降低了训练和推理成本。通过优质数据筛选、自动配比策略以及大规模推理合成数据,模型的数据利用效率大幅提升。
同时,模型训练全过程由自建的高性能训练平台与框架高效支撑,确保了训练效率和训练稳定性。
以下是更多细节。
BlueLM-2. 5-3B在20余项评测任务中展现出如下核心优势:
1、文本任务表现出色,缓解能力遗忘难题
BlueLM-2. 5-3B在thinking、non-thinking不同模式下,在文本任务上与同规模文本模型Qwen3-4B效果相近,领先于同规模以及更大规模的多模态模型。
这主要得益于数据策略以及训练策略较好地缓解了困扰多模态模型训练的文本能力遗忘难题。
thinking模式下,与4B以下同规模具有思考模式的文本模型Qwen3-4B-thinking相比,BlueLM-2. 5-3B除代码类任务外其他大部分文本任务效果相近;与同规模多模态模型如Qwen2. 5-VL-3B相比指标全面领先;与更大规模的具有思考模式的多模态模型Kimi-VL-A3B-16B-thinking相比,文本效果全面领先。
thinking模式下推理类任务(如Math-500、GSM8K、AIME)效果也显著优于更大规模的没有thinking模式的模型如Qwen2. 5-VL-72B。
non-thinking模式下,与同规模文本模型Qwen3-4B-non-thinking相比,文本效果相当。
明显优于同规模多模态模型Qwen2. 5-VL-3B、Gemma3-4B,其中推理类任务如Math-500、BBH、AMIE24、AIME25优势更为明显。
与更大规模多模态模型Kimi-VL-A3B-16B-non-thinking相比全部指标均更优,尤其是推理类任务的优势更明显。
2、多模态理解能力领先同规模模型
BlueLM-2. 5-3B在thinking、non-thinking不同模式下,在多模态任务上领先于同规模多模态模型,与更大规模的多模态模型效果相近。

non-thinking模式下,与同规模模型Qwen2. 5-VL-3B相比,指标全面领先,其中推理类任务Mathvista、Mathvision优势明显;与Gemma-3-4B相比效果更优;与更大规模模型Kimi-VL-A3B-16B-non-thinking相比,超过半数指标领先,其余指标差距在5%以内;与行业领先模型相比,一半左右评测集差距在5%以内。
3、同时支持文本和多模态的长短思考以及思考预算控制
上述评测结果显示,BlueLM-2. 5-3B同时具备了文本与多模态的thinking模式。长思考模式显著提升复杂推理任务上的模型效果。
例如,在AIME25任务中thinking模式较之non-thinking模式提高达40分,在MathVision任务中提高达19. 2分。
4、GUI理解能力领先同规模模型

与更大规模模型如Qwen2. 5-VL-7B、UI-TARS7B相比存在一定差距。得益于采集标注了大量中文app截屏数据,在中文评测集ScreenSpotvivo得分高于其他模型。
为支撑模型上述效果,BlueLM-2. 5-3B设计了精巧紧凑的模型结构和高效的训练策略。
BlueLM-2. 5-3B面向端侧部署,参数量仅2. 9B,比同规模的模型如Qwen2. 5-VL-3B小22%以上,具有训练和推理的成本优势。
BlueLM-2. 5-3B模型由ViT、Adapter、LLM组成。如图所示:
ViT采用400M参数量的SigLIP2(so400m-patch14-384)。采用AnyRes方案支持动态分辨率,最大图像输入1512×1512。切完子图后,固定长度token便于端侧部署,且子图并行推理,推理耗随输入token数量线性增长。此外,小尺寸ViT也有助于进一步降低功耗。
图像token经Adapter投影后接入LLMDecoder。
下图展示了BlueLM-2. 5-3B优秀的ViT推理性能:
文本和多模态的预训练共分为4个阶段:
1、文本数据预训练策略(Pure-TextPre-trainingStage)

首先训练7B教师模型并裁剪得到3B文本模型,再继续用3Ttokens蒸馏预训练以及300BtokensFD蒸馏训练。
相比从零训练的同尺寸模型,性能提升超4%。
2、文本和图文数据联合预训练(JointPre-trainingStage)
先冻结ViT和LLM参数,利用2. 5M条图文对数据训练Adapter;再解冻全参数进行全量训练。
通过设置64M的大batchsize、统一12Ttokens全局学习率衰减调度及对ViT的分层学习率控制,有效提升了训练效率与稳定性。
这一阶段,作者实现了训练流程简化,省略了一般方案中ViT+Adapter的单独训练阶段,直接全量训练。
3、推理增强数据的继续训练(Reasoning-EnhancedStage)
作者在文本数据中提升STEM、编程、逻辑推理以及高质量合成数据的占比。
合成数据覆盖了短COT和长COT数据。在多模态数据中引入大量高质量的推理相关的图文问答对。这一阶段共使用2. 5Ttokens数据。
将文本任务的推理增强训练后置到多模态阶段,有效避免了文本推理能力遗忘,提升了训练效率。
4、快速衰减与长文联合训练(JointFast-decayandLong-contextActivationStage)
快速衰减阶段同时进行长文训练。位置编码从Rope调整为Yarn。
这一阶段使用1. 3Ttokens,序列长度从4K扩展到32K。通过逐步将原生长文和高质量长推理数据占比增至80%以上、减小GlobalBatchSize,有效提升模型的长思考能力。
BlueLM-2. 5-3B的后训练分为2个阶段:
1、SFT训练
SFT阶段将文本与多模态任务联合微调,引入特殊token[|BlueThink|]控制思考模式是否触发。这一阶段序列长度保持为32K。根据学习难度差异,作者将常规COT数据训练3epoch,长COT数据训练9epoch。
2、RL训练
RL阶段混合使用了基于人类偏好反馈的强化学习(RLHF)方法和基于可验证奖励的强化学习(RLVR)方法,使用GRPO算法进行优化。
开放问答类任务,使用RLHF方法。对文本写作、总结等任务,使用生成式奖励模型从相关性、准确性、有用性、冗余性维度进行打分优化;而模型安全能力的提升,则使用判别式奖励模型进行优化。
对有明确答案或评测标准的任务,如数学、代码等推理相关任务,使用RLVR方法。作者使用规则结合verify模型进行正确性打分,最终奖励分数综合考虑答案正确性、格式正确性和重复情况和长度,其中为了优化模型“过度思考”的问题,作者引入“GroupOverlong”的长度惩罚机制。
模型性能背后离不开高质量训练数据的支持。BlueLM-2. 5-3B的训练数据有如下特点:
1)相较于同规模模型如Qwen2. 5-VL-3B,预训练数据总量减少了约23%,这主要得益于对文本模型训练数据的有效压缩。文本模型训练数据仅为Qwen3-4B的25%、Qwen2. 5的48%。
2)BlueLM-2. 5-3B的多模态预训练数据显著多于其他模型,主要因为文本推理能力训练后置合并到多模态训练阶段。累计引入3. 3Ttokens推理增强数据,为小模型具备较强推理能力奠定了坚实的数据基础。
文本预训练数据
文本模型预训练阶段共计使用9. 3Ttokens,其中6Ttokens用于教师模型训练,3. 3Ttokens用于学生模型的蒸馏训练。
多模态预训练数据
多模态模型的预训练数据为4Ttokens,涵盖ImageCaption、OCR、GUI、纯文本以及其他类型数据。其中纯文本1. 6T,图文对2. 4T。通过将文本数据占比提升至40%,有效缓解了多模态预训练阶段文本能力遗忘问题。
另外,从预训练阶段开始就引入GUI等业务相关数据,有效提升基模在业务场景的能力上限。
推理训练数据
作者构建两阶段的数据合成pipeline生产大规模推理数据,第一阶段通过多种途径获取原始问题并改写扩充规模。第二阶段通过多次采样同一问题获得不同的推理路径,结合规则检查、拒绝采样以及投票技术筛选高质量答案。
长文本数据
作者引入了由长文本与图文混合构成的长上下文训练数据。在原生长文本数据的基础上,引入高质量的长距离推理数据,有效提升了模型在多模态场景下的上下文理解深度与推理稳定性。
SFT数据
作者构造了高质量SFT数据集。从社区和内部业务广泛收集问题及图片,经过标注分类和指令去重后,围绕能力维度重建了多样化的新指令集。然后用多个强模型生成候选答案,结合规则过滤、模型打分、多数投票、人工校验等方法,筛选高质量数据。
数据集在语言与模态方面保持良好平衡,确保满足任务多样性、答案质量、场景平衡。其中,长推理方面构建了包含300K条样本、覆盖STEM领域的高质量SFT数据集。
RL数据
作者构建了多种任务类型的强化学习数据集,覆盖数学、代码、STEM、指令跟随以及端侧业务等。数据来源于开源数据集以及业务场景,经过去重、质量过滤,总计145K条。
DataPipeline
作者构建了一套覆盖数据处理全生命周期的自动化datapipeline,涵盖数据采集、合成、格式转换、质量过滤、去重、分类、筛选、配比、样本构建等关键模块,支持多源异构数据统一接入,具备高度模块化与自动化能力,显著提升了预处理效率与训练数据质量。
为支撑模型的高效训练,作者构建了高性能训练平台和训练框架。
训练集群
作者自建了大规模高性能训练集群,在千卡级训练场景实现了超过95%的近线性加速比。依托自研的轩辕分布式存储并通过多级缓存优化IO瓶颈。同时建设了集群稳定性保障体系,训练有效时长超过99%。
多样本拼接平衡计算负载、提高GPU利用率:
长上下文训练:
vivoLM训练框架
作者基于Megatron-LM,自研了vivoLM训练框架,支持文本和多模态大模型训练,围绕以下四大维度进行了优化:
1)训练性能上,优化图文对拼接策略以均衡每张卡计算的token数量,提升算力利用率。通过ContextParallelism+CP组内ViT数据并行支持32K长文训练,训练效率是社区方案的1. 66倍。全局BatchSize扩至16K,千卡集群加速比达96. 8%。
2)架构扩展上,模块化解耦ViT、Adapter与LLM,组件及数据处理策略可即插即用。兼容Megatron-LM、DeepSpeed等主流训练框架。
3)稳定性上,完善框架异常处理机制并与训练平台联动,部分故障场景任务可自动恢复。万亿级token数据、千卡级预训练任务100+小时零中断。
4)可观察性上,实现了训练过程的细粒度监控,包括参数、梯度的L2范数、AdamW优化器内部状态等。同时支持了在线评测,实时跟踪模型效果。
RL训练框架
作者基于veRL进行了定制开发,适配蓝心大模型训练并做了性能优化。

为了保障训练稳定性,针对RM服务作者自动化部署多实例,并将实例注册到名字服务(VNS),支持训练框架按标识自动发现并调用服务。同时服务可基于QPS动态弹性伸缩,避免流量变大后请求延迟变高影响RL训练性能。
技术报告:https ://arxiv. org/abs/2507. 05934
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
—完—
🌟点亮星标🌟
科技前沿进展每日见


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录