阿里开源 30 亿参数统一模型 Ovis-U1,多模式理解、文生图、图像编辑样样精通,多项学术基准测试领先。
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
Ovis-U1建立在Ovis系列的基础上,是一个拥有30亿参数的统一模型,它在一个强大的框架内无缝集成了多模式理解、文本到图像生成和图像编辑。
统一能力:单一模型擅长三大核心任务:理解复杂场景、从文本生成图像、根据指令进行精确编辑。
先进的架构:Ovis-U1具有强大的基于扩散的视觉解码器和双向令牌细化器,可实现高保真图像合成并增强文本和视觉交互。
协同统一训练:Ovis-U1同时在理解、生成和编辑数据的多样化组合上进行训练。实现更高的泛化能力,无缝处理多模态挑战。
最先进的性能:Ovis-U1在多个学术基准测试中取得领先分数。
论文:https ://arxiv. org/pdf/2506. 23044
代码:https ://github. com/AIDC-AI/Ovis-U1
模型:https ://huggingface. co/AIDC-AI/Ovis-U1-3B
试用:https ://huggingface. co/spaces/AIDC-AI/Ovis-U1-3B
Ovis-U1是一个拥有30亿个参数的统一模型,集成了多模态理解、文本转图像生成和图像编辑功能。在Ovis系列的基础上,Ovis-U1集成了基于扩散的视觉解码器和双向token精炼器,使其图像生成任务的性能堪比GPT-4o等领先模型。与之前一些使用冻结MLLM进行生成任务的模型不同,Ovis-U1采用了一种全新的统一训练方法,该方法从语言模型入手。与单纯针对理解或生成任务的训练相比,统一训练能够获得更佳的性能,展现了整合这两个任务所带来的提升。Ovis-U1在OpenCompass多模态学术基准测试中取得了69. 6分的成绩,超越了Ristretto-3B和SAIL-VL-1. 5-2B等近期最先进的模型。
在文本转图像生成方面,它在DPG-Bench和GenEval基准测试中分别获得了83. 72和0.89的优异成绩。
在图像编辑方面,它在ImgEdit-Bench和GEdit-Bench-EN上分别获得了4. 00和6.42的成绩。
作为Ovis统一模型系列的初始版本,Ovis-U1突破了多模态理解、生成和编辑的界限。
Ovis-U1的整体架构。(a)Ovis-U1模型通过共享的多模态大型语言模型(MLLM)集成文本和视觉输入,使用视觉解码器生成图像,使用文本去标记器生成文本。适配器将视觉编码器与MLLM连接起来。精炼器模块在解码之前增强条件嵌入的质量。(b)精炼器模块的架构由两个堆叠的Transformer模块组成,并对平均池化特征进行了调制。绿色标记表示可学习的标记,用于聚合来自条件嵌入的全局信息。
六阶段训练流程概述。通过一系列精心设计的阶段逐步训练Ovis-U1模型。雪花和火焰图标分别表示冻结组件和可训练组件。
Ovis-U1是一个拥有30亿个参数的统一模型,在多模态理解、文本转图像生成和图像编辑方面表现出色。作为Ovis统一模型系列的初始版本,论文探讨了关键的基础挑战:视觉解码器的设计、其与大型语言模型的连接,以及统一模型的综合训练流程。感兴趣的小伙伴可以点击文中链接试用一下,撰写不易,欢迎大家点赞收藏~
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~