开源多模态生成模型新标杆！OmniGen2：支持视觉理解、文生图、图像编辑等任务，探索高级多模态生成！

发布日期: 2025-06-26

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

由北京人工智能研究院提出的OmniGen2是一个统一的多模态生成模型，它将强大的视觉理解、文本到图像的合成、基于指令的图像编辑以及主题驱动的上下文生成功能整合在一个框架内。它基于解耦架构，在保留高质量语言模型的同时，实现了细粒度且一致的视觉输出。除了生成功能之外，OmniGen2还集成了多模态反射机制，使其能够分析、评估并迭代优化其输出，从而将推理和自我修正功能引入图像生成过程。凭借在生成和理解任务中均表现出色的优势，它在轻量级开源模型中树立了新的标杆。
论文：https ://arxiv. org/pdf/2409. 11340
代码：https ://github. com/VectorSpaceLab/OmniGen2
模型：https ://huggingface. co/OmniGen2/OmniGen2
主页：https ://vectorspacelab. github.io/OmniGen2
试用：https ://huggingface. co/spaces/OmniGen2/OmniGen2
大型语言模型(LLM)的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，一个能够在单一框架内处理各种任务的统一模型仍然鲜有开发。本文介绍了OmniGen，一个用于统一图像生成的新型扩散模型。OmniGen具有以下特点：
统一性：OmniGen不仅具备文本到图像的生成能力，还原生支持各种下游任务，例如图像编辑、主题驱动生成和视觉条件生成。
简洁性：OmniGen的架构高度简化，无需额外的插件。此外，与现有的扩散模型相比，它更加用户友好，可以通过指令端到端地完成复杂任务，无需额外的中间步骤，从而大大简化了图像生成工作流程。
知识迁移：得益于统一的学习模式，OmniGen能够有效地跨不同任务迁移知识，管理未知任务和领域，并展现出新颖的能力。我们还探索了该模型的推理能力以及思维链机制的潜在应用。
OmniGen2采用双路径架构，分别使用自回归Transformer和扩散Transformer来生成文本和图像。它采用解耦设计，其中ViT编码器将视觉信息输入多模态大型语言模型(MLLM)以执行理解任务，而VAE编码器则专门为扩散解码器提供细粒度的视觉特征。这种分离保留了MLLM强大的语言建模能力，同时实现了高保真度和一致的图像生成，使该架构在文本到图像合成、图像编辑和上下文生成等任务中既高效又灵活。
多模态旋转位置嵌入：引入了一种新颖的Omni-RoPE，专门设计用于满足我们多样化和复杂任务的需求，特别是图像编辑和上下文生成，如图2所示。
它将位置信息分解为三个部分：
序列和模态标识符：对于单个图像中的所有标记（将其视为语义单元）而言，它是恒定的，但在不同的图像之间却是唯一的。
二维空间高度坐标：表示图像标记的标准化垂直位置。
二维空间宽度坐标：表示图像标记的标准化水平位置。对于所有非图像标记，两个空间坐标设置为零。
这种双重机制使模型能够通过其独特的，而共享的局部空间坐标增强了图像编辑等任务的一致性。
OmniGen2利用强大的多模态大型语言模型(MLLM)来跨多种图像类型执行稳健的视觉理解。通过使用ViT编码器进行图像表示，并保持MLLM基本稳定，它在标准基准测试中实现了强劲的性能，同时保留了跨文本和视觉输入的语义对齐、对象识别和推理能力。
OmniGen2支持高质量的文本转图像生成，具有强大的组合推理能力和较长的提示跟随功能。通过对基于扩散的图像解码器进行调节，使其能够将语言模型中的隐藏状态和VAE中的细粒度视觉特征结合起来，它可以生成忠实连贯的图像，并与复杂的自然语言描述紧密相关。
该模型能够基于自然语言指令进行精准的局部图像编辑。凭借专用的编辑数据集和双路径架构，OmniGen2可以进行细粒度的修改（例如对象操作、样式更改或运动编辑），同时保留未编辑区域并保持视觉真实感和一致性。
OmniGen2擅长基于主题的生成，它从参考图像中提取主题，并根据文本提示在新场景中重新渲染。通过基于视频数据专门设计的训练流程，该模型展现出卓越的主题一致性和语境整合能力，超越了这一新兴领域的现有开源模型。
OmniGen2的一大特色在于其内置的反射机制，使其能够评估自身的输出，识别不足之处，并通过迭代改进生成更优的结果。该功能由图文分析和自我校正训练相结合而成，为生成带来了一种多模态推理，从而提升了可控性、可靠性和输出质量。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～