多模态图像生成新宠 Janus-4o？ShareGPT-4o-Image 打造数据集新标杆，将图像生成与 GPT-4o 对齐。

发布日期: 2025-07-05

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

ShareGPT-4o-Image是一个大规模、高质量的图像生成数据集，其中所有图像均由GPT-4o的图像生成功能生成。该数据集旨在将开放式多模态模型与GPT-4o在视觉内容创作方面的优势相结合。它包含45,000个文本转图像和46,000个文本转图像样本，使其成为增强多模态模型在图像生成和编辑任务中的实用资源。
Janus-4o是一款多模态LLM，能够进行文本转图像和文本+图像转图像的生成。它基于Janus-Pro，使用ShareGPT-4o-Image数据集进行微调。与Janus-Pro相比，Janus-4o新增了文本+图像转图像的生成功能，并在文本转图像生成方面取得了显著改进。
ShareGPT-4o-Image共包含91,000个GPT-4o图像生成样本，分类如下：
文本转图像45,717
文本加图像转图像46,539
代码：https ://github. com/FreedomIntelligence/ShareGPT-4o-Image
模型：https ://huggingface. co/FreedomIntelligence/Janus-4o-7B
论文：https ://arxiv. org/pdf/2506. 18095
多模态生成模型的最新进展已解锁了逼真的、指令对齐的图像生成，然而像GPT-4o-Image这样的领先系统仍然是专有的，无法访问。为了使这些功能大众化，论文推出了ShareGPT-4o-Image，这是第一个包含45,000个文本转图像和46,000个文本加图像转图像数据的数据集，所有这些数据均使用GPT-4o的图像生成功能合成，以提炼其先进的图像生成能力。利用此数据集，论文开发了Janus-4o，这是一个多模态大型语言模型，能够进行文本转图像和文本加图像转图像的生成。Janus-4o不仅在其前身Janus-Pro的基础上显著改进了文本转图像的生成能力，而且还新增了文本加图像转图像的功能。值得注意的是，它在从零开始的文本和图像到图像生成方面取得了令人印象深刻的性能，仅使用了91K合成样本，并在一台8×A800GPU机器上进行了6小时的训练。我们希望ShareGPT-4o-Image和Janus-4o的发布能够促进照片级逼真、指令对齐图像生成的开放研究。
ShareGPT-4o-Image提升图像生成性能。使用ShareGPT-4o-Image对Janus-Pro进行微调，生成Janus-4o，其图像生成性能显著提升。Janus-4o还支持文本和图像到图像的生成，仅用91,000个训练样本就超越了其他基准。
Janus-4o模型概述。该模型基于Janus-Pro，并通过在ShareGPT-4o-Image上进行微调构建而成。它融入了增强功能，以支持文本和图像到图像的生成。文本到图像和文本和图像到图像的任务均采用联合训练。
ShareGPT-4o-Image是首个能够捕捉GPT-4o在文本转图像和文本转图像生成方面先进图像生成能力的大规模数据集。基于此数据集，论文开发了Janus-4o，这是一个能够从纯文本或图像文本组合输入生成高质量图像的机器学习模型(MLLM)。Janus-4o在文本转图像生成方面取得了显著提升，并在文本转图像任务中取得了极具竞争力的结果，彰显了ShareGPT4o-Image的高质量和实用性。得益于基于MLLM的自回归图像生成的高效性，Janus-4o仅需6小时即可在一台8×A800GPU机器上完成训练，并以极低的计算量实现显著的性能提升。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～