性能媲美GPT-4o 和 Gemini2 Flash，阶跃星辰开源通用图像编辑模型Step1X-Edit

发布日期: 2025-04-27

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

首创MLLM与DiT深度融合，阶跃星辰发布开源图像编辑模型Step1X-Edit。
整理|梦依丹
出品丨AI科技大本营（ID：rgznai100）
在图像编辑领域，开源模型正在加速追赶顶级闭源模型。近日，阶跃星辰正式发布并开源了图像编辑大模型Step1X-Edit，在性能上达到当前开源体系的SOTA水平，且性能可与GPT-4o与Gemini2Flash等闭源模型相媲美。
Step1X-Edit：统一的图像编辑模型在各种真实用户指令上的效果
Step1X-Edit由19B参数构成（7B多模态语言模型MLLM+12B扩散图像TransformerDiT），具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力。模型支持包括文字替换、风格迁移、材质变换、人物修图在内的11类高频图像编辑任务，能够灵活应对复杂的编辑指令。
在技术路径上，Step1X-Edit首次在开源体系中实现了多模态语言理解与扩散图像生成的深度融合。模型能够解析参考图像与用户编辑指令，提取潜在嵌入，并与扩散式图像解码器协同工作，生成符合预期的高质量编辑图像。
为了有效支撑模型训练，团队自建了全新的高质量数据生成管道，自动生成由参考图像、编辑指令与目标图像组成的大规模三元组数据集，确保数据在多样性、代表性与精度上的高标准，为模型的全面学习与泛化能力打下坚实基础。
在科学评估方面，团队构建了全新的GEdit-Bench基准，基于真实用户指令进行设计。评测结果显示，Step1X-Edit在语义一致性、图像质量与综合得分等多项指标上，显著优于现有开源图像编辑模型，在开源体系中达到了新的性能高度。
GEdit‑Bench中每个子任务的VIEScore，所有结果均由GPT‑4o评估
根据官方论文介绍，Step1X-Edit的整体架构由三个核心组件组成：多模态大型语言模型（MLLM）、连接模块以及扩散Transformer（DiT）。
在处理流程中，用户的编辑指令与参考图像一同输入MLLM（如Qwen-VL），通过单次前向传递捕获文本与视觉内容之间的深层语义关系。为突出与编辑任务直接相关的信息，模型在处理过程中有选择地丢弃了与系统前缀相关的令牌嵌入，仅保留对齐于编辑指令的嵌入内容，确保后续处理聚焦于用户需求。
提取后的嵌入随后进入一个轻量级连接模块（如令牌精炼器），该模块将嵌入重组为更加紧凑的文本特征，并替换至下游DiT网络中，取代传统的文本编码器嵌入。同时，系统会对所有输出嵌入求平均，并经过线性层投影，生成全局视觉引导向量，进一步提升编辑的上下文感知能力。
为了有效训练连接模块并丰富跨模态条件理解，Step1X-Edit参考了FLUX-Fill中的令牌连接机制：在训练阶段，系统同时输入目标图像与参考图像，前者经过编码与高斯噪声扰动以增强泛化能力，两者的潜变量再线性投影为图像令牌，并在令牌长度维度上拼接，形成融合特征作为最终视觉输入。整个模型在联合学习框架下进行训练，连接模块与DiT网络同步优化，并采用Qwen与DiT文本到图像模型的预训练权重进行初始化，以实现更快收敛与更优性能迁移。
通过在统一框架内整合结构化语言引导、分词级视觉建模与强大预训练骨干，Step1X-Edit显著提升了在多种复杂编辑指令下实现高保真、语义对齐图像编辑的能力。
Step1X-Edit相关体验地址
Github：
https ://github.com/stepfun-ai/Step1X-Edit
HuggingFace：
https ://huggingface.co/stepfun-ai/Step1X-Edit
ModelScope：
https ://www.modelscope.cn/models/stepfun-ai/Step1X-Edit/summary
技术Report：
https ://arxiv.org/pdf/2504.17761
风吹，万物生，🌱
三大GPU算子挑战上线：FP8GEMM、MLAwithROPE、FusedMoE
💰10万美元奖金等你来领！
🌍全球开发者热血竞技，硅谷之约等你来赴～