ACL’25 | CIGEval:一种基于多模态大模型的可控生图评测智能体
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
阿里国际AI团队提出了一项创新性的研究成果——CIGEval,这是首个系统性探讨基于多模态大模型(LMM)驱动的图像生成评估智能体框架。CIGEval不仅集成多功能工具箱以实现细粒度分析,更通过任务拆解与工具调度机制,显著提升了在复杂图像生成任务中的评估准确性与可解释性。目前,CIGEval已正式在ComfyUI-Copilot上线使用。
图1:CIGEval的整体框架以及与传统评估流程的对比。
从最初的自然语言图像生成,到如今支持参考图像驱动的可控生成,生图模型已具备多种复杂任务能力。然而,与模型生成能力的飞跃式发展相比,图像评估体系的进展却显得滞后。如何自动、公平、可靠地评估AI合成图像仍面临三大关键挑战:
图2:传统指标难以识别的图片中主体颜色变化、背景保留程度等细节。
CIGEval的核心思想是将图像评估任务建模为工具链式智能体推理流程(Tool-IntegratedEvaluationReasoning)。即模型不再单靠自身视觉能力,而是通过任务拆解→工具调度→评分融合的结构性策略完成评估任务。
CIGEval引入4种关键工具用于扩展LMM的细节感知能力:
:定位图像中关键物体;
:突出显示图像区域;
:标注前后图像差异部分;
:分析图像结构层次与场景元素。
这些工具被组合调度,构成一个外部感知子系统,为模型提供细粒度反馈支持。
图3:CIGEval中使用的四种工具。
整个评估过程遵循三个阶段:
:CIGEval将复杂任务(如图像编辑)拆解为若干可测子问题(如“背景是否变化”“是否遵循文本描述”等);
:模型根据输入目标自动调用匹配工具处理子问题;
:每一子任务单独评估,最后通过最小分策略输出总评分,确保整体鲁棒性。
图4:CIGEval的评估流程示例。
尽管GPT-4o驱动下,CIGEval的评估表现理想,但闭源、高成本限制了其可用性。为此,团队提出agenttuning策略——使用GPT-4o构造评估轨迹,并用这些数据对开源小模型(7B)进行微调,从而实现能力迁移。
:选择Qwen2-VL-7B和Qwen2. 5-VL-7B作为基座,仅对“思考过程”和“工具调用动作”部分计算交叉熵损失,提升其自主评估能力。
CIGEval在标准评估数据集ImagenHub上进行系统验证:
数据集说明:
覆盖7大任务(如图像编辑、局部控制、指令遵循等);
包含29个模型、4,800张图像;
每张图由3位人类评分员评估,分数范围[0. 0,1. 0];
共计14,400条人工评分,用于Spearman相关性评估。
核心结果:
:在人类相关性上达到0. 4625,接近人工评分者间的上限0. 47;
:
Qwen2-VL-7B-Instruct:相关性提升76%;
Qwen2. 5-VL-7B-Instruct:相关性提升34%。
:在多主体合成、文本遵循等复杂任务上,CIGEval显著优于VIEScore;
:仅用2,274条合成轨迹,CIGEval就能让开源模型超越GPT-4o驱动的VIEScore。
图5:GPT-4o驱动的CIGEval实现了与人类评估者的高相关性,当使用不同模型作为底层LMM时,CIGEval的表现始终优于VIEScore。
图6:在多个评估任务中,微调后的Qwen系列模型与CIGEval框架结合后的表现显著提升,与闭源SOTA方法拉近差距甚至反超。
在多物体场景中,VIEScore常常无法对目标物体进行精准对比。例如图中案例,原图为白色花朵,生成图中则为红花,VIEScore仍错误地判断为高度相似。而CIGEval通过工具链式推理,首先定位目标花朵区域(Grounding),再借助高亮差异(Highlight)明确形状与颜色变化,最终准确识别图像偏差,实现更贴近人类感知的评估效果。
图7:CIGEval检测颜色细节的示例。
在背景不变性评估任务中,VIEScore往往难以捕捉图像中背景区域的细微变更,导致对明显差异视而不见。而CIGEval通过引入SceneGraph工具,构建图像整体结构的语义表示,能够精准识别生成图与原图在场景构成上的差异,成功发现背景被过度修改的情况。
图8:CIGEval理解图像整体结构与元素细节的示例。
CIGEval构建的多工具链条可无缝扩展至更多真实场景下的复杂生图任务。例如,通过引入OCR工具,CIGEval能精准判断图像中文字是否准确符合条件要求,进一步提升在文本生成一致性维度的评估能力。
图9:OpenAI官网展示的GPT-4o图像生成案例评估结果。
CIGEval展现出一种全新的图像评估范式:
:通过多工具组合实现可解释、多维度分析;
:提升在复杂条件下的泛化能力;
:仅用2K轨迹数据就可将7B模型调优至类GPT-4o水平。
未来,CIGEval所代表的AgenticEvaluationParadigm有望在更多多模态生成任务(如视频编辑、多视角合成、图文问答)中发挥关键作用,推动模型从“能生成”走向“能理解与评估”。
推荐阅读
•动手设计AIAgents:(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•单智能体(Agent):企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1. 2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。