论文简读|ViStoryBench:故事可视化生成的综合性基准测试套件|阶跃星辰×上科大×AIGC Research


论文简读|ViStoryBench:故事可视化生成的综合性基准测试套件|阶跃星辰×上科大×AIGC Research

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AIGCResearch
论文标题:ViStoryBench:ComprehensiveBenchmarkSuiteforStoryVisualization

机构:阶跃星辰、上科大、AIGCResearch
项目主页:https ://vistorybench. github.io/
展示窗:https ://vistorybench. github.io/story_detail
技术报告:https ://arxiv. org/abs/2505. 24862
数据集:https ://huggingface. co/datasets/ViStoryBench/ViStoryBench
代码:https ://github. com/vistorybench/vistorybench
故事可视化旨在生成一系列与给定文字叙事和参考图像在视觉上相一致的图片序列,需要在保持角色一致性的同时生成复杂的情节和世界构建,以提供引人入胜的沉浸式故事体验。
扩散和自回归生成模型极大推动了多模态长故事生成与可视化方面的进展,然而,现有的评估指标和方法存在局限性和单一性,缺乏统一性和多样性,我们重新思考了故事可视化生成的评估基准,涉及多个维度,如不同情节(如喜剧、恐怖、童话、文学、传记、奇幻、神话、现代等)和视觉美学(如真人、卡通、动漫、3D渲染、像素艺术、水墨画等)。
因此,我们提出了ViStoryBench,旨在解决如何评估故事可视化框架在现实世界场景中的性能。
ViStoryBench是一个综合性评估基准,用于解决故事可视化评估中的多样性和多维性问题。具体来说:
我们创建了一个多样化的数据集,包含中文和英文,涵盖各种故事类型和艺术风格。数据集包括80个故事片段,53种故事类型,共344个角色,平衡了叙事结构和视觉元素。数据集涵盖了单角色和多角色的故事,每个故事中的角色数量范围从2个到10个不等,测试模型在保持角色一致性方面的能力。此外,还包括复杂情节和精细的世界构建,每个镜头包括主观情节(角色与环境叙事,类似于小说)、客观描述(角色之间/角色与环境的交互,类似于剧本)、场景设定(类似于布景设计师)、镜头设计(类似于摄影师)以及登场角色,挑战模型生成准确的视觉内容。
通过手动+AI生成的方式,从电影和电视剧本、文学作品、世界传说、小说和图片书中手动收集了80个故事片段。对于过长的故事,使用LLM(如Step-1V)进行摘要,确保每个故事包含数百个单词。然后将故事转换为包含角色描述和故事板的剧本。
通过手动+AI生成的方式收集了与角色描述相符的图像,确保同一故事中的角色图像风格一致。部分角色的参考图像使用SDXL生成。总共收集了344个角色和509张参考图像。
我们提出了一套综合性评估指标,包括角色与风格的跨相似性、自相似性、细粒度提示一致性、美学和复制粘贴检测等,来评测现有的主流方法在生成多分镜一致的图像序列时的能力。具体指标如下:
结合GroundingDINO出色的角色定位能力以及ArcFace强大的面部特征提取能力,我们构建了一套全流程的角色相似性检测系统,以评估生成图像与参考图像之间的角色相似性(跨相似性),以及生成图像之间的角色一致性(自相似性)。
基于CSD杰出的风格特征解耦能力,评估生成图像与参考图像之间的风格相似性(跨相似性),以及生成图像之间的风格一致性(自相似性)。
基于GPT-4. 1评估生成图像与对应的提示中提供的剧本描述的一致性,包括场景设定、镜头设计、单角色动作/表情、多角色交互,以及角色数量等。
我们还特别统计了每个生成图像中登场角色数量的准确性,包括角色冗余与遗漏,角色数量的偏差直接影响OCCM的分值。考虑到登场角色是由文本提示进行指定的,因此我们将其作为细粒度提示一致性下的一个衍生子类。
基于AestheticPredictorV2. 5模型以及InceptionV3模型,评估生成结果的美学质量、生成质量和多样性,并设计了一个复制粘贴检测来检查模型是否过度参考了角色参考图像。
对超过二十种方法(18个主要方法及其变体)进行了广泛的评估测试,包括开源方法(故事图像和视频生成的相关工作)、商业软件,以及多模态大模型。我们为每种方法进行了专门的数据适配,包括如何处理只支持单角色生成的方法、如何处理不支持长文本提示输入的方法等。实验在完整(ViStory)和轻量级(ViStory-lite)两个版本的数据集上进行,轻量级版本包含20个故事,36个动画角色,41个真实人物和4个非人类实体。

视频生成方法:评估了多种视频生成方法,包括Vlogger、MovieAgent、Anim-Director和MM-StoryAgent等。对于这些方法,提取视频帧进行评估,或只进行文生图而取消图生视频阶段,确保评估的一致性和可比性。
评估了GPT-4o和Gemini-2. 0等模型。这些模型在处理文本和图像模态时具有强大的能力,适用于故事可视化任务。通过标准化预处理流程(如调整大小、颜色空间转换)将角色参考图像直接作为视觉输入,确保生成的角色与指定的外观一致。通过在同一个会话中生成同一个故事的分镜图像,利用上下文窗口实现了多分镜一致性。
包括白日梦、豆包、讯飞绘影、神笔马良、MorphStudio、MOKI。由于某些商业软件没有API或类似的调用方法,采用全职标注人员在公司内生成图像结果。所有商业软件的测试均在2025年5月1日至5月7日期间进行。
图表展示了不同方法在ViStoryBench和ViStoryBench-Lite上的自动化测试结果,以及细粒度的提示一致性得分,揭示了多个关键洞察:
综合指标的必要性:仅依赖单一指标(如IS或Aesthetic分数)无法全面评估模型性能。例如,Copy-PasteBaseline虽在图像质量(IS)和美学得分上表现优异,但其提示一致性(AlignmentScore)极低,暴露了单纯追求生成质量而忽视叙事逻辑的问题。
商业模型的优势与局限:Doubao和GPT-4o在提示一致性(AlignmentScore)和角色数量匹配(OCCM)上领先,主要得益于其大语言模型的强语义理解能力,但AIbrm等专用工具虽在角色特征还原上更精准,却因文本指令解析不足导致整体评分受限。
模型改进的可视化路径:自动化指标能快速定位缺陷。例如,StoryGen因依赖文本输入导致图像多样性和质量低下,而引入扩散模型的后续方法显著改善了这一问题;通过IS和Aesthetic分数的对比,可直观发现模型在生成新颖性与视觉吸引力上的失衡。
多模态输入的挑战:部分方法在单图输入时过度依赖参考图(Copy-PasteDegree过高),而在多图输入时表现更优,凸显了跨模态融合的复杂性;某些商业工具因无法处理多图输入导致关键指标缺失。
评分机制的深层关联:实验发现,自动化指标与人类主观评价高度相关(如CIDS与CharacterConsistency、StyleSimilarity与环境一致性),验证了评估框架的有效性,同时揭示了Story-Adapter在文本+图像双模态输入下的评分一致性优势。
数据偏差与模型脆弱性:部分模型对参考图的依赖引发公平性问题(如非人角色生成效果差),且长文本输入时性能下降明显,反映了训练数据覆盖不足和上下文建模能力的短板。
这些发现为优化故事可视化模型提供了明确方向,强调了多维度评估体系在推动技术均衡发展中的核心作用。
用户研究评估了生成图像的一致性和美学质量。结果显示,UNO在所有三个类别中均获得了较高的用户满意度,而Doubao在提示一致性方面表现突出。
自动化指标与人类评估结果(用户研究)之间的相关性分析表明,自动化指标可以有效地反映人类偏好。例如,PromptAdherence与CIDS的相关系数为0. 6759,Aesthetics与CIDS的相关系数为0. 7956。
这篇论文介绍了ViStoryBench,一个综合评估基准,旨在推动故事可视化领域的发展。通过提供一个多样化且多维度的评估框架,ViStoryBench使研究人员能够严格评估和比较各种故事可视化模型。实验结果表明,综合评估指标在识别模型的优缺点方面非常有效,有助于指导未来的改进方向。
数据集局限性:部分图像来源于流行的电影、电视剧、动画等,可能导致某些指标对这些特定数据过拟合,从而可能被操纵或“黑入”。
语言差异:生成的结果可能因指令语言的不同而有所变化,未考虑语言差异对生成质量的影响。
漫画生成任务:无法评估涉及单张图像内生成多个面板的漫画生成/漫画任务,因为所提出的方法缺乏准确的面板分割方法。
推理速度:未讨论每种方法的推理速度。
视频相关问题:对于故事视频生成方法,仍需关注帧一致性和质量问题。
参考图像选择的影响:某些方法使用的角色参考图像/特征并非来自数据集中的图像,而是额外生成的图像,这会影响Cross-CIDS指标的计算结果。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录