一键生成高质量美学海报!港科大&美团提出PosterCraft,文字渲染与艺术融合,从创意到成品只需一步!


一键生成高质量美学海报!港科大&美团提出PosterCraft,文字渲染与艺术融合,从创意到成品只需一步!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

今天给大家介绍一款由香港科技大学和美团联合开发的创新性海报生成模型框架:PosterCraft,其擅长精确的文本渲染、抽象艺术的无缝集成、醒目的布局和风格的和谐。PosterCraft的设计理念是统一且灵活的框架。可以轻松地在自定义工作流程或其他兼容框架中使用PosterCraft。
论文:https ://arxiv. org/pdf/2506. 10741
代码:https ://github. com/Ephemeral182/PosterCraft
主页:https ://ephemeral182. github.io/PosterCraft
数据集:https ://huggingface. co/PosterCraft
试用:https ://huggingface. co/spaces/Ephemeral182/PosterCraft
生成美观的海报比简单的设计图像更具挑战性:它不仅需要精确的文本渲染,还需要无缝整合抽象的艺术内容、醒目的布局以及整体风格的和谐。
为了解决这个问题,论文提出了PosterCraft,这是一个统一的框架,它摒弃了之前的模块化流程和僵化的预定义布局,使模型能够自由探索连贯且视觉上引人入胜的构图。PosterCraft采用精心设计的级联工作流程来优化高美感海报的生成:
在新推出的Text-Render-2M数据集上进行大规模文本渲染优化;
在HQ-Poster-100K数据集上进行区域感知的监督微调;
通过best-of-n偏好优化进行美观文本强化学习;
视觉与语言反馈的联合优化。
每个阶段都由根据其特定需求定制的全自动数据构建流程支持,无需复杂的架构修改即可实现稳健的训练。经过多次实验评估,PosterCraft在渲染精度、布局一致性和整体视觉吸引力方面显著优于开源基线,接近SOTA商业系统的质量。
通过四个关键阶段实现美观海报生成的统一优化工作流程
一个包含200万个高质量示例的综合文本渲染数据集。它支持多实例文本渲染、多样化文本选择(大小、数量、位置和旋转方向均可调整),以及通过基于模板和随机字符串的方法生成动态内容。对于在海报生成中开发强大的文本渲染能力至关重要
精心挑选的10万张高质量海报合集,拥有完善的处理流程。融合了先进的过滤技术(MD5、Hash)、多模态评分系统、Gemini驱动的蒙版生成以及详细的图文说明。为训练美观的海报生成模型奠定了基础。
一个包含10万张海报图片的专用偏好学习数据集。这些图片由用户提示生成,并使用高级美学评估器和Gemini进行严格评估,通过区分高质量和低质量样本来形成偏好对。这一过程对于学习细微的审美偏好和生成符合人类审美的海报至关重要。
该数据集由12万张海报组成,这些海报用于组成反思对。每对海报都附有相应的文本反思,用于分析海报内容和审美风格。通过将丰富的视觉信息与文本反思相结合,该数据集实现了视觉-语言反馈的迭代改进。它使模型能够从两种模态中学习,从而获得更具美感的海报。
先进的海报生成功能展示多样化的长文本渲染
美学——文本偏好优化,通过高阶美学和文本准确性提高海报质量
了解PosterCraft如何利用视觉语言反射根据内容和审美建议来提高海报质量。
综合评估展现了PosterCraft在多个维度上的卓越性能。
通过四个关键维度的定量评估,展示了PosterCraft在最先进的海报生成模型中的出色表现。
人类专家评估展示了PosterCraft在四个关键维度上相对于基线模型的胜率。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录