海报设计师福音!微软联合清北提出Glyph-ByT5-v2,支持10国语言图文海报生成,效果惊艳!


海报设计师福音!微软联合清北提出Glyph-ByT5-v2,支持10国语言图文海报生成,效果惊艳!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

清华&北大&微软&利物浦大学联合提出Glyph-ByT5-v2这款工具支持多语言图文生成,包括英语、中文、日文、韩文、法文、德文、西班牙文、意大利文、葡萄牙文和俄文。
以下分别展示中、英、日、韩图文的视觉文本结果一起带大家感受一下。
论文地址:https ://arxiv. org/abs/2406. 10208
项目地址:https ://github. com/AIGText/Glyph-ByT5
模型下载:https ://huggingface. co/GlyphByT5/Glyph-SDXL-v2
试用链接:https ://huggingface. co/spaces/GlyphByT5/Glyph-SDXL-v2
最近,Glyph-ByT5在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出Glyph-ByT5-v2解决了这两个根本限制,它不仅支持10种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。
为实现这一目标,我们做出了以下贡献:
创建一个高质量的多语言字形文本和图形设计数据集,包含超过100万个字形文本对和1000万个图形设计图像文本对,涵盖其他9种语言;
构建一个由1,000个提示组成的多语言视觉段落基准,每种语言100个提示,以评估多语言视觉拼写准确性;
利用最新的步骤感知偏好学习方法来提高视觉美学质量。
通过结合这些技术,我们提供了功能强大的定制多语言文本编码器Glyph-ByT5-v2和功能强大的美观图形生成模型Glyph-SDXL-v2,它们可以支持10种不同语言的准确拼写。考虑到最新的DALLE-3和Ideogram仍然难以完成多语言视觉文本渲染任务,我们认为我们的工作是一项重大进步。
上表描述了多语言可视化文本呈现结果。通过我们的方法实现了不同数量的角色。性能通过评估字级精度来证明对于上面列出的七种语言和字符级精度对于下面列出的三种语言。所有结果都基于单一模型,而不是为每种语言量身定制的多个模型。
用户研究结果显示,图形设计图像在多语言视觉文本拼写准确性、布局质量和视觉美学方面的胜率均由人类评估者偏好进行评估

下图展示了利用DALL·E3和Ideogram1. 0实现多语言生成结果的可视化。
在本文中,我们提出了一种改进的定制多语言文本编码器,用于精确的多语言视觉文本渲染。我们构建了可扩展的高质量多语言字形文本和图形设计数据集,从而能够训练我们的模型Glyph-ByT5-v2和Glyph-SDXL-v2。我们通过经验表明,用针对人类偏好优化的后训练版本替换原始SDXL可以显著增强视觉美感。通过详细的比较和用户研究证明了我们方法的有效性。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录