DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!


DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。
不仅如此,CogView4还具备极高的灵活性,支持生成任意宽高比的图片,同时接受任意长度的提示词输入,满足用户多样化的创作需求。更令人期待的是,后续还将开源对应的Controlnet、Comfyui支持及模型微调工具,为用户带来更加便捷、高效的创作体验。
在DPG-Bench基准测试中,CogView4凭借卓越的表现荣获综合评分第一,彰显了其在图像生成领域的强大实力。今年,图像模型领域终于迎来了新的突破,而CogView4无疑是这场变革中的佼佼者。
CogView4主要特点总结如下:
支持中英双语提示词输入,擅长理解和遵循中文提示词
首个能够在画面中生成汉字的开源文生图模型
支持生成任意宽高的图片以及任意长度提示词输入
论文:https ://arxiv.org/pdf/2403.05121
项目:github.com/THUDM/CogView4
模型:huggingface.co/THUDM/CogView4-6B
试用:https ://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
分辨率:宽度和高度必须介于512px和之间2048px,可被整除32,并且确保最大像素数不超过2^21px。
精度:BF16/FP32(不支持FP16,因为它会导致溢出,从而导致图像完全变黑)使用BF16精度为batchsize=4进行测试,内存使用情况如下表所示:
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录