可灵2.0成“最强视觉生成模型”?自称遥遥领先OpenAI、谷歌,技术创新细节大揭秘!


可灵2.0成“最强视觉生成模型”?自称遥遥领先OpenAI、谷歌,技术创新细节大揭秘!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

可灵AI创作者作品
整理|褚杏娟、华卫
刚刚,可灵AI面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。即日起,可灵2.0和可图2.0在全球范围上线。
“这是你能用到的,世界上最强大的视觉生成模型。”快手高级副总裁、社区科学线负责人盖坤说道。
根据对比测试,可灵2.0文生视频大模型与Veo2的胜负比为205%,与Sora的胜负比为367%(如果两模型胜负比为100%,说明两者水平相当)。可灵2.0图生视频大模型与Veo2的胜负比为182%,与Gen-4的胜负比为178%。
另外,可图2.0文生图大模型,与Midjourneyv7的胜负比为301%,与Reve的胜负比为193%,与Flux1.1Pro版本的胜负比为152%。
可灵2.0生成效果如何?
快手副总裁、可灵AI负责人张迪介绍,现在的视频AI生成技术还远远不够,目前创作者们会遇到两类问题:一类是语义遵循能力在部分情况下能力不够,妨碍了创作者们用文字精准表达、控制生成结果;二是动态质量问题,包括大家所常说的运动崩坏或者不符合物理规律。
为此,可灵2.0视频生成模型在语义响应、画面质量、动态质量、真实度和美感上都有大幅提升。
语义响应
“一个视频生成模型的语义响应,已经不能用简单的文本响应来看了,我们希望它有更强的动作响应能力,有更强的运镜响应能力,有更强的时序响应能力。”张迪说道。
可灵2.0完善了1.6版本中的表情的动作描述和肢体的动作描述的细节错误:
时序响应指的是在同一个prompt里面,按照时间顺序进行分段描述,模型需要按照严格的时间顺序进行展示。可灵2.0在背景延时摄影的完成度都很高:
除了基础运镜,可灵2.0可以直接用提示词激活环绕运镜、跟随运镜、镜头组合运镜等方式:
动态质量
可灵2.0重点优化了历史版本中可能出现慢动作的问题,对于运动速度的把握更加精准:
更合理的运动幅度使得整个画面的表现张力更好、更有冲击力:
美学优化
在美学优化方面,可灵2.0可以生成更具电影大片质感的镜头,同时让每一个镜头的细节表达更加丰富:
可灵2.0在一些细节上的优化:
对于可灵2.0的生成效果,网友们也给出了很高评价。
”AI视频的质量一夜之间提升了10倍,我已经无话可说了。Kling2.0刚刚发布,我已经花掉了1250美元的额度来测试它的极限。我从没见过这么流畅的动态效果,也从没见过对提示词的理解这么准确的模型。”PJAce说道。
“相信我,这次模型升级绝对惊艳!现在你可以生成的动态动作数量达到了新的高度。如果您想让动作更快速,新模型在这方面完全胜任,动作看起来非常自然流畅。”网友TravisDavids说道。
一系列技术创新细节披露
“所有的这些能力提升,都离不开整个团队背后的大量的技术创新。”张迪介绍,可灵2.0在基础模型架构和训练和推理策略上进行了全新的升级,这些工作使其打开了建模和仿真的能力空间。
可灵整体框架采用了类Sora的DiT结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net。具体来说,可灵2.0在基础模型上的架构升级包括:
全新设计的DiT架构,提升视觉/文本模态信息融合能力。
全新设计的VAE,使复杂动态场景下过渡更顺畅、质感更自然。
首次系统性研究了视频生成DIT架构的ScalingLaw特性。
为解锁更强的指令响应和运动表现,可灵2.0采用了以下训练和推理策略:
强化对于复杂运动、主体交互的生成能力提升视频表现张力。
强化对运镜语言、构图术语等专业表达的理解和响应能力。
人类偏好对齐技术,让模型更懂”常识”和“审美”。
据张迪透露,在可灵AI平台上,85%的视频创作是通过图生视频完成的,这一方面说明了图生视频可以更好地表达用户的创作意图,另一方面也彰显了图片赋予整个视觉创作流的重要性。
此次升级的可图2.0模型,在指令遵循、电影质感及艺术风格表现等方面作了显著提升。在风格化响应上,可图2.0支持60多种风格化的效果转绘,包括受大家喜爱的GPT风格、二次元风格、插画风格、数字世界、3D等,模型出图创意和想象力实现因此大幅跃升。
而在可图2.0背后,同样暗含许多技术创新。张迪介绍称,快手团队在预训练阶段,通过精准建模预训练文本到视觉表征的映射,使得文本和图像的对齐做得更好;在后训练阶段,该模型更多地使用了强化学习技术来提升美感、对齐人类审美,并大量探索了后训练阶段的ScalingLaw;在推理阶段,大量使用了全新的提示词工程和推理策略,提升了出图的稳定性和创造性。
视频和图像都能放进prompt了
“文字作为人去描述自己想象中的世界的媒介是不完备的,需要定义一个人和AI交互的新的语言,让人的想象能够被AI完全感知到。”盖坤说道。
在一些场景里,文字很难准确描述出视频内容,比如复杂的武打画面,即使用很大篇幅的文字也难以准确描述。
为此,快手还在可灵2.0大师版上线了全新的多模态编辑功能,能灵活理解用户意图,支持对视频和图像内容实现增、删、改元素。
具体可以看到,多模态编辑器中,可以将多模态的表达放进提示词中,以实现更准备的修改。
此外,图像多模态编辑具有风格重绘的能力,能够对图片可进行不同风格的重绘,且保持原图片的语义。
在本次2.0模型迭代中,可灵AI正式提出了AI视频生成的全新交互理念Multi-modalVisualLanguage(MVL),即将语义骨架(TXT)和多模态描述子(MMW)结合,让用户能够结合图像参考、视频片段等多模态信息,将脑海中的多维度复杂创意,直接高效地传达给AI。此次发布的多模态视频编辑功能,正是基于MVL的思想所研发。
张迪介绍称,多模态编辑功能背后是一整套多模态控制技术,快手目前在这方面迎来了很大的突破,包括以下三个方面:
把文本模态、图像模态和视觉模态进行了统一表征,并使用超长的上下文进行训练;
通过高效的Token压缩与缓存算法,可以支持长序列的训练和推理;
在推理环节,使用了带有CoT的多模态推理能力技术来理解用户输入的多模态信息。
结语
截至目前,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
张迪表示,在发布之初,快手便深知视频生成技术赛道是一个长跑,为此可灵AI自发布后就进入了夺命狂奔模式,过去10个月时间里已经历了20多次的产品迭代,发布了9个有里程碑意义的产品。可灵1.0于去年6月发布,是全球首个用户真实可用的DIT架构的视频政策大模型。
对于这一次的更新,可灵AI团队给出了这样的评价:“我们可以当之无愧的说,可灵2.0文生视频模型是一个全球大幅领先的视频模型。”
声明:本文为AI前线整理,不代表平台观点,未经许可禁止转载。
活动推荐
AICon2025强势来袭,5月上海站、6月北京站,双城联动,全览AI技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚AIAgent、多模态、场景应用、大模型架构创新、智能数据基建、AI产品设计和出海策略等话题。即刻扫码购票,一同探索AI应用边界!
今日荐文
“Bug”还是“预演”?GitHub突然“封禁”所有中国IP,官方:只是“手滑”技术出错了
刘强东被美团高管暗贬后回应;曝Qwen3处于最后准备阶段;特朗普免除手机、电脑、芯片“对等”关税|AI周报
“开源版coze”爆火,融资超4.6亿!如今Docker拉取量超1亿,斩获77.5kstar
GPT-4.1偷摸开测?神秘模型登顶编程榜,社区细扒指向OpenAI,网友:营销鬼才又来了!
你也「在看」吗?👇


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录