开源双炸 SkyReels-V2 与 A2 正式登场,“无限时长”让AI视频进入长镜头时代
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
影片创作终于迎来新纪元!SkyReels-V2和A2双剑合璧,打破时长壁垒,赋予镜头魔法。用AI技术演绎无限创意,让每一帧画面都栩栩如生,低成本打造电影级视觉盛宴。
众所周知,当前AI视频生成领域,普遍面临诸多困境:模型大多数不开源,视频生成长度大多10秒,故事还没开始就结束了;用户难以二次开发与深度定制;效果一言难尽;使用门槛高,普通创作者难以驾驭;操作复杂,上手难度大。此外,这些闭源模型的使用成本居高不下,对于预算有限的创作者和团队来说,无疑是巨大的障碍。
昆仑万维逆风而上,成为全球为数不多的视频开源玩家,继年初开源SkyReels-V1、A1后,持续迭代,于昨日又重磅推出SkyReels-V2和SkyReels-A2两大模型,能够一键生成长达30s且支持无限时长的长镜头视频,彻底打破行业5s、10s小短片的创作瓶颈,为创作者带来前所未有的创作自由和强大的技术支持。
其中,SkyReels-V2作为全球首个开源的SOTA级无限时长电影级视频生成模型,彻底打破了传统视频生成的时长限制,让创作者能够随心所欲地构建长镜头叙事,为影视创作开辟了全新的可能性。
官网地址:
https ://www.skyreels.ai/home
GitHub地址:
https ://github.com/SkyworkAI/SkyReels-V2https ://github.com/SkyworkAI/SkyReels-A2
HuggingFace地址:
https ://huggingface.co/Skywork/SkyReels-V2
https ://huggingface.co/Skywork/SkyReels-A2
论文地址:
https ://arxiv.org/pdf/2504.02436
SkyReels-V2的核心创新能力在于首次使用扩散强迫(Diffusion-forcing)框架,通过多模态大语言模型(MLLM)和子专家模型的结合,精确理解视频内容的结构化描述,包括主体类型、外观、动作、表情、位置等多维度信息,以及镜头类型、角度、位置和相机运动等专业电影元素。这种结构化的设计在全球范围内被首次运用,使视频生成能够精准遵循提示词,确保创作意图得到完美呈现,通俗来说就是能真正理解人话。
与此同时,从论文上看,SkyReels-V2采用渐进式分辨率预训练和多阶段后训练策略,逐步提升视频生成的质量。从低分辨率的基础训练到高分辨率的精细微调,每一个阶段都经过严格的优化,确保生成视频在视觉质量、动态效果和时长上都能保证完整的稳定性。而创新的扩散强迫框架,通过非递减噪声安排,让视频内容能够无限延伸,从而实现了真正的无限时长电影级视频生成。
不得不说,技术团队是真正有点东西的。
单独训练统一的视频理解模型SkyCaptioner-V1:能够高效地标记视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。而且这个模型现在也是开源可以直接使用。
半自动数据标注:结合人工验证与合成数据,高效标注百万级视频片段,确保训练数据的多样性与专业性。
三阶段预训练:从低分辨率(256p)到高分辨率(540p),逐步提升模型对基础概念、运动模式和细节纹理的学习能力。
强化学习优化运动质量:针对运动失真问题,设计半自动偏好数据生成流程,通过DirectPreferenceOptimization(DPO)让模型学会生成更自然的动作。
扩散强制框架:引入非递减噪声调度(Non-decreasingNoiseSchedule),实现稳定训练与无限长度生成。
量化与并行策略:采用FP8量化和多GPU并行,将720p视频生成时间从5分钟缩短至1分钟内。
蒸馏技术:通过DMD蒸馏(DistributionMatchingDistillation)加速生成,同时保持画质。
SkyReels-V2通过自研的高质量数据清洗和人工标注流程,构建了千万级的高质量电影、电视剧、纪录片数据。这不仅确保了模型在人物微表情、肢体动作、场景描述、光影、画面构图等方面的精准理解与生成,还使模型在各项指标上达到了开源SOTA级别。如在人物表情生成方面,SkyReels-V2支持33种细腻人物表情与400多种自然动作组合,高度还原真人情感表达,生成的视频中人物表演细节丰富且精准。在场景生成方面,基于好莱坞级的高质量影视数据训练,SkyReels-V2生成的每一帧画面在构图、演员站位、相机角度等都具备电影级的质感。在权威评测基准V-Bench1.0和自建SkyReels-Bench中,SkyReels-V2展现了全面优势:
提示遵循性:在镜头类型、摄像机运动等专业领域准确率超过90%,显著优于现有模型。
长视频生成:支持30秒以上的连贯视频生成,并通过滑动窗口与噪声稳定技术减少误差累积。
多任务支持:在图像到视频(I2V)、元素组合生成(E2V)等任务中达到市面上各主流闭源模型的同等水平。
SkyReels-A2则专注于多元素视频生成任务,能够将多个视觉元素(如人物、物体、背景)根据文本提示精确地组合成连贯自然的视频。通过精心设计的数据管道构建文本-参考图像-视频三元组,利用图像-文本联合嵌入模型,将多元素表示注入生成过程,平衡元素特定的一致性与全局连贯性以及文本对齐。
在架构上,SkyReels-A2采用双流结构处理参考图像,分别提取语义特征和空间特征,并通过交叉注意力层和通道拼接的方式,将这些特征融入到视频扩散模型中。这种设计不仅保留了每个参考元素的保真度,还确保了场景的整体连贯性和自然输出。
说了这么多,我还是想动手体验一下SkyReels的视频创作能力,目前这两大模型已在SkyReels官网上线:
https ://www.skyreels.ai/home
开始创作之前,用户需要在SkyReels官方网站注册账号并登录,以获取免费的创作额度。对于需要更高创作质量和速度的用户,平台还提供了升级计划,可享受更强大的功能和更快的生成速度。
用户可以选择使用SkyReels-V2进行长达30s的电影级长镜头视频创作,这也是目前所有AI视频产品中的独家能力。
点击AIVideo即可直接创作AI视频:在平台上输入详细的文本提示词,描述视频的主题、情节、人物、动作、场景等关键信息。然后,根据需要选择视频的时长、分辨率和风格等参数。点击生成按钮后,SkyReels-V2将基于提示词和参数,自动生成高质量的视频。这是用SkyReels创作的一个30秒视频:
除了可以创作长达30秒的视频外,我更感兴趣的是AI短剧创作,作为一个短剧创作零经验的技术人员,体验了一把20分钟创作一部AI短剧的乐趣。
选择AIDrama,点击Create,进入的AI短剧的创作页面,SkyReels给了一个自动生成的英文小说剧本:
看起来是一个关于程序员的爽文故事,就直接使用了,然后点击右上角的“GenerateScript”,SkyReels帮我自动生成了一个AI小说剧本:
翻译了一下大概是:
总结:在城市小巷中,艾斯琳格利用她的专长黑入阿德里安的安保系统,揭露企业机密。与此同时,浑然不觉的阿德里安在企业办公室与罗斯讨论安保漏洞,而罗斯怀疑“Vixen”的介入。
剧本外景:城市小巷——夜晚狭窄的小巷中,霓虹灯闪烁。艾斯琳格伪装成她的黑客化身“Vixen”,蹲在控制面板旁。她的手指在腕戴界面飞舞,访问着禁用代码。难得有闲情散步的阿德里安·托雷斯在小巷入口处停下,被暗影中神秘的科技闪光吸引。
……
点击”GenerateCharacter”,SkyReels自动生成了三个角色:
继续点击”GenerateStoryboard”,生成分镜脚本,这个时间稍长,大概用了5分钟左右:
可以逐个点击编辑,没问题的话可以点击”ToVideo”单独生成视频,或者直接点击”One-ClickVideo”,将这个场景中的所有分镜脚本转换为视频,这个时间会较长。我测试了一下第3个分镜头的视频生成,配音也有了,很贴心。
如果不想用系统随机提供的故事剧本,也可以自己生成,我直接用中文测试了一下,也会帮我生成英文的小说剧本和角色,很方便。
传统AI视频工具往往只能生成简短片段,动作生硬不连贯,且难以理解专业指令。相比之下,SkyReels-V2和A2无疑是视频创作领域的重大突破,堪称AI短剧创作领域里的“好莱坞生产线”。
SkyReels-V2拥有无限时长的连续生成能力,彻底打破了时间限制,为创作者提供了广阔的叙事空间。无论是长篇故事还是复杂情节,都能一镜到底,流畅呈现。其动作流畅性更是达到了物理级真实,每一个转身、每一次奔跑都自然流畅,仿佛真人实拍,完全避免了传统AI视频中常见的卡顿和僵硬。此外,它还具备极高的智能理解能力,能够精准解析专业指令,无论是复杂的运镜技巧还是一镜到底等高阶拍摄手法,都能一一实现,为创作者提供了前所未有的精准控制。
而SkyReels-A2则专注于多元素可控视频生成,能够将多个视觉元素精确组合成连贯自然的视频。它能精准理解并执行导演术语,从人物表情控制到特殊运镜技巧,构建出好莱坞级别的叙事逻辑和视觉效果。无论是人物微表情的细腻捕捉,还是光影细节的精致渲染,都能满足创作者对高品质视频的追求。
两者都代表了目前开源模型中的顶尖水平,为视频创作带来了革命性的变化,让创作者能够以极低的成本实现高质量的创意构想。感兴趣的朋友可以在SkyReels官网体验了:
https ://www.skyreels.ai/home