开源双炸 SkyReels-V2 与 A2 正式登场，“无限时长”让AI视频进入长镜头时代

发布日期: 2025-04-22

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

影片创作终于迎来新纪元！SkyReels-V2和A2双剑合璧，打破时长壁垒，赋予镜头魔法。用AI技术演绎无限创意，让每一帧画面都栩栩如生，低成本打造电影级视觉盛宴。
众所周知，当前AI视频生成领域，普遍面临诸多困境：模型大多数不开源，视频生成长度大多10秒，故事还没开始就结束了；用户难以二次开发与深度定制；效果一言难尽；使用门槛高，普通创作者难以驾驭；操作复杂，上手难度大。此外，这些闭源模型的使用成本居高不下，对于预算有限的创作者和团队来说，无疑是巨大的障碍。
昆仑万维逆风而上，成为全球为数不多的视频开源玩家，继年初开源SkyReels-V1、A1后，持续迭代，于昨日又重磅推出SkyReels-V2和SkyReels-A2两大模型，能够一键生成长达30s且支持无限时长的长镜头视频，彻底打破行业5s、10s小短片的创作瓶颈，为创作者带来前所未有的创作自由和强大的技术支持。
其中，SkyReels-V2作为全球首个开源的SOTA级无限时长电影级视频生成模型，彻底打破了传统视频生成的时长限制，让创作者能够随心所欲地构建长镜头叙事，为影视创作开辟了全新的可能性。
官网地址：
https ://www.skyreels.ai/home
GitHub地址：
https ://github.com/SkyworkAI/SkyReels-V2https ://github.com/SkyworkAI/SkyReels-A2
HuggingFace地址：
https ://huggingface.co/Skywork/SkyReels-V2
https ://huggingface.co/Skywork/SkyReels-A2
论文地址：
https ://arxiv.org/pdf/2504.02436
SkyReels-V2的核心创新能力在于首次使用扩散强迫（Diffusion-forcing）框架，通过多模态大语言模型（MLLM）和子专家模型的结合，精确理解视频内容的结构化描述，包括主体类型、外观、动作、表情、位置等多维度信息，以及镜头类型、角度、位置和相机运动等专业电影元素。这种结构化的设计在全球范围内被首次运用，使视频生成能够精准遵循提示词，确保创作意图得到完美呈现，通俗来说就是能真正理解人话。
与此同时，从论文上看，SkyReels-V2采用渐进式分辨率预训练和多阶段后训练策略，逐步提升视频生成的质量。从低分辨率的基础训练到高分辨率的精细微调，每一个阶段都经过严格的优化，确保生成视频在视觉质量、动态效果和时长上都能保证完整的稳定性。而创新的扩散强迫框架，通过非递减噪声安排，让视频内容能够无限延伸，从而实现了真正的无限时长电影级视频生成。
不得不说，技术团队是真正有点东西的。
单独训练统一的视频理解模型SkyCaptioner-V1：能够高效地标记视频数据，生成符合原始结构信息的多样化描述。通过这种方式，SkyCaptioner-V1不仅能够理解视频的一般内容，还能捕捉到电影场景中的专业镜头语言，从而显著提高了生成视频的提示词遵循能力。而且这个模型现在也是开源可以直接使用。
半自动数据标注：结合人工验证与合成数据，高效标注百万级视频片段，确保训练数据的多样性与专业性。
三阶段预训练：从低分辨率（256p）到高分辨率（540p），逐步提升模型对基础概念、运动模式和细节纹理的学习能力。
强化学习优化运动质量：针对运动失真问题，设计半自动偏好数据生成流程，通过DirectPreferenceOptimization（DPO）让模型学会生成更自然的动作。
扩散强制框架：引入非递减噪声调度（Non-decreasingNoiseSchedule），实现稳定训练与无限长度生成。
量化与并行策略：采用FP8量化和多GPU并行，将720p视频生成时间从5分钟缩短至1分钟内。
蒸馏技术：通过DMD蒸馏（DistributionMatchingDistillation）加速生成，同时保持画质。
SkyReels-V2通过自研的高质量数据清洗和人工标注流程，构建了千万级的高质量电影、电视剧、纪录片数据。这不仅确保了模型在人物微表情、肢体动作、场景描述、光影、画面构图等方面的精准理解与生成，还使模型在各项指标上达到了开源SOTA级别。如在人物表情生成方面，SkyReels-V2支持33种细腻人物表情与400多种自然动作组合，高度还原真人情感表达，生成的视频中人物表演细节丰富且精准。在场景生成方面，基于好莱坞级的高质量影视数据训练，SkyReels-V2生成的每一帧画面在构图、演员站位、相机角度等都具备电影级的质感。在权威评测基准V-Bench1.0和自建SkyReels-Bench中，SkyReels-V2展现了全面优势：
提示遵循性：在镜头类型、摄像机运动等专业领域准确率超过90%，显著优于现有模型。
长视频生成：支持30秒以上的连贯视频生成，并通过滑动窗口与噪声稳定技术减少误差累积。
多任务支持：在图像到视频（I2V）、元素组合生成（E2V）等任务中达到市面上各主流闭源模型的同等水平。
SkyReels-A2则专注于多元素视频生成任务，能够将多个视觉元素（如人物、物体、背景）根据文本提示精确地组合成连贯自然的视频。通过精心设计的数据管道构建文本-参考图像-视频三元组，利用图像-文本联合嵌入模型，将多元素表示注入生成过程，平衡元素特定的一致性与全局连贯性以及文本对齐。
在架构上，SkyReels-A2采用双流结构处理参考图像，分别提取语义特征和空间特征，并通过交叉注意力层和通道拼接的方式，将这些特征融入到视频扩散模型中。这种设计不仅保留了每个参考元素的保真度，还确保了场景的整体连贯性和自然输出。
说了这么多，我还是想动手体验一下SkyReels的视频创作能力，目前这两大模型已在SkyReels官网上线：
https ://www.skyreels.ai/home
开始创作之前，用户需要在SkyReels官方网站注册账号并登录，以获取免费的创作额度。对于需要更高创作质量和速度的用户，平台还提供了升级计划，可享受更强大的功能和更快的生成速度。
用户可以选择使用SkyReels-V2进行长达30s的电影级长镜头视频创作，这也是目前所有AI视频产品中的独家能力。
点击AIVideo即可直接创作AI视频：在平台上输入详细的文本提示词，描述视频的主题、情节、人物、动作、场景等关键信息。然后，根据需要选择视频的时长、分辨率和风格等参数。点击生成按钮后，SkyReels-V2将基于提示词和参数，自动生成高质量的视频。这是用SkyReels创作的一个30秒视频：
除了可以创作长达30秒的视频外，我更感兴趣的是AI短剧创作，作为一个短剧创作零经验的技术人员，体验了一把20分钟创作一部AI短剧的乐趣。
选择AIDrama，点击Create，进入的AI短剧的创作页面，SkyReels给了一个自动生成的英文小说剧本：
看起来是一个关于程序员的爽文故事，就直接使用了，然后点击右上角的“GenerateScript”，SkyReels帮我自动生成了一个AI小说剧本：
翻译了一下大概是：
总结：在城市小巷中，艾斯琳格利用她的专长黑入阿德里安的安保系统，揭露企业机密。与此同时，浑然不觉的阿德里安在企业办公室与罗斯讨论安保漏洞，而罗斯怀疑“Vixen”的介入。
剧本外景：城市小巷——夜晚狭窄的小巷中，霓虹灯闪烁。艾斯琳格伪装成她的黑客化身“Vixen”，蹲在控制面板旁。她的手指在腕戴界面飞舞，访问着禁用代码。难得有闲情散步的阿德里安·托雷斯在小巷入口处停下，被暗影中神秘的科技闪光吸引。
……
点击”GenerateCharacter”，SkyReels自动生成了三个角色：
继续点击”GenerateStoryboard”，生成分镜脚本，这个时间稍长，大概用了5分钟左右：
可以逐个点击编辑，没问题的话可以点击”ToVideo”单独生成视频，或者直接点击”One-ClickVideo”，将这个场景中的所有分镜脚本转换为视频，这个时间会较长。我测试了一下第3个分镜头的视频生成，配音也有了，很贴心。
如果不想用系统随机提供的故事剧本，也可以自己生成，我直接用中文测试了一下，也会帮我生成英文的小说剧本和角色，很方便。
传统AI视频工具往往只能生成简短片段，动作生硬不连贯，且难以理解专业指令。相比之下，SkyReels-V2和A2无疑是视频创作领域的重大突破，堪称AI短剧创作领域里的“好莱坞生产线”。
SkyReels-V2拥有无限时长的连续生成能力，彻底打破了时间限制，为创作者提供了广阔的叙事空间。无论是长篇故事还是复杂情节，都能一镜到底，流畅呈现。其动作流畅性更是达到了物理级真实，每一个转身、每一次奔跑都自然流畅，仿佛真人实拍，完全避免了传统AI视频中常见的卡顿和僵硬。此外，它还具备极高的智能理解能力，能够精准解析专业指令，无论是复杂的运镜技巧还是一镜到底等高阶拍摄手法，都能一一实现，为创作者提供了前所未有的精准控制。
而SkyReels-A2则专注于多元素可控视频生成，能够将多个视觉元素精确组合成连贯自然的视频。它能精准理解并执行导演术语，从人物表情控制到特殊运镜技巧，构建出好莱坞级别的叙事逻辑和视觉效果。无论是人物微表情的细腻捕捉，还是光影细节的精致渲染，都能满足创作者对高品质视频的追求。
两者都代表了目前开源模型中的顶尖水平，为视频创作带来了革命性的变化，让创作者能够以极低的成本实现高质量的创意构想。感兴趣的朋友可以在SkyReels官网体验了：
https ://www.skyreels.ai/home