AI封神了！无剪辑一次直出60秒《猫和老鼠》片段，全网百万人围观

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

来源|机器之心
编辑|杜伟、蛋酱
AI圈永远不缺「新活」。
这几天，加州大学伯克利分校、斯坦福大学、英伟达等机构联合制作的《猫和老鼠》AI短片火了。
论文共同一作KaranDalal的帖子收获百万观看。
我们先来欣赏下面两段视频，重温儿时的快乐。

类似的《猫和老鼠》短片共五集，每集都是全新的故事。大家可以在项目主页查看对应的故事梗概和完整的提示词。
项目主页：https ://test-time-training.github.io/video-dit/
效果怎么样？如果不提前告知，你能分辨出它们是AI生成的吗？
据论文另一位共同一作GashonHussein介绍，为了实现逼真的动画效果，他们利用TTT（Test-timeTraining，测试时训练）层来增强预训练Transformer，并进行了微调，从而生成了时间和空间上连贯性很强的《猫和老鼠》一分钟短片。
尤其值得注意的是，所有视频都是由模型一次性直接生成，没有进行任何二次编辑、拼接或后期处理。
GashonHussein进一步解释了背后的技术原理。
TTT层是专门的RNN层，其中每个隐藏状态代表了一个机器学习模型。此外，这些层内的更新使用梯度下降来完成。本文将TTT层集成到一个预训练的DiffusionTransformer中，随后使用文本标注对长时间视频进行微调。并且，为了管理计算复杂度，自注意力被限制在局部片段，而TTT层以线性复杂度来高效地处理全局上下文。
此外，为了高效地实现TTT-MLP内核，本文开发了一种「片上张量并行」（On-chipTensorParallel）算法，具体包括以下两个步骤：
在GPU流多处理器（SreamingMultiprocessor，SM）之间划分隐藏状态模型的权重；
利用HopperGPU的DSMEM功能在SM之间执行高效的AllReduce操作，显著降低全局内存（HBM）和共享内存（SMEM）之间的数据传输，确保大量隐藏状态在SMEM内可以有效访问。
下图3为方法概览，其中（左）为本文修改后的架构在每个注意力层后添加一个带有可学习门的TTT层，（右）为整体pipeline创建了由3秒片段组成的输入序列，这种结构允许在片段上局部应用自注意力层，在整个序列上全局应用TTT层。
具体实现过程是这样的：
本文研究者从一个预训练好的DiT（CogVideo-X5B）开始，它只能以16帧/秒的速度生成3秒钟的短片（或以8帧/秒的速度生成6秒钟的短片）。然后添加了从零开始初始化的TTT层，并对该模型进行微调，以便从文本故事板生成一分钟的视频。研究者将自注意力层限制在3秒钟的片段内，使其成本保持在可控范围内。仅通过初步的系统优化，训练运行就相当于在256台H100上花费了50个小时。
这项研究博得了评论区一众网友的惊呼与赞许。
在论文《One-MinuteVideoGenerationwithTest-TimeTraining》中，英伟达、斯坦福等机构的研究者介绍了《猫和老鼠》短片背后的更多生成技术细节。
论文标题：One-MinuteVideoGenerationwithTest-TimeTraining
论文地址：https ://arxiv.org/pdf/2504.05298
此前视频生成技术限制背后的根本挑战是长上下文，因为Transformers中自注意力层的成本随着上下文长度的增加而呈二次曲线增加。这一挑战在生成动态视频时尤为突出，因为动态视频的上下文不容易被tokenizer压缩。使用标准tokenizer，每段一分钟的视频都需要30多万个上下文token。基于自注意力，生成一分钟视频所需的时间要比生成20段每段3秒钟的视频增加11倍，而训练所需的时间也要增加12倍。
为了应对这一挑战，最近有关视频生成的研究将RNN层作为自注意力的有效替代方法，因为RNN层的成本随上下文长度呈线性增长。现代RNN层，尤其是线性注意力的变体（如Mamba和DeltaNet），在自然语言任务中取得了令人印象深刻的成果。然而，我们还没有看到由RNN生成的具有复杂故事或动态动作的长视频。
本文研究者认为，这些RNN层生成的视频复杂度较低，因为它们的隐藏状态表现力较差。RNN层只能将过去的token存储到固定大小的隐藏状态中，而对于Mamba和DeltaNet等线性注意力变体来说，隐藏状态只能是一个矩阵。要将成百上千个向量压缩到一个只有数千级的矩阵中，这本身就是一项挑战。因此，这些RNN层很难记住远处token之间的深层关系。
因此研究者尝试使用另一种RNN层，其隐藏状态本身也可以是神经网络。具体来说，研究者使用两层MLP，其隐藏单元比线性注意力变体中的线性（矩阵）隐藏状态多2倍，非线性也更丰富。即使在测试序列上，神经网络的隐藏状态也会通过训练进行更新，这些新层被称为测试时间训练层（TTT）。
局部注意力机制在汤姆的颜色、杰瑞的鼠洞之间保持了一致性，并且扭曲了汤姆的身体。
TTT-MLP在整个视频时长中表现出强大的特性和时间一致性。
研究者策划了一个文本到视频的数据集，该数据集基于大约7小时的《猫和老鼠》动画片，并附有人类注释的故事板。他们有意将范围限制在这一特定领域，以便快速进行研究迭代。作为概念验证，该数据集强调复杂、多场景和具有动态运动的长篇故事，此前的模型在这些方面仍需取得进展；而对视觉和物理逼真度的强调较少，因为此前的模型在这些方面已经取得了显著进展。研究者认为，尽管本文是面向这一特定领域的长上下文能力改进，但也会转移到通用视频生成上。
在测评中，与Mamba2、GatedDeltaNet和滑动窗口注意力层等强大的基线相比，TTT层生成的视频更连贯，能讲述复杂的动态故事。
在LMSysChatbotArena中，GPT-4o比GPT-4Turbo高出29个Elo分数。
具体对比参考下列demo：
当汤姆咆哮并追逐杰瑞时，Mamba2扭曲了汤姆的外貌。
GatedDeltaNet在汤姆的不同角度上缺乏时间一致性。
滑动窗口注意力改变了厨房环境并重复了杰瑞偷馅饼的场景。
不过，在生成内容中，我们也能发现TTT-MLP一些明显的瑕疵。
1、时间一致性：盒子在同一场景的3秒片段之间变形。
2、运动自然性：奶酪悬停在半空中，而不是自然地落到地上。
3、美学：当汤姆转身时，厨房里的灯光变得更加明亮。
进技术交流群请添加AINLP小助手微信（id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区，专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。