CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现


CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

图像生成已经“卷”入日常,视频生成也不再是最初的“抖动幻影”,而是跃升为能够讲故事、控制动作、进行较长时推理的高质量动态内容。
可灵、Sora、Genie、Cosmos、MovieGen等一系列模型的突破正在不断拓宽视频生成的边界,研究者们开始重新关注更深层次的问题:
视频生成是否能成为通往世界模型的桥梁?它是否具备成为可执行、可交互、可推理的智能中枢?它是否正在走向支撑具身智能(EmbodiedIntelligence)的核心能力?
这些问题将在CVPR2025Tutorial《FromVideoGenerationtoWorldModels–从视频生成到世界模型》中深入探讨。
如何将视频生成作为强大的视觉先验,赋能AI感知世界、理解交互、推理物理,从而迈向更通用、更具具身智能能力的世界模型。
本Tutorial(教程)汇聚来自学术界与产业界的一线研究者:
他们将在生成建模、3D理解、强化学习与物理推理等方向展开分享,探讨如何将生成能力转化为感知、预测与决策的智能基座。
视频生成技术本身,已经初步展现出对时空一致性、视觉因果链的建模能力。更值得关注的是:它是否能被用来理解物体之间的交互?是否能捕捉人类行为背后的物理与语义因果?是否具备从“生成”走向“交互式世界模型(InteractiveWorldModel)”的潜力?
可灵、Sora、Genie、Cosmos、MovieGen等模型的发展已提供初步答案:视频生成可以不仅仅是输出,更是通向感知-建模-推理-决策一体化世界模型的入口。
如果你正在关注视频生成与多模态理解;EmbodiedAI、机器人与交互智能;用生成式模型进行世界建模与物理推理
那么,这场教程将为你提供思路、工具与未来研究的方向感。
时间:2025年6月11日地点:美国MusicCityCenter,NashvilleTN
欢迎大家现场参与,一起探讨:如何以视频生成为基石,迈向理解、交互与建模真实世界的下一代智能系统。
官网地址:https ://world-model-tutorial. github.io/
资料地址:https ://github. com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
—完—
🌟点亮星标🌟
科技前沿进展每日见


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录