启明星 | Video Rebirth刘威：视频生成模型是构建世界模型的最佳路径

Portfolio News

启明星 | Video Rebirth刘威：视频生成模型是构建世界模型的最佳路径

22/08/2025 | IPO早知道

由启明创投主办的2025世界人工智能大会（WAIC）“启明创投·创业与投资论坛——创业投资开启AI技术与应用共振周期”于7月28日在上海世博中心蓝厅成功举办。

在本次论坛上，前腾讯杰出科学家、混元大模型技术负责人，Video Rebirth首席执行官刘威以《从视频生成到世界模型》为题发表主旨演讲。

前腾讯杰出科学家、混元大模型技术负责人，Video Rebirth首席执行官刘威

刘威表示，视频生成模型是构建世界模型的最佳路径，这一技术方向有望成为AI从感知向认知跃迁的关键突破口。

刘威认为，AI技术发展正经历从符号主义到连接主义，再到现实主义和生成主义的四个重要阶段。特别值得关注的是，OpenAI在2024年9月发布的o1模型首次让AI获得了真正的推理能力，标志着连接主义40年探索的重要突破。当前2025年AI正处于关键拐点，软件正向智能体过渡，智能硬件向物理AI演进。

在技术框架上，刘威提出世界模型应具备三大核心能力：模拟能力对应仿真功能，预测能力实现因果推理，探索能力支撑规划决策。其中模拟属于快思考的感知层面，预测进入了慢思考的认知层面，而探索则是主动思考，这三大能力正是世界模型的关键所在。

尽管GPT-4o等多模态模型能够处理文本、语音、图片的输入输出，但这类模型仍处于被动响应模式，缺乏对环境的整体建模和预测能力。相比之下，世界模型需要从被动思考转向主动思考，从用户问才思考变成能够主动进行系列化思考。

SORA的出现为世界模型提供了重要启发。刘威指出，SORA首次证明了世界模型的可行性，通过视频生成实现了高度的时空变化模拟能力。虽然当前版本存在一定局限，但已经为世界模型的构建提供了实际的技术起点和可行路径。

Video Rebirth将视频原生世界模型定义为世界模拟器加世界预测器的组合。当前主流的DiT架构虽然具备强大的时空模拟能力，但存在缺乏因果推理、无法交互干预等关键问题。未来公司致力于技术升级路径解决上述问题，构建独有的技术主张和模型范式，迎来属于视频生成领域的“ChatGPT Moment”，推出首个真正的视频原生世界模型。

刘威强调，AI不仅需要宏大叙事，更要创造逼真的现实。Video Rebirth通过视频生成切入世界模型这一技术路径，有望在AI认知能力突破的关键时期实现重要技术创新，为通用人工智能的发展提供重要支撑。

来源 | IPO早知道

启明星 | Video Rebirth刘威：视频生成模型是构建世界模型的最佳路径

More News