Portfolio News

启明星 | Video Rebirth刘威:视频生成模型是构建世界模型的最佳路径

22/08/2025 | IPO早知道

启明创投主办的2025世界人工智能大会(WAIC)“启明创投·创业与投资论坛——创业投资开启AI技术与应用共振周期”于7月28日在上海世博中心蓝厅成功举办。

在本次论坛上,前腾讯杰出科学家、混元大模型技术负责人,Video Rebirth首席执行官刘威以《从视频生成到世界模型》为题发表主旨演讲。


前腾讯杰出科学家、混元大模型技术负责人,Video Rebirth首席执行官刘威

刘威表示,视频生成模型是构建世界模型的最佳路径,这一技术方向有望成为AI从感知向认知跃迁的关键突破口。

刘威认为,AI技术发展正经历从符号主义到连接主义,再到现实主义和生成主义的四个重要阶段。特别值得关注的是,OpenAI在2024年9月发布的o1模型首次让AI获得了真正的推理能力,标志着连接主义40年探索的重要突破。当前2025年AI正处于关键拐点,软件正向智能体过渡,智能硬件向物理AI演进。

在技术框架上,刘威提出世界模型应具备三大核心能力:模拟能力对应仿真功能,预测能力实现因果推理,探索能力支撑规划决策。其中模拟属于快思考的感知层面,预测进入了慢思考的认知层面,而探索则是主动思考,这三大能力正是世界模型的关键所在。

尽管GPT-4o等多模态模型能够处理文本、语音、图片的输入输出,但这类模型仍处于被动响应模式,缺乏对环境的整体建模和预测能力。相比之下,世界模型需要从被动思考转向主动思考,从用户问才思考变成能够主动进行系列化思考。

SORA的出现为世界模型提供了重要启发。刘威指出,SORA首次证明了世界模型的可行性,通过视频生成实现了高度的时空变化模拟能力。虽然当前版本存在一定局限,但已经为世界模型的构建提供了实际的技术起点和可行路径。

Video Rebirth将视频原生世界模型定义为世界模拟器加世界预测器的组合。当前主流的DiT架构虽然具备强大的时空模拟能力,但存在缺乏因果推理、无法交互干预等关键问题。未来公司致力于技术升级路径解决上述问题,构建独有的技术主张和模型范式,迎来属于视频生成领域的“ChatGPT Moment”,推出首个真正的视频原生世界模型。

刘威强调,AI不仅需要宏大叙事,更要创造逼真的现实。Video Rebirth通过视频生成切入世界模型这一技术路径,有望在AI认知能力突破的关键时期实现重要技术创新,为通用人工智能的发展提供重要支撑。

 

来源 | IPO早知道