腾讯发布混元世界模型1.5
快速阅读: 据媒体报道,腾讯近日发布国内首个开放的实时互动体验平台“混元世界模型1.5”,用户可通过文字或图片生成可交互虚拟世界,支持每秒24帧高清输出、长程3D一致性及多视角切换,并首次开源完整训练体系,推动AI向可探索虚拟世界迈进。
腾讯近日正式发布混元世界模型1.5(Tencent HY WorldPlay),这是国内首个开放的实时互动体验平台。用户只需输入文字描述或上传图片,即可快速生成可交互的虚拟世界,并通过键盘、鼠标或手柄实时控制虚拟相机,自由探索AI生成的场景。
该模型具备三大核心能力。其一,支持实时交互生成,依托原创的Context Forcing蒸馏方案与流式推理优化,可实现每秒24帧的720P高清视频输出。其二,具有长程3D一致性——用户离开某区域后再次返回时,系统能准确还原该区域的三维结构,保障场景连贯性。其三,提供多样化交互体验,适配多种风格的游戏与现实场景,并支持多视角切换及实时文本触发事件。
此次发布的版本首次开源了业内最完整的实时世界模型训练体系,覆盖从数据构建、模型训练到推理部署的全流程。腾讯混元团队在技术报告中详述了预训练、持续训练及基于自回归视频模型的强化学习方法。模型采用Next-Frames-Prediction视觉自回归任务,有效突破了实时性与几何一致性难以兼顾的技术瓶颈。
混元世界模型1.5不仅在技术上取得重要进展,也为AI生成内容开辟了新方向。未来,AI或将超越文本、图像与视频的单一生成模式,迈向可实时探索与互动的完整虚拟世界构建,在游戏开发、影视制作和虚拟现实等领域展现广阔应用前景。
(以上内容均由Ai生成)
引用自:AIbase人工智能资讯平台