智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

发布时间:2025年11月1日    来源:szf
智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

快速阅读: 北京智源研究院发布Emu3.5,首次引入NSP框架,实现跨模态操作与智能推理,提升AI从“感知理解”到“操作世界”的能力,应用前景广泛。

当大模型不再只是“看图说话”或“文生图”,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态AI正迎来质的飞跃。10月30日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5, 首次 将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从“感知理解”迈向“智能操作”的关键一步。

NSP架构:让AI学会“预测世界如何变化” Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。这意味着,Emu3.5不仅能理解当前场景,还能预判操作后的结果,并据此规划 最优 动作路径。

例如,用户输入“把这张照片中的咖啡杯移到桌子右边,并调亮整体色调”,Emu3.5不仅能精准识别对象与背景,还能分步执行移动、光照调整等复合操作,确保每一步输出都符合物理逻辑与视觉一致性。

具身智能初显:跨场景操作能力全面升级 在实测中,Emu3.5展现出强大的跨模态泛化与具身操作能力: 文图协同生成:根据复杂描述(如“赛博朋克风格的雨夜街道,霓虹灯反射在积水路面”)生成高细节图像; 智能图像编辑:支持语义级修改(如“更换人物服装风格为复古西装”),无需手动选区; 时空动态推理:可对视频帧序列进行连贯编辑,如“让奔跑的角色突然停下并转身”。

这种能力使其在机器人控制、虚拟助手、智能设计等需“感知-决策-执行”闭环的场景中潜力巨大。

多模态融合新范式:打破信息孤岛 不同于早期多模态模型仅做特征对齐,Emu3.5将文本、视觉、动作等模态统一编码为可预测的状态流,实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据,普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。

智源表示,Emu3.5将率先应用于教育(智能课件生成)、医疗(多模态病历分析)、娱乐(AI导演)等领域,并持续开源部分能力,推动多模态生态发展。

结语:从“理解世界”到“操作世界” Emu3.5的发布,不仅是技术参数的升级,更是AI角色定位的转变——从被动响应的“工具”,进化为主动规划的“协作者”。当模型开始预测“下一步会发生什么”,它便真正踏上了通往通用智能的道路。而智源,正以NSP架构为支点,撬动多模态AI的下一个爆发点。

(以上内容均由Ai生成)

你可能还想读

微软CEO纳德拉宣布扩大员工规模,重点发展AI和运营效率

微软CEO纳德拉宣布扩大员工规模,重点发展AI和运营效率

快速阅读: 微软CEO纳德拉宣布扩大员工队伍,重点发展人工智能与提升运营效率,强调适应新工作方式的重要性,预计新增人员将产生更大杠杆效应。 微软首席执行官萨提亚·纳德拉宣布了这家科技巨头扩大员工队伍的计划,重点放在人工智能和运营效率上。“我 […]

发布时间:2025年11月3日
亚马逊AI购物助手Rufus预计年增销售额100亿美元

亚马逊AI购物助手Rufus预计年增销售额100亿美元

快速阅读: 亚马逊AI购物助手Rufus预计每年将为公司带来100亿美元额外销售额,月活跃用户增长140%,使用Rufus的客户购买可能性提高60%。 如果对亚马逊通过人工智能实现盈利的能力还有所怀疑,“万有商店”给出了一个惊人的数字:其A […]

发布时间:2025年11月3日
伦敦首家AI面部定制服务亮相

伦敦首家AI面部定制服务亮相

快速阅读: 周一晚,作者前往伦敦帕森斯格林妮可护士美学诊所体验AI皮肤分析服务。该技术利用数百万数据点,快速无创地分析皮肤需求。作者上传自拍后,几分钟内收到分析结果,略带调侃。 在一个周一的晚上,我来到了位于帕森斯格林的妮可护士美学诊所(伦 […]

发布时间:2025年11月3日
AI领域招聘激增800%,前向部署工程师成香饽饽

AI领域招聘激增800%,前向部署工程师成香饽饽

快速阅读: 前向部署工程师成AI领域最热职位,需求激增超800%,OpenAI、Anthropic等加速招募,助力AI技术商业化,促进人机协作。 人工智能领域增长最快的职位并非程序员或数据科学家,而是前向部署工程师(Forward-Depl […]

发布时间:2025年11月3日
习近平提议全球AI治理组织,挑战美国技术主导地位

习近平提议全球AI治理组织,挑战美国技术主导地位

快速阅读: 中国国家主席习近平在APEC会议上提议建立全球人工智能治理机构,强调国际合作与共享,目标将AI发展为全球公共产品。美国对此持保留态度。 中国国家主席习近平在亚太经合组织(APEC)领导人会议上提出建立全球人工智能治理机构的倡议, […]

发布时间:2025年11月3日
AI音乐席卷Billboard榜单,引发版权争议

AI音乐席卷Billboard榜单,引发版权争议

快速阅读: AI音乐迅速崛起,频繁登上《公告牌》榜单,引发唱片公司关注与投资。AI艺术家赞尼亚·莫内及朱诺·斯凯作品受欢迎,但AI音乐版权争议不断,Spotify出台新政策应对。 无论你喜欢与否,AI音乐已经到来,并迅速成为《公告牌》热门新 […]

发布时间:2025年11月3日
黄仁勋:AI进入良性循环,将持续推动行业发展

黄仁勋:AI进入良性循环,将持续推动行业发展

快速阅读: 英伟达CEO黄仁勋在APEC峰会表示,AI进入良性循环,技术进步吸引投资,推动行业发展,英伟达成首个市值超5万亿美元公司,与三星合作加强芯片制造能力。 英伟达首席执行官黄仁勋周五表示,人工智能已进入“良性循环”,标志着该行业持续 […]

发布时间:2025年11月3日
纳德拉:微软将扩大招聘,但需具备AI能力

纳德拉:微软将扩大招聘,但需具备AI能力

快速阅读: 微软CEO纳德拉宣布将在AI领域增加员工,强调新员工需具备AI能力,此前公司已裁员近4%以控制成本并投资AI。纳德拉举例说明AI如何提高生产力,微软承诺投入800亿美元发展AI。 微软首席执行官萨提亚·纳德拉表示,公司将在经历全 […]

发布时间:2025年11月3日