智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

发布时间:2025年11月1日    来源:szf
智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

快速阅读: 北京智源研究院发布Emu3.5,首次引入NSP框架,实现跨模态操作与智能推理,提升AI从“感知理解”到“操作世界”的能力,应用前景广泛。

当大模型不再只是“看图说话”或“文生图”,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态AI正迎来质的飞跃。10月30日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5, 首次 将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从“感知理解”迈向“智能操作”的关键一步。

NSP架构:让AI学会“预测世界如何变化” Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。这意味着,Emu3.5不仅能理解当前场景,还能预判操作后的结果,并据此规划 最优 动作路径。

例如,用户输入“把这张照片中的咖啡杯移到桌子右边,并调亮整体色调”,Emu3.5不仅能精准识别对象与背景,还能分步执行移动、光照调整等复合操作,确保每一步输出都符合物理逻辑与视觉一致性。

具身智能初显:跨场景操作能力全面升级 在实测中,Emu3.5展现出强大的跨模态泛化与具身操作能力: 文图协同生成:根据复杂描述(如“赛博朋克风格的雨夜街道,霓虹灯反射在积水路面”)生成高细节图像; 智能图像编辑:支持语义级修改(如“更换人物服装风格为复古西装”),无需手动选区; 时空动态推理:可对视频帧序列进行连贯编辑,如“让奔跑的角色突然停下并转身”。

这种能力使其在机器人控制、虚拟助手、智能设计等需“感知-决策-执行”闭环的场景中潜力巨大。

多模态融合新范式:打破信息孤岛 不同于早期多模态模型仅做特征对齐,Emu3.5将文本、视觉、动作等模态统一编码为可预测的状态流,实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据,普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。

智源表示,Emu3.5将率先应用于教育(智能课件生成)、医疗(多模态病历分析)、娱乐(AI导演)等领域,并持续开源部分能力,推动多模态生态发展。

结语:从“理解世界”到“操作世界” Emu3.5的发布,不仅是技术参数的升级,更是AI角色定位的转变——从被动响应的“工具”,进化为主动规划的“协作者”。当模型开始预测“下一步会发生什么”,它便真正踏上了通往通用智能的道路。而智源,正以NSP架构为支点,撬动多模态AI的下一个爆发点。

(以上内容均由Ai生成)

你可能还想读

国际空间站AI系统快速检测海上船只

国际空间站AI系统快速检测海上船只

快速阅读: NOVI太空公司在国际空间站展示基于AI的目标检测系统,能快速识别海上船只并向地面发送通知,减少延迟和成本。该技术为轨道情报传输开辟新途径,计划2026年发射GENIE卫星星座。 美国加利福尼亚州洛杉矶(SPX)2025年10月 […]

发布时间:2025年11月3日
奥德赛再保险任命Randhir Bilkhu为AI业务解决方案负责人

奥德赛再保险任命Randhir Bilkhu为AI业务解决方案负责人

快速阅读: 奥德赛再保险公司任命兰迪尔·比尔库为人工智能业务解决方案负责人,负责利用AI技术优化承保流程,比尔库将向再保险首席执行官汇报。 奥德赛再保险公司,奥德赛集团控股有限公司(隶属于费尔法克斯金融控股有限公司)的财产和意外再保险部门, […]

发布时间:2025年11月3日
苹果新Siri秘密采用谷歌Gemini模型,大幅提升AI能力

苹果新Siri秘密采用谷歌Gemini模型,大幅提升AI能力

快速阅读: 苹果计划在明年春季随iOS 26.4发布新版Siri,采用谷歌Gemini模型,增强个人问题解答能力,包括查询规划、知识搜索和摘要生成功能,提升用户体验,预计3月或4月推出。 苹果计划在明年春季发布的iOS 26.4中推出新版S […]

发布时间:2025年11月3日
阿联酋阿布扎比国家石油公司扩大机器人与人工智能应用

阿联酋阿布扎比国家石油公司扩大机器人与人工智能应用

快速阅读: 阿布扎比国家石油公司与Gecko Robotics签署三项协议,扩大AI和机器人技术应用,提升运营效率和安全性,同时培训阿联酋国民。 阿布扎比国家石油公司(Adnoc)与美国Gecko Robotics签署了三项协议,旨在扩大机 […]

发布时间:2025年11月3日
科技巨头豪掷800亿美元押注AI,市场反应迥异

科技巨头豪掷800亿美元押注AI,市场反应迥异

快速阅读: 谷歌、Meta和微软加大AI基础设施投资,分别提高资本支出至930亿、720亿和1400亿美元,但市场反应各异。谷歌股价上涨3%,Meta因巨额支出致股价大跌12.6%,市值蒸发2400亿美元。微软虽市值突破4万亿美元,股价仍下 […]

发布时间:2025年11月3日
法律AI未来在于律所与客户协作

法律AI未来在于律所与客户协作

快速阅读: 《法律先锋》节目中,Harvey联合创始人讨论法律AI发展方向,强调律所与客户合作及多玩家模式,指出内部法律顾问在AI采用上落后律所一年,强调知识共享和协作AI系统的重要性,探讨AI对计费实践和人才吸引的影响。 在这次《法律先锋 […]

发布时间:2025年11月3日
设计师推出Everglow:融合AI与触感的音乐创作工具

设计师推出Everglow:融合AI与触感的音乐创作工具

快速阅读: 张伍金设计的Everglow,结合生成式AI与触觉硬件,支持实时音乐创作。其三角形键位布局融合键盘和吉他特点,压力敏感键位实现音高弯曲等技巧,支持移动和即兴创作。 Everglow:实时AI声音创作的紧凑型界面 Everglow […]

发布时间:2025年11月3日
联想发布AI眼镜V1,支持实时翻译,售价555美元

联想发布AI眼镜V1,支持实时翻译,售价555美元

快速阅读: 联想AI眼镜V1采用衍射光波导树脂显示屏,最高亮度2000尼特,镜片厚1.8毫米,视野15×11毫米,头部微动图像清晰,适合专业与日常使用。 联想AI眼镜V1采用衍射光波导树脂显示屏,最高亮度可达2000尼特。镜片超薄,厚度仅为 […]

发布时间:2025年11月3日