智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

发布时间:2025年10月30日    来源:szf
智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

快速阅读: 北京智源研究院发布多模态模型Emu3.5,引入NSP框架,实现跨模态智能操作,能预测并执行动作,广泛应用于机器人控制、虚拟助手等领域,推动AI从感知理解向智能操作转变。

当大模型不再只是“看图说话”或“文生图”,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态AI正迎来质的飞跃。10月30日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5, 首次 将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从“感知理解”迈向“智能操作”的关键一步。

NSP架构:让AI学会“预测世界如何变化” Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。这意味着,Emu3.5不仅能理解当前场景,还能预判操作后的结果,并据此规划 最优 动作路径。

例如,用户输入“把这张照片中的咖啡杯移到桌子右边,并调亮整体色调”,Emu3.5不仅能精准识别对象与背景,还能分步执行移动、光照调整等复合操作,确保每一步输出都符合物理逻辑与视觉一致性。

具身智能初显:跨场景操作能力全面升级 在实测中,Emu3.5展现出强大的跨模态泛化与具身操作能力: 文图协同生成:根据复杂描述(如“赛博朋克风格的雨夜街道,霓虹灯反射在积水路面”)生成高细节图像; 智能图像编辑:支持语义级修改(如“更换人物服装风格为复古西装”),无需手动选区; 时空动态推理:可对视频帧序列进行连贯编辑,如“让奔跑的角色突然停下并转身”。

这种能力使其在机器人控制、虚拟助手、智能设计等需“感知-决策-执行”闭环的场景中潜力巨大。

多模态融合新范式:打破信息孤岛 不同于早期多模态模型仅做特征对齐,Emu3.5将文本、视觉、动作等模态统一编码为可预测的状态流,实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据,普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。

智源表示,Emu3.5将率先应用于教育(智能课件生成)、医疗(多模态病历分析)、娱乐(AI导演)等领域,并持续开源部分能力,推动多模态生态发展。

结语:从“理解世界”到“操作世界” Emu3.5的发布,不仅是技术参数的升级,更是AI角色定位的转变——从被动响应的“工具”,进化为主动规划的“协作者”。当模型开始预测“下一步会发生什么”,它便真正踏上了通往通用智能的道路。而智源,正以NSP架构为支点,撬动多模态AI的下一个爆发点。

(以上内容均由Ai生成)

你可能还想读

日经指数跌1% AI股领跌

日经指数跌1% AI股领跌

快速阅读: 12月16日消息,受AI板块回调影响,日经225指数下跌1.3%,失守50,000点,安川电机与古河电工领跌。市场观望美国非农数据及日本央行会议,多数个股与行业板块收跌。 周二,受人工智能相关板块回调影响,日本股市日经225指数 […]

发布时间:2025年12月16日
印度AI初创企业面临生存危机

印度AI初创企业面临生存危机

快速阅读: 据印度竞争委员会消息,其最新调查显示,76%的印度AI初创企业依赖第三方大模型接口,缺乏自有技术护城河,导致2025年超1.1万家初创企业关闭,同比激增30%。专家提出“NEEV”评估框架,强调融合本土人才、行业知识与数据资源方 […]

发布时间:2025年12月16日
AI数字孪生提升职场决策与情商

AI数字孪生提升职场决策与情商

快速阅读: 媒体注意到,AI数字孪生体正应用于客服、销售等岗位,通过识别情绪、推荐回应并提供改进建议,以增强人类的决策与情感交互能力,而非取代人力。该技术已在实际场景中提升从业者的信心与行为一致性。 人工智能数字孪生体并非在后台运行的无名算 […]

发布时间:2025年12月16日
零售业遭AI驱动网络犯罪围攻

零售业遭AI驱动网络犯罪围攻

快速阅读: 记者获悉,受上半年多起重大网络攻击及AI滥用影响,英国零售业在2025年“黄金购物季”面临严峻安全威胁。专家指出,攻击者利用社交工程与深度伪造技术实施精准渗透,潜伏期缩短,呼吁企业强化身份认证、加密措施及员工安全培训,以保障业务 […]

发布时间:2025年12月16日
迪士尼与OpenAI达成角色授权合作

迪士尼与OpenAI达成角色授权合作

快速阅读: 据迪士尼消息,该公司与OpenAI达成战略合作,投资10亿美元获得Sora平台优先使用权,并授权旗下200多个角色用于粉丝创作短视频。此次合作系好莱坞首次大规模AI合作,以提升制作与营销效率,同时规避肖像权争议。 迪士尼近日宣布 […]

发布时间:2025年12月16日
Studio Lab用AI与机器人重塑电商内容体验

Studio Lab用AI与机器人重塑电商内容体验

快速阅读: 据首尔产业振兴院消息,韩国初创企业Studio Lab推出AI驱动的Gency电商内容自动化平台,整合拍摄机器人与生成式AI,可在30秒内完成商品页制作,显著提升中小商户数字化效率,并计划于2026年进军美日市场。 受全球电商市 […]

发布时间:2025年12月16日
斐济喜来登酒店推出AI虚拟礼宾Koko

斐济喜来登酒店推出AI虚拟礼宾Koko

快速阅读: 据业内消息,斐济喜来登高尔夫海滩度假村近日上线AI虚拟礼宾“Koko”,宾客扫码即可查询圣诞活动、预订餐厅并获取实时信息,此举每年可减少纸张消耗,相当于保护50棵树,同时提升服务效率与互动体验。 斐济喜来登高尔夫海滩度假村近日推 […]

发布时间:2025年12月16日
品牌从禁用转向强制使用生成式AI

品牌从禁用转向强制使用生成式AI

快速阅读: 据机构披露,生成式AI在营销领域的应用不断扩大,但面临商标稀释与版权侵权风险;企业多将其输出作为创作起点,并通过私有化部署或授权协议降低法律不确定性。 近日,生成式人工智能在营销领域的应用日益广泛,其法律边界问题引发关注。法律界 […]

发布时间:2025年12月16日