智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

发布时间:2025年10月30日    来源:szf
智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

快速阅读: 北京智源研究院发布多模态模型Emu3.5,引入NSP框架,实现跨模态智能操作,能预测并执行动作,广泛应用于机器人控制、虚拟助手等领域,推动AI从感知理解向智能操作转变。

当大模型不再只是“看图说话”或“文生图”,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态AI正迎来质的飞跃。10月30日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5, 首次 将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从“感知理解”迈向“智能操作”的关键一步。

NSP架构:让AI学会“预测世界如何变化” Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。这意味着,Emu3.5不仅能理解当前场景,还能预判操作后的结果,并据此规划 最优 动作路径。

例如,用户输入“把这张照片中的咖啡杯移到桌子右边,并调亮整体色调”,Emu3.5不仅能精准识别对象与背景,还能分步执行移动、光照调整等复合操作,确保每一步输出都符合物理逻辑与视觉一致性。

具身智能初显:跨场景操作能力全面升级 在实测中,Emu3.5展现出强大的跨模态泛化与具身操作能力: 文图协同生成:根据复杂描述(如“赛博朋克风格的雨夜街道,霓虹灯反射在积水路面”)生成高细节图像; 智能图像编辑:支持语义级修改(如“更换人物服装风格为复古西装”),无需手动选区; 时空动态推理:可对视频帧序列进行连贯编辑,如“让奔跑的角色突然停下并转身”。

这种能力使其在机器人控制、虚拟助手、智能设计等需“感知-决策-执行”闭环的场景中潜力巨大。

多模态融合新范式:打破信息孤岛 不同于早期多模态模型仅做特征对齐,Emu3.5将文本、视觉、动作等模态统一编码为可预测的状态流,实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据,普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。

智源表示,Emu3.5将率先应用于教育(智能课件生成)、医疗(多模态病历分析)、娱乐(AI导演)等领域,并持续开源部分能力,推动多模态生态发展。

结语:从“理解世界”到“操作世界” Emu3.5的发布,不仅是技术参数的升级,更是AI角色定位的转变——从被动响应的“工具”,进化为主动规划的“协作者”。当模型开始预测“下一步会发生什么”,它便真正踏上了通往通用智能的道路。而智源,正以NSP架构为支点,撬动多模态AI的下一个爆发点。

(以上内容均由Ai生成)

你可能还想读

DeepSeek领跑AI投资大赛,GPT表现垫底

DeepSeek领跑AI投资大赛,GPT表现垫底

快速阅读: 中国大模型DeepSeek和通义千问在Nof1举办的AI投资竞赛中表现突出,收益率分别为130%和23.63%,远超其他模型。比赛中,DeepSeek采取低杠杆分散风险策略,通义千问则偏好高杠杆少数产品投资。 截至10月31日1 […]

发布时间:2025年10月31日
谷歌母公司财报超预期,云业务和AI投资助力增长

谷歌母公司财报超预期,云业务和AI投资助力增长

快速阅读: 谷歌母公司Alphabet因云服务和AI需求激增,三季度收入达875亿美元超预期,净利润2.87美元。公司将加大AI投资,全年资本支出增至910-930亿美元,推动业务增长。 谷歌母公司Alphabet宣布,由于其云服务和人工智 […]

发布时间:2025年10月31日
美股下跌,Meta和微软因AI投资拖累股价

美股下跌,Meta和微软因AI投资拖累股价

快速阅读: 华尔街三大股指周四下跌,纳斯达克和标普500领跌,Meta和微软因AI支出激增股价下挫。美联储维持鹰派立场,引发市场对未来政策担忧。 华尔街三大股指周四下跌,纳斯达克综合指数和标普500领跌,因Meta和微软股价因人工智能支出激 […]

发布时间:2025年10月31日
AI乐观派与怀疑论者皆有误,中间立场更可信

AI乐观派与怀疑论者皆有误,中间立场更可信

快速阅读: 本月伯克利举行“The Curve”人工智能会议,探讨AGI前景。乐观者认为AI将迅速发展并带来巨大变革,悲观者则指出AI被过度炒作且无实际价值。讨论涉及AI项目成功率低等问题,呼吁理性看待AI发展。 本月早些时候,我参加了一个 […]

发布时间:2025年10月31日
OpenAI更新GPT-5,提升情感支持能力

OpenAI更新GPT-5,提升情感支持能力

快速阅读: OpenAI于10月5日更新GPT-5,增强敏感对话处理能力,自动识别情绪困扰并提供支持。GPT-5即时版为主要受益对象,可在检测到情绪问题时自动接管对话,提供危机资源链接。此外,ChatGPT现可接入企业应用,提供定制化服务。 […]

发布时间:2025年10月31日
谷歌CEO皮查伊兴奋宣布与Reliance合作,印度用户免费享AI服务

谷歌CEO皮查伊兴奋宣布与Reliance合作,印度用户免费享AI服务

快速阅读: 谷歌与信实Jio合作,将为印度用户提供18个月免费的AI Pro计划,包括Gemini 2.5 Pro、2TB存储等,助力印度AI普及和数字化建设。 新德里,10月31日(ANI):谷歌及Alphabet首席执行官桑达尔·皮查伊 […]

发布时间:2025年10月31日
亚马逊加大AI投资,股价大涨

亚马逊加大AI投资,股价大涨

快速阅读: 亚马逊增加509亿美元投资用于AI基础设施建设,新增3.8吉瓦电力支持,推出大规模计算集群。同时,因法律和解及裁员费用,运营收入持平,股价盘后上涨11%。 科技巨头们正在投入巨资建设人工智能计算能力,这些公司坚称,随着全球客户对 […]

发布时间:2025年10月31日
Meta股价大跌,因计划增加AI基础设施支出

Meta股价大跌,因计划增加AI基础设施支出

快速阅读: Meta股价因计划加大AI投资而下跌11%,市场担忧成本增加。尽管Meta的AI广告工具表现良好,但现实实验室持续亏损,影响股价。 在周四收盘时,Meta的股价下跌超过11%,原因是该公司在第三季度财报中告知投资者,计划在今年剩 […]

发布时间:2025年10月31日