Microsoft 的新 AI 代理可以控制软件和机器人
快速阅读: 据《Ars Technica》称,周三,微软研究院推出名为“熔岩”的AI模型,集成了视觉和语言处理能力,能控制软件界面和机器人系统。该模型由微软与多所高校合作研发,被视为迈向自主AI的重要一步。与传统多模态AI系统不同,“熔岩”将感知与控制功能整合在一个模型中。微软称,“熔岩”具备“空间智能”,能处理复杂任务和环境。
周三,微软研究院推出了一款名为“熔岩”的综合人工智能基础模型,该模型结合了视觉和语言处理能力,用于控制软件界面和机器人系统。如果其结果在微软的内部测试之外也能保持一致,这可能标志着通用多模态人工智能向前迈进了一大步,这种人工智能能够在现实和数字空间中进行互动操作。微软声称,“熔岩”是首个不仅处理多模态数据(如文本、图像和视频),还能执行这些数据的AI模型——无论是导航用户界面还是操控物理对象。“熔岩”项目是由微软的研究人员与韩国科学技术院(KAIST)、马里兰大学、威斯康星大学麦迪逊分校以及华盛顿大学合作完成的。我们已经看到了其他基于大型语言模型的机器人项目,比如谷歌的“双足机器眼”和“RT-2”,或者微软的“机器人ChatGPT”,它们利用大型语言模型作为交互界面。然而,与许多需要分别使用感知模型和控制模型的先前多模态AI系统不同,“熔岩”将这些功能整合到一个基础模型中。展示了“熔岩”模型的各种功能的合成图。图片来源:微软研究院。微软将其视为向自主AI迈进的一步,这意味着系统可以自主制定计划并执行多步骤任务,而不仅仅是回答关于它所见的问题。微软在其研究论文中写道:“给定一个描述的目标,‘熔岩’能够制定计划并执行行动以实现这一目标。通过有效利用来自可自由获取的视觉和语言数据的知识,‘熔岩’融合了口头、空间和时间方面的智能,以应对复杂的任务和环境。”微软并非唯一追求自主AI的企业。OpenAI通过“操作者”等项目实验AI代理,这些代理可以在网络浏览器中执行UI任务,而谷歌则通过“双子座2.0”探索了多个自主项目。空间智能。尽管“熔岩”建立在基于Transformer的大型语言模型技术上,通过神经网络输入训练标记,但它不同于传统的视觉语言模型(例如GPT-4V)的地方在于,它超越所谓的“口头智能”,还包括“空间智能”(规划和行动执行)。通过混合图像、视频、机器人数据和UI交互的训练,微软声称“熔岩”是一个真正的多模态代理,而不仅仅是一个感知工具。
(以上内容均由Ai生成)