Microsoft 展示可以控制整个机器人的 AI
快速阅读: 《未来主义》消息,微软发布了新的生成模型“玛格玛”,能自主控制机器人并处理传感器信息,处理多模态数据并在物理世界中规划行动。虽然技术仍有限制,但微软称玛格玛在UI导航和机器人操作任务上达到新高水平。然而,AI仍不完美,可能存在多样性和安全问题。
微软发布了一款新的生成模型,名为“玛格玛”,该模型能够自主控制整个机器人并处理其传感器的信息——这是迈向一个世界的重要一步,在这个世界中,像ChatGPT这样的AI可以通过机械臂、人形机器人或其他方式与物理世界互动。在其公告中,这家科技巨头声称其最新的AI可以处理多模态数据,包括文本、图像和视频,同时还能“在视觉空间世界中规划和行动”。这意味着它可以用于“完成从UI导航到机器人操作的各种代理任务”。“玛格玛能够制定计划并执行行动以达成目标,”微软在其研究论文中记录这一新工具时写道。“通过有效地将知识从自由获取的视觉和语言数据中转移,玛格玛将语言智能与空间智能相结合,以应对复杂任务。”
玛格玛是从小型语言模型和聊天机器人向“AI代理”的更大转变的一部分,这些代理可以代表人类主人执行任务。但这项技术仍存在一些技术局限;例如,OpenAI最近发布的名为“操作员”的AI代理,旨在浏览互联网以“为你执行任务”,仍然需要大量的成人监督才能完成任务。而且,在物理世界中导航甚至操纵物体可能也并非易事。
尽管如此,根据微软的测试,其玛格玛AI“达到了新的最先进水平,在UI导航和机器人操作任务上超越了专门为这些任务设计的先前模型”。该公司发布的视频样本(您可在此处观看)显示了AI将塑料蘑菇放入金属碗中并将洗碗布推过台面的过程。除了操控机械臂外,微软还展示了玛格玛如何通过实时视频流辅助人类代理人,从帮助进行实际的国际象棋游戏到建议在客厅里“放松几个小时”应该怎么做。
但正如微软的研究人员在其研究论文中承认的那样,AI并不完全完善。首先,他们设计的测试非常具体。“我们注意到,指导视频中的身份和活动分布并不能反映全球人口及社会的多样性,”论文中写道。向代理AI的转变也可能带来许多意想不到的影响,比如通过恶意行为者利用越狱或注入恶意代码来引入网络安全漏洞。在这种情况下,如果AI在物理世界中控制机器人会如何发展,尚需观察——但我们可能更不愿意去发现。
(以上内容均由Ai生成)