Microsoft 展示可以控制整个机器人的 AI

发布时间：2025年2月23日来源：szf

快速阅读: 《未来主义》消息，微软发布了新的生成模型“玛格玛”，能自主控制机器人并处理传感器信息，处理多模态数据并在物理世界中规划行动。虽然技术仍有限制，但微软称玛格玛在UI导航和机器人操作任务上达到新高水平。然而，AI仍不完美，可能存在多样性和安全问题。

微软发布了一款新的生成模型，名为“玛格玛”，该模型能够自主控制整个机器人并处理其传感器的信息——这是迈向一个世界的重要一步，在这个世界中，像ChatGPT这样的AI可以通过机械臂、人形机器人或其他方式与物理世界互动。在其公告中，这家科技巨头声称其最新的AI可以处理多模态数据，包括文本、图像和视频，同时还能“在视觉空间世界中规划和行动”。这意味着它可以用于“完成从UI导航到机器人操作的各种代理任务”。“玛格玛能够制定计划并执行行动以达成目标，”微软在其研究论文中记录这一新工具时写道。“通过有效地将知识从自由获取的视觉和语言数据中转移，玛格玛将语言智能与空间智能相结合，以应对复杂任务。”

玛格玛是从小型语言模型和聊天机器人向“AI代理”的更大转变的一部分，这些代理可以代表人类主人执行任务。但这项技术仍存在一些技术局限；例如，OpenAI最近发布的名为“操作员”的AI代理，旨在浏览互联网以“为你执行任务”，仍然需要大量的成人监督才能完成任务。而且，在物理世界中导航甚至操纵物体可能也并非易事。

尽管如此，根据微软的测试，其玛格玛AI“达到了新的最先进水平，在UI导航和机器人操作任务上超越了专门为这些任务设计的先前模型”。该公司发布的视频样本（您可在此处观看）显示了AI将塑料蘑菇放入金属碗中并将洗碗布推过台面的过程。除了操控机械臂外，微软还展示了玛格玛如何通过实时视频流辅助人类代理人，从帮助进行实际的国际象棋游戏到建议在客厅里“放松几个小时”应该怎么做。

但正如微软的研究人员在其研究论文中承认的那样，AI并不完全完善。首先，他们设计的测试非常具体。“我们注意到，指导视频中的身份和活动分布并不能反映全球人口及社会的多样性，”论文中写道。向代理AI的转变也可能带来许多意想不到的影响，比如通过恶意行为者利用越狱或注入恶意代码来引入网络安全漏洞。在这种情况下，如果AI在物理世界中控制机器人会如何发展，尚需观察——但我们可能更不愿意去发现。

(以上内容均由Ai生成)