嵌入式大型语言模型使机器人能够在不可预测的环境中完成复杂的任务

快速阅读: 《Nature.com》消息，ELLMER框架结合AI与机器人技术，使机器人能解析指令、适应环境完成复杂任务，融合语言、RAG、力觉与视觉，展现强大适应性和精确性，为智能机器人发展开辟新路径。

我们测试了一种名为ELLMER的框架，它结合了人工智能与机器人操作技术，以构建智能机器人。我们的方法成功地融合了大型语言模型（LLMs）的认知能力和机器人的感官运动技能，使机器人能够解析高级口头指令，并在处理不确定性时高效完成复杂长期任务。我们利用带有反馈循环和检索增强生成（RAG）的LLM编写表现性强的代码，并协助机器人执行实现高级目标（如制作热饮）所需的子任务操作。ELLMER使机器人能够实时适应环境变化，并借助RAG利用存储库中的精确解决方案。这保证了任务的精准执行与广泛适应性。ELLMER将已知限制编码到“运动函数”中，并快速适应多种不确定性，例如成分量的变化或打开未知抽屉的能力，这是其他方法在缺乏大量额外训练时难以具备的功能。视觉系统识别物体位置和移动，而力传感器提高了任务精度（例如，在视线被遮挡时倾倒精确且准确的液体量）。语言能力使系统能够在代码中生成反馈，这对调整到新任务至关重要。精心策划的知识库通过定制信息检索满足特定任务需求，从而提高LLM表现，确保高质量的相关输出。精心策划的知识库是一个实用元素，可以提升可控性、准确性和可扩展性。在此背景下，RAG可视为提供了一个机器人可以从中汲取知识的文化知识环境，这与通过文化知识传播赋予人类的“智慧”相呼应。因此，我们的工作表明，集成先进的语言模型和感官运动控制策略使机器人能够利用LLMs的指数级进步，实现更复杂的人机交互。这将开启自动化的新时代，具有前所未有的自主性和精确性，强调了安全管理和这些进步的必要性。ELLMER的潜力不仅限于复杂和艺术性的动作。例如，像DALL-E这样的模型允许从视觉输入中推导轨迹，并为机器人轨迹生成开辟了新的途径。这种方法可在蛋糕装饰或拿铁艺术等任务中广泛应用。在未来工作中，结合查询和图像将生成新的轨迹，从而提高灵活性。此外，近期LLM的改进预计会显著提升人机交互的流畅性和有效性。我们关于咖啡制作和盘子装饰的例子仅代表了复杂任务类型的一个子集，复杂的机器人可能需要执行的任务范围更广。ELLMER有利于扩大规模，因此包括了一系列可能的长期任务。因此，ELLMER可以包含反馈回路或“从演示中学习”的例子数据库，以促进各种复杂的机器人操作。ELLMER基于两个关于计算机视觉的假设：（1）视觉模块准确地识别并分类场景中的对象；（2）餐具的综合可用性图。我们赋予模型关于水壶、勺子和门把手功能的先验知识，但最新研究表明，功能可以通过少量数据学习。我们的重点不在于物体检测，但我们注意到检测响应时间影响了最佳性能。此外，ELLMER可以适应实时变化，但在主动适应方面存在困难（例如，中途切换任务而没有事先编程）。在未来迭代中，更频繁地查询语言模型将允许根据新输入重新评估和修改整体计划。我们还注意到，仍有一些挑战需要解决，如复杂力动力学的建模（例如，末端执行器上的力作为流速、容器大小和液体粘度的函数）以及空间意识工具的集成（如OctoMaps，一种用于三维占用地图的机器人库）。引入触觉传感器并采用软体机器人技术将提高机器人施加适当力量的能力，同时避免造成损坏。ELLMER提供了一个灵活的平台，以纳入这些研究进展，使机器人能够利用“感觉”反馈来解释材料属性并精确调整施加的力。当前版本的ELLMER使机器人能够一次性成功完成复杂任务。这展示了智能机器结合感官运动能力和LLMs提供的抽象推理能力的潜力。尽管如此，我们预计随着ELLMER内部组件的不断优化，机器人的能力将呈指数级增长。我们的框架独立于硬件，可以轻松使用开源RAG解决方案（如Haystack）进行定制，支持快速调整嵌入器、检索器、分块技术和LLMs。ELLMER为研究人员共同开发智能机器提供了一个灵活的框架。补充部分三提供了更多关于ELLMER及其未来研究的信息。我们的方法的强大之处在于通过一个框架实现了认知的具身化，该框架结合了增强的感官运动能力和LLMs的认知推理能力。通过这种结合，ELLMER使机器人能够更有效地探索和与其环境互动，模仿人类智能中观察到的经验与行动之间的联系。这为机器人获得某种形式的“物理智能”创造了机会，其中它们对环境的探索推动了感官运动学习过程。总之，ELLMER集成了语言处理、RAG、力和视觉，使机器人能够适应复杂任务。它结合了以下特点：（1）解释高级人类命令，（2）完成长期任务，（3）利用综合力和视觉信号管理变化环境中噪声和干扰。ELLMER允许强化学习、模仿学习和灵活运动原语等方法全面结合，以增强多样和动态场景下的适应性和“机器人智能”。它证明了将LLMs的认知推理能力与机器人的感官运动技能相结合，使它们能够通过具身机器智能解释和操纵其环境并完成复杂任务。

(以上内容均由Ai生成)