嵌入式大型语言模型使机器人能够在不可预测的环境中完成复杂的任务

发布时间:2025年3月19日    来源:szf
嵌入式大型语言模型使机器人能够在不可预测的环境中完成复杂的任务

快速阅读: 《Nature.com》消息,ELLMER框架结合AI与机器人技术,使机器人能解析指令、适应环境完成复杂任务,融合语言、RAG、力觉与视觉,展现强大适应性和精确性,为智能机器人发展开辟新路径。

我们测试了一种名为ELLMER的框架,它结合了人工智能与机器人操作技术,以构建智能机器人。我们的方法成功地融合了大型语言模型(LLMs)的认知能力和机器人的感官运动技能,使机器人能够解析高级口头指令,并在处理不确定性时高效完成复杂长期任务。我们利用带有反馈循环和检索增强生成(RAG)的LLM编写表现性强的代码,并协助机器人执行实现高级目标(如制作热饮)所需的子任务操作。ELLMER使机器人能够实时适应环境变化,并借助RAG利用存储库中的精确解决方案。这保证了任务的精准执行与广泛适应性。ELLMER将已知限制编码到“运动函数”中,并快速适应多种不确定性,例如成分量的变化或打开未知抽屉的能力,这是其他方法在缺乏大量额外训练时难以具备的功能。视觉系统识别物体位置和移动,而力传感器提高了任务精度(例如,在视线被遮挡时倾倒精确且准确的液体量)。语言能力使系统能够在代码中生成反馈,这对调整到新任务至关重要。精心策划的知识库通过定制信息检索满足特定任务需求,从而提高LLM表现,确保高质量的相关输出。精心策划的知识库是一个实用元素,可以提升可控性、准确性和可扩展性。在此背景下,RAG可视为提供了一个机器人可以从中汲取知识的文化知识环境,这与通过文化知识传播赋予人类的“智慧”相呼应。因此,我们的工作表明,集成先进的语言模型和感官运动控制策略使机器人能够利用LLMs的指数级进步,实现更复杂的人机交互。这将开启自动化的新时代,具有前所未有的自主性和精确性,强调了安全管理和这些进步的必要性。ELLMER的潜力不仅限于复杂和艺术性的动作。例如,像DALL-E这样的模型允许从视觉输入中推导轨迹,并为机器人轨迹生成开辟了新的途径。这种方法可在蛋糕装饰或拿铁艺术等任务中广泛应用。在未来工作中,结合查询和图像将生成新的轨迹,从而提高灵活性。此外,近期LLM的改进预计会显著提升人机交互的流畅性和有效性。我们关于咖啡制作和盘子装饰的例子仅代表了复杂任务类型的一个子集,复杂的机器人可能需要执行的任务范围更广。ELLMER有利于扩大规模,因此包括了一系列可能的长期任务。因此,ELLMER可以包含反馈回路或“从演示中学习”的例子数据库,以促进各种复杂的机器人操作。ELLMER基于两个关于计算机视觉的假设:(1)视觉模块准确地识别并分类场景中的对象;(2)餐具的综合可用性图。我们赋予模型关于水壶、勺子和门把手功能的先验知识,但最新研究表明,功能可以通过少量数据学习。我们的重点不在于物体检测,但我们注意到检测响应时间影响了最佳性能。此外,ELLMER可以适应实时变化,但在主动适应方面存在困难(例如,中途切换任务而没有事先编程)。在未来迭代中,更频繁地查询语言模型将允许根据新输入重新评估和修改整体计划。我们还注意到,仍有一些挑战需要解决,如复杂力动力学的建模(例如,末端执行器上的力作为流速、容器大小和液体粘度的函数)以及空间意识工具的集成(如OctoMaps,一种用于三维占用地图的机器人库)。引入触觉传感器并采用软体机器人技术将提高机器人施加适当力量的能力,同时避免造成损坏。ELLMER提供了一个灵活的平台,以纳入这些研究进展,使机器人能够利用“感觉”反馈来解释材料属性并精确调整施加的力。当前版本的ELLMER使机器人能够一次性成功完成复杂任务。这展示了智能机器结合感官运动能力和LLMs提供的抽象推理能力的潜力。尽管如此,我们预计随着ELLMER内部组件的不断优化,机器人的能力将呈指数级增长。我们的框架独立于硬件,可以轻松使用开源RAG解决方案(如Haystack)进行定制,支持快速调整嵌入器、检索器、分块技术和LLMs。ELLMER为研究人员共同开发智能机器提供了一个灵活的框架。补充部分三提供了更多关于ELLMER及其未来研究的信息。我们的方法的强大之处在于通过一个框架实现了认知的具身化,该框架结合了增强的感官运动能力和LLMs的认知推理能力。通过这种结合,ELLMER使机器人能够更有效地探索和与其环境互动,模仿人类智能中观察到的经验与行动之间的联系。这为机器人获得某种形式的“物理智能”创造了机会,其中它们对环境的探索推动了感官运动学习过程。总之,ELLMER集成了语言处理、RAG、力和视觉,使机器人能够适应复杂任务。它结合了以下特点:(1)解释高级人类命令,(2)完成长期任务,(3)利用综合力和视觉信号管理变化环境中噪声和干扰。ELLMER允许强化学习、模仿学习和灵活运动原语等方法全面结合,以增强多样和动态场景下的适应性和“机器人智能”。它证明了将LLMs的认知推理能力与机器人的感官运动技能相结合,使它们能够通过具身机器智能解释和操纵其环境并完成复杂任务。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日