嵌入式大型语言模型使机器人能够在不可预测的环境中完成复杂的任务

发布时间:2025年3月19日    来源:szf
嵌入式大型语言模型使机器人能够在不可预测的环境中完成复杂的任务

快速阅读: 《Nature.com》消息,ELLMER框架结合AI与机器人技术,使机器人能解析指令、适应环境完成复杂任务,融合语言、RAG、力觉与视觉,展现强大适应性和精确性,为智能机器人发展开辟新路径。

我们测试了一种名为ELLMER的框架,它结合了人工智能与机器人操作技术,以构建智能机器人。我们的方法成功地融合了大型语言模型(LLMs)的认知能力和机器人的感官运动技能,使机器人能够解析高级口头指令,并在处理不确定性时高效完成复杂长期任务。我们利用带有反馈循环和检索增强生成(RAG)的LLM编写表现性强的代码,并协助机器人执行实现高级目标(如制作热饮)所需的子任务操作。ELLMER使机器人能够实时适应环境变化,并借助RAG利用存储库中的精确解决方案。这保证了任务的精准执行与广泛适应性。ELLMER将已知限制编码到“运动函数”中,并快速适应多种不确定性,例如成分量的变化或打开未知抽屉的能力,这是其他方法在缺乏大量额外训练时难以具备的功能。视觉系统识别物体位置和移动,而力传感器提高了任务精度(例如,在视线被遮挡时倾倒精确且准确的液体量)。语言能力使系统能够在代码中生成反馈,这对调整到新任务至关重要。精心策划的知识库通过定制信息检索满足特定任务需求,从而提高LLM表现,确保高质量的相关输出。精心策划的知识库是一个实用元素,可以提升可控性、准确性和可扩展性。在此背景下,RAG可视为提供了一个机器人可以从中汲取知识的文化知识环境,这与通过文化知识传播赋予人类的“智慧”相呼应。因此,我们的工作表明,集成先进的语言模型和感官运动控制策略使机器人能够利用LLMs的指数级进步,实现更复杂的人机交互。这将开启自动化的新时代,具有前所未有的自主性和精确性,强调了安全管理和这些进步的必要性。ELLMER的潜力不仅限于复杂和艺术性的动作。例如,像DALL-E这样的模型允许从视觉输入中推导轨迹,并为机器人轨迹生成开辟了新的途径。这种方法可在蛋糕装饰或拿铁艺术等任务中广泛应用。在未来工作中,结合查询和图像将生成新的轨迹,从而提高灵活性。此外,近期LLM的改进预计会显著提升人机交互的流畅性和有效性。我们关于咖啡制作和盘子装饰的例子仅代表了复杂任务类型的一个子集,复杂的机器人可能需要执行的任务范围更广。ELLMER有利于扩大规模,因此包括了一系列可能的长期任务。因此,ELLMER可以包含反馈回路或“从演示中学习”的例子数据库,以促进各种复杂的机器人操作。ELLMER基于两个关于计算机视觉的假设:(1)视觉模块准确地识别并分类场景中的对象;(2)餐具的综合可用性图。我们赋予模型关于水壶、勺子和门把手功能的先验知识,但最新研究表明,功能可以通过少量数据学习。我们的重点不在于物体检测,但我们注意到检测响应时间影响了最佳性能。此外,ELLMER可以适应实时变化,但在主动适应方面存在困难(例如,中途切换任务而没有事先编程)。在未来迭代中,更频繁地查询语言模型将允许根据新输入重新评估和修改整体计划。我们还注意到,仍有一些挑战需要解决,如复杂力动力学的建模(例如,末端执行器上的力作为流速、容器大小和液体粘度的函数)以及空间意识工具的集成(如OctoMaps,一种用于三维占用地图的机器人库)。引入触觉传感器并采用软体机器人技术将提高机器人施加适当力量的能力,同时避免造成损坏。ELLMER提供了一个灵活的平台,以纳入这些研究进展,使机器人能够利用“感觉”反馈来解释材料属性并精确调整施加的力。当前版本的ELLMER使机器人能够一次性成功完成复杂任务。这展示了智能机器结合感官运动能力和LLMs提供的抽象推理能力的潜力。尽管如此,我们预计随着ELLMER内部组件的不断优化,机器人的能力将呈指数级增长。我们的框架独立于硬件,可以轻松使用开源RAG解决方案(如Haystack)进行定制,支持快速调整嵌入器、检索器、分块技术和LLMs。ELLMER为研究人员共同开发智能机器提供了一个灵活的框架。补充部分三提供了更多关于ELLMER及其未来研究的信息。我们的方法的强大之处在于通过一个框架实现了认知的具身化,该框架结合了增强的感官运动能力和LLMs的认知推理能力。通过这种结合,ELLMER使机器人能够更有效地探索和与其环境互动,模仿人类智能中观察到的经验与行动之间的联系。这为机器人获得某种形式的“物理智能”创造了机会,其中它们对环境的探索推动了感官运动学习过程。总之,ELLMER集成了语言处理、RAG、力和视觉,使机器人能够适应复杂任务。它结合了以下特点:(1)解释高级人类命令,(2)完成长期任务,(3)利用综合力和视觉信号管理变化环境中噪声和干扰。ELLMER允许强化学习、模仿学习和灵活运动原语等方法全面结合,以增强多样和动态场景下的适应性和“机器人智能”。它证明了将LLMs的认知推理能力与机器人的感官运动技能相结合,使它们能够通过具身机器智能解释和操纵其环境并完成复杂任务。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日