Google 首次推出两款用于为机器人提供动力的新 AI 模型
快速阅读: 《硅角度》消息,谷歌发布Gemini Robotics和Gemini Robotics-ER两款AI模型,助力自主机器人。前者能执行新任务,后者擅长空间推理。谷歌与人形机器人公司Apptronik合作,推动Gemini 2.0应用。
谷歌公司今日推出了两款全新的人工智能模型:Gemini Robotics和Gemini Robotics-ER。这些模型经过优化,旨在为自主机器提供动力。这些算法基于谷歌公司的Gemini 2.0系列大型语言模型(LLMs)。该系列大型语言模型于今年12月推出,不仅能处理文本,还能处理视频等多模态数据。这种能力使Gemini Robotics和Gemini Robotics-ER模型在做决策时能够分析机器人摄像头的录像。
Gemini Robotics被称为视觉-语言-动作模型。根据谷歌的说法,配备该模型的机器人可以根据自然语言指令执行复杂任务。例如,用户可以要求AI将纸折成折纸形状或将物品放入Ziploc袋中。历史上,教授工业机器人新任务需要手动编程,这一过程不仅需要专业技能,还可能耗费大量时间。为了简化机器人配置流程,谷歌的研究人员在设计Gemini Robotics时注重通用性。该公司表示,AI能够在未被训练过的新任务上进行操作,从而减少了对手动编程的需求。为了测试Gemini Robotics对新任务的响应效果,谷歌使用了AI泛化基准对其进行评估。结果显示,该算法的表现是早期视觉-语言-动作模型的两倍以上。
据谷歌称,Gemini Robotics不仅能执行未被训练过的新任务,还能在环境条件变化时调整任务执行方式。“如果物体从其手中滑落,或有人移动物品,Gemini Robotics会迅速重新规划并继续执行——这是现实世界中机器人的一项关键能力,因为在现实中意外情况是常态。”谷歌DeepMind机器人部门负责人卡罗琳娜·帕拉达在一篇博客文章中详细说明道。
谷歌今天推出的另一款新AI模型Robotics-ER则侧重于空间推理。这是一个术语,指机器人在执行任务前需完成的一系列复杂计算。例如,拿起咖啡杯需要机械臂找到把手并计算接近的角度。在制定好如何执行任务的计划后,Gemini Robotics-ER利用Gemini 2.0的编码能力将计划转化为配置脚本。这个脚本会为安装了AI的机器人编程。如果Gemini Robotics-ER遇到过于复杂的任务,开发者可通过“少量人类演示”教会它最佳行动方案。“Gemini Robotics-ER可以在开箱即用的情况下控制机器人,包括感知、状态估计、空间理解、规划和代码生成,”帕拉达写道。“在此端到端设置下,该模型的成功率是Gemini 2.0的2至3倍。”
谷歌将向包括Apptronik Inc.在内的几家合作伙伴提供Gemini Robotics-ER,这是一家上个月融资3.5亿美元的人形机器人初创公司。该轮融资中,这家搜索引擎巨头成为投资者之一。谷歌将与Apptronik合作开发搭载Gemini 2.0的人形机器人。
图片:谷歌
来自SiliconANGLE联合创始人约翰·弗瑞尔的信息:
您的支持对我们非常重要,它帮助我们保持内容免费。只需一键即可支持我们提供免费、深度且相关的内容。
加入包含超过15,000名#CubeAlumni专家的社群加入包括超过15,000名#CubeAlumni专家的社群,其中包括亚马逊首席执行官安迪·贾西、戴尔科技创始人兼首席执行官迈克尔·戴尔、英特尔首席执行官帕特·格尔辛格等众多名人和专家。
“CUBE是行业的重要伙伴。你们真的是我们活动的一部分,我们非常感谢你们的到来,我知道人们也欣赏你们创造的内容。”——安迪·贾西
(以上内容均由Ai生成)