Google 首次推出两款用于为机器人提供动力的新 AI 模型

发布时间：2025年3月13日来源：szf

快速阅读: 《硅角度》消息，谷歌发布Gemini Robotics和Gemini Robotics-ER两款AI模型，助力自主机器人。前者能执行新任务，后者擅长空间推理。谷歌与人形机器人公司Apptronik合作，推动Gemini 2.0应用。

谷歌公司今日推出了两款全新的人工智能模型：Gemini Robotics和Gemini Robotics-ER。这些模型经过优化，旨在为自主机器提供动力。这些算法基于谷歌公司的Gemini 2.0系列大型语言模型（LLMs）。该系列大型语言模型于今年12月推出，不仅能处理文本，还能处理视频等多模态数据。这种能力使Gemini Robotics和Gemini Robotics-ER模型在做决策时能够分析机器人摄像头的录像。

Gemini Robotics被称为视觉-语言-动作模型。根据谷歌的说法，配备该模型的机器人可以根据自然语言指令执行复杂任务。例如，用户可以要求AI将纸折成折纸形状或将物品放入Ziploc袋中。历史上，教授工业机器人新任务需要手动编程，这一过程不仅需要专业技能，还可能耗费大量时间。为了简化机器人配置流程，谷歌的研究人员在设计Gemini Robotics时注重通用性。该公司表示，AI能够在未被训练过的新任务上进行操作，从而减少了对手动编程的需求。为了测试Gemini Robotics对新任务的响应效果，谷歌使用了AI泛化基准对其进行评估。结果显示，该算法的表现是早期视觉-语言-动作模型的两倍以上。

据谷歌称，Gemini Robotics不仅能执行未被训练过的新任务，还能在环境条件变化时调整任务执行方式。“如果物体从其手中滑落，或有人移动物品，Gemini Robotics会迅速重新规划并继续执行——这是现实世界中机器人的一项关键能力，因为在现实中意外情况是常态。”谷歌DeepMind机器人部门负责人卡罗琳娜·帕拉达在一篇博客文章中详细说明道。

谷歌今天推出的另一款新AI模型Robotics-ER则侧重于空间推理。这是一个术语，指机器人在执行任务前需完成的一系列复杂计算。例如，拿起咖啡杯需要机械臂找到把手并计算接近的角度。在制定好如何执行任务的计划后，Gemini Robotics-ER利用Gemini 2.0的编码能力将计划转化为配置脚本。这个脚本会为安装了AI的机器人编程。如果Gemini Robotics-ER遇到过于复杂的任务，开发者可通过“少量人类演示”教会它最佳行动方案。“Gemini Robotics-ER可以在开箱即用的情况下控制机器人，包括感知、状态估计、空间理解、规划和代码生成，”帕拉达写道。“在此端到端设置下，该模型的成功率是Gemini 2.0的2至3倍。”

谷歌将向包括Apptronik Inc.在内的几家合作伙伴提供Gemini Robotics-ER，这是一家上个月融资3.5亿美元的人形机器人初创公司。该轮融资中，这家搜索引擎巨头成为投资者之一。谷歌将与Apptronik合作开发搭载Gemini 2.0的人形机器人。

图片：谷歌

来自SiliconANGLE联合创始人约翰·弗瑞尔的信息：

您的支持对我们非常重要，它帮助我们保持内容免费。只需一键即可支持我们提供免费、深度且相关的内容。

加入包含超过15,000名#CubeAlumni专家的社群加入包括超过15,000名#CubeAlumni专家的社群，其中包括亚马逊首席执行官安迪·贾西、戴尔科技创始人兼首席执行官迈克尔·戴尔、英特尔首席执行官帕特·格尔辛格等众多名人和专家。

“CUBE是行业的重要伙伴。你们真的是我们活动的一部分，我们非常感谢你们的到来，我知道人们也欣赏你们创造的内容。”——安迪·贾西

(以上内容均由Ai生成)