Google 宣布推出 Gemini Robotics，这是一款针对机器人优化的 Gemini 2.0 型号

发布时间：2025年3月13日来源：szf

快速阅读: 据《Neowin.net》称，深度思维推出基于Gemini 2.0的Gemini Robotics和Gemini Robotics-ER两款新模型，进军机器人领域。前者为视觉-语言-动作模型，可理解未知情境并执行复杂任务；后者专注空间推理，与多家公司合作开发人形机器人。这推动机器人更精准灵活地融入生活。

深度思维（DeepMind）在人工智能领域通过不断更新其Gemini、Imagen、Veo、Gemma和AlphaFold等项目，持续取得稳步进展。如今，深度思维团队借助基于Gemini 2.0的两款全新模型，正式进军机器人行业：Gemini Robotics和Gemini Robotics-ER。

**Gemini Robotics**是一款先进的视觉-语言-动作（VLA）模型，它基于Gemini 2.0，并新增了物理动作作为控制机器人的新输出模式。谷歌声称，这一全新模型能够理解在训练过程中未曾遇到的情境。与其他最先进的视觉-语言-动作模型相比，Gemini Robotics在全面泛化的基准测试中的表现是其他模型的两倍以上。由于Gemini Robotics建立在Gemini 2.0的基础上，它具备支持多种语言的自然语言理解能力，从而能更精准地理解人类指令。在灵活性方面，谷歌表示，Gemini Robotics能够处理极其复杂且需要精确操作的多步骤任务。例如，该模型能够完成折纸或把零食装进保鲜袋等任务。

**Gemini Robotics-ER**则是一款专注于空间推理的高级视觉-语言模型，允许机器人专家将其与现有的低级控制器连接。借助此模型，机器人专家能够获得从感知到状态估计、空间理解、规划再到代码生成的完整控制流程。谷歌正与Apptronik合作，基于Gemini 2.0模型开发人形机器人。同时，谷歌还与包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools在内的多家选定信任测试者共同探索Gemini Robotics-ER的发展前景。

通过让机器人更精准、更灵活地理解和执行复杂任务，深度思维正在为未来的到来铺平道路——在这个未来中，机器人将能够无缝融入我们生活的方方面面。

(以上内容均由Ai生成)