Google 宣布推出 Gemini Robotics,这是一款针对机器人优化的 Gemini 2.0 型号
快速阅读: 据《Neowin.net》称,深度思维推出基于Gemini 2.0的Gemini Robotics和Gemini Robotics-ER两款新模型,进军机器人领域。前者为视觉-语言-动作模型,可理解未知情境并执行复杂任务;后者专注空间推理,与多家公司合作开发人形机器人。这推动机器人更精准灵活地融入生活。
深度思维(DeepMind)在人工智能领域通过不断更新其Gemini、Imagen、Veo、Gemma和AlphaFold等项目,持续取得稳步进展。如今,深度思维团队借助基于Gemini 2.0的两款全新模型,正式进军机器人行业:Gemini Robotics和Gemini Robotics-ER。
**Gemini Robotics**是一款先进的视觉-语言-动作(VLA)模型,它基于Gemini 2.0,并新增了物理动作作为控制机器人的新输出模式。谷歌声称,这一全新模型能够理解在训练过程中未曾遇到的情境。与其他最先进的视觉-语言-动作模型相比,Gemini Robotics在全面泛化的基准测试中的表现是其他模型的两倍以上。由于Gemini Robotics建立在Gemini 2.0的基础上,它具备支持多种语言的自然语言理解能力,从而能更精准地理解人类指令。在灵活性方面,谷歌表示,Gemini Robotics能够处理极其复杂且需要精确操作的多步骤任务。例如,该模型能够完成折纸或把零食装进保鲜袋等任务。
**Gemini Robotics-ER**则是一款专注于空间推理的高级视觉-语言模型,允许机器人专家将其与现有的低级控制器连接。借助此模型,机器人专家能够获得从感知到状态估计、空间理解、规划再到代码生成的完整控制流程。谷歌正与Apptronik合作,基于Gemini 2.0模型开发人形机器人。同时,谷歌还与包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools在内的多家选定信任测试者共同探索Gemini Robotics-ER的发展前景。
通过让机器人更精准、更灵活地理解和执行复杂任务,深度思维正在为未来的到来铺平道路——在这个未来中,机器人将能够无缝融入我们生活的方方面面。
(以上内容均由Ai生成)