字节跳动发布GR-3通用机器人:支持高泛化与双臂操作
快速阅读: 相关媒体消息,字节跳动Seed团队推出视觉-语言-行动模型GR-3,具备强大泛化能力与精细操作技能,能执行抽象指令。通过多样化数据训练,提升任务适应性与成功率,助力通用机器人发展。
据字节跳动 Seed 团队介绍,7月22日,该团队推出了全新的视觉-语言-行动模型(VLA)——GR-3。这款模型具备强大的泛化能力和高级操作技能,能够理解和执行包含抽象概念的语言指令,并能精细地操作柔性物体。
与传统的 VLA 模型相比,GR-3 仅需少量人类数据即可实现高效微调,快速适应新任务和新物体,降低了成本。此外,GR-3 优化的模型结构使其能够处理复杂的长期任务,如双手协同操作、柔性物体操作及结合底盘移动的全身操作。
为了训练 GR-3,团队不仅收集了高质量的真实机器人数据,还获得了用户授权,使用了基于 VR 设备的人类轨迹数据和大规模公开的视觉语言数据,通过多样化的数据融合提升了模型的性能。
为了更好地应用 GR-3,字节跳动 Seed 团队还开发了一款名为 ByteMini 的通用双臂移动机器人。ByteMini 拥有 22 个全身自由度和独特的手腕球角设计,能够在狭小空间内完成各种精细操作,成为 GR-3 的“灵活躯体”。
在多项系统性测试中,GR-3 展现了其在复杂任务中的卓越表现,尤其是在超长序列任务和精细操作方面。例如,在餐桌整理任务中,GR-3 能够严格按照人类指令完成高难度任务;在挂衣服任务中,它能够灵活控制双臂协同操作柔性物体。
此外,GR-3 在未见过的物体抓取和复杂指令的理解上也表现出色,成功率达到业界领先水平。通过 VR 设备采集少量数据,GR-3 对未见过物体的操作成功率显著提高,从不到 60% 提升到超过 80%。
未来,字节跳动 Seed 团队希望 GR-3 能成为迈向通用机器人“大脑”的关键一步,进一步推动机器人技术的发展。
(以上内容均由AI生成)