智元机器人发布开源 GO-1 模型,推动具身智能技术普及
快速阅读: 智元机器人发布全球首个ViLLA架构的开源具身智能模型GO-1,降低技术门槛,支持多平台应用,推出Genie Studio开发平台助力开发者。
智元机器人宣布开源通用具身基座大模型 GO-1(Genie Operator-1),这是全球首个采用 Vision-Language-Latent-Action (ViLLA) 架构的具身智能模型。此举旨在降低具身智能的技术门槛,让更多开发者能参与这一前沿技术的应用与发展。该模型的发布紧随其后的是今年1月开源的 AgiBot World 具身智能百万真机数据集。
GO-1 的核心在于 ViLLA 架构,这一技术突破使机器人能更准确地理解人类意图,执行更精细的动作。与传统的 Vision-Language-Action (VLA) 架构相比,ViLLA 通过引入隐式动作标记,成功连接了图像、文本输入与机器人的实际动作。该架构设计分为三层:首先是 VLM 多模态理解层,基于 InternVL-2B 构建,能够处理视觉、力觉和语言等多种信息;其次是 Latent Planner 隐式规划器,实现复杂任务的高层次理解;最后是 Action Expert 动作专家,通过扩散模型生成连续的高精度动作序列,确保机器人能执行复杂的操控任务。
此外,智元机器人还推出了 Genie Studio 开发平台,为开发者提供全面的解决方案,涵盖数据采集、模型训练、仿真评测等。该平台不仅集成了 GO-1 模型,还提供了视频训练方案和统一训练框架,大幅提升了开发效率,促进了具身智能技术的快速落地。
尽管 GO-1 模型基于 AgiBot G1 机器人的数据进行了预训练,但在多种机器人平台上的验证测试显示,该模型具有良好的可移植性。在多个主流仿真平台上,GO-1 模型均表现出色,展示了其适应不同机器人的能力。
智元机器人鼓励广大开发者访问 GitHub 仓库下载 GO-1 模型,开启具身智能的开发之旅。无论是资深 AI 研究者还是新手,GO-1 都将为他们提供强大的技术支持。
GitHub: https://github.com/OpenDriveLab/AgiBot-World
Huggingface: https://huggingface.co/agibot-world/GO-1
划重点:
🌟 全球首个开源的 ViLLA 架构模型 GO-1 正式推出。
🔧 Genie Studio 开发平台提供全流程解决方案,助力开发者。
🤖 GO-1 模型经过多种平台测试,展现良好可移植性。
(以上内容均由Ai生成)