文章详情

智元机器人全新通用基座大模型GO-1发布,期待新人形机器人即将亮相
智元机器人全新通用基座大模型GO-1发布,期待新人形机器人即将亮相

在机器人技术领域,一项重大突破于近日公布。智元机器人公司正式推出了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称G...

更新:

2025-04-01 04:40:02

在机器人技术领域,一项重大突破于近日公布。智元机器人公司正式推出了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这款模型采用了一种全新的Vision-Language-Latent-Action(ViLLA)框架,该框架集成了VLM(多模态大模型)与MoE(混合专家)技术,为机器人带来了前所未有的能力。

智元机器人全新通用基座大模型GO_1发布,期待新人形机器人即将亮相

GO-1的ViLLA框架中的VLM部分,作为模型的主干网络,继承自一个开源的多模态大模型,其权重达到了5-2B。通过利用互联网上的大规模纯文本和图文数据,GO-1拥有了广泛的场景感知和理解能力。而MoE中的隐动作专家模型和动作专家模型,则分别通过大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,让机器人具备了动作的理解和执行能力。

GO-1的推出,标志着机器人在小样本快速泛化方面取得了重大进展。该模型能够在极少数据甚至零样本的情况下,快速适应新场景和新任务。同时,GO-1还具有“一脑多形”的跨本体应用能力,意味着它可以在不同的机器人形态之间迁移,快速适配到不同的实体机器人上。

智元机器人全新通用基座大模型GO_1发布,期待新人形机器人即将亮相

智元机器人公司还为GO-1设计了一套软硬件一体化框架,实现了数据采集、模型训练和模型推理的无缝衔接。GO-1还具备持续进化的能力,通过智元的数据回流系统,机器人可以从实际执行中遇到的问题数据中不断学习和进化。

GO-1的应用场景广泛,它可以理解人类的语言指令,并根据指令执行相应的动作。例如,用户可以用日常用语告诉机器人“挂衣服”,GO-1就能根据所学习的知识和数据,理解指令的含义,并拆解成一系列步骤来完成任务。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,GO-1都能轻松应对。

智元机器人全新通用基座大模型GO_1发布,期待新人形机器人即将亮相

GO-1的ViLLA框架通过预测Latent Action Tokens(隐式动作标记),成功弥合了图像-文本输入与机器人执行动作之间的鸿沟。这一创新使得机器人能够更准确地理解人类的指令,并更高效地执行任务。

智元机器人全新通用基座大模型GO_1发布,期待新人形机器人即将亮相 智元机器人全新通用基座大模型GO_1发布,期待新人形机器人即将亮相

在实际应用中,GO-1展现出了强大的能力。无论是早上为用户倒水、烤吐司,还是在商务会议中为用户拿取饮料和水果,GO-1都能迅速响应并完成任务。它还能在数据回流的过程中不断学习和进化,例如在做咖啡时如果杯子放歪了,它就能从这次失败中学习并改进,直到成功完成任务。

Copyright © 2024 版权所有:星火智游网 闽ICP备2024051747号