近日谷歌旗下著名AI研究机构DeepMind在官网发布了,全球最大通用大模型之一RT-X,并开放了训练数据集Open X-Embodiment。据悉,RT-X由控制模型RT-1-X和视觉模型RT-2-X组成,在特定任务(搬运东西、开窗等)的工作效率是同类型机器人的3倍,同时可执行未训练动作。
Open X-Embodiment训练数据集由全球33家顶级学术实验室合作,整合了来自22种不同机器人类型的数据开发而成。简单来说,谷歌将全球最全的机器人训练数据集整合在一起,训练了一个通用机器人模型。值得一提的是,上海交通大学也参与了该项目,在技术研究方面做出了重要贡献。
RT-X模型简单介绍
开发人员使用RT-1(用于大规模实际机器人控制的模型)训练了RT-1-X,并使用RT-2(视觉-语言-动作模型,可从网络和机器人数据中学习)训练了RT-2-X。
通过这种方式,研发人员证明了,在给定相同模型架构的情况下,RT-1-X和RT-2-X得益于更多样化、跨实体的训练数据,能够实现更高的性能,在特定领域训练的模型上的改进,表现出更好的泛化能力和新的功能。
Open X-Embodiment训练数据集介绍
训练数据集,在开发通用大模型方面发挥了重要作用。为了开发Open X-Embodiment数据集,谷歌与超过20个机构的学术研究实验室合作,从22种机器人实体中收集数据,在超过100 万个场景中展示了 500 多种技能和 150,000 项任务——这也是同类中最全面的机器人数据集。
构建一个包含各种机器人示范的数据集,是训练通用型模型的关键步骤,这种模型可以控制许多不同类型的机器人,遵循多样化的指令,对复杂任务进行基本推理,并有效地泛化。