7月29日,谷歌旗下的AI研究机构DeepMind发布了RT-2,这是一种新的视觉语言动作模型(VLA)。据悉,RT-2可以从互联网和机器人数据中自动学习,并将这些知识转化为机器人控制的通用指令实现一系列操作动作,同时在思维推理链加持下,RT-2 可执行深度语义推理。RT-2模型的主要应用场景是集成在实体机器人,使其可以像人类那样思考、推理去执行各种动作任务,就像实体机器人版ChatGPT。
地址:https://blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/
在技术原理方面,RT-2以VLM(高容量视觉语言模型)为基础,将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标记。此类 VLM已接受网络大规模数据的训练,以执行视觉问答、图像字幕或对象识别等任务。为了更好地控制机器人,必须训练其输出动作。DeepMind通过将操作表示为模型输出中的标记(类似于语言标记)来解决这一挑战,并将操作描述为可以由标准自然语言标记器处理的字符串。
DeepMind在RT-2使用与RT-1中相同的机器人动作离散版本,并表明将其转换为字符串表示,使得可以在机器人数据上训练VLM模型,所以此类模型的输入和输出空间不需要改变。DeepMind针对机器人和网络数据共同微调预先训练的VLM模型,生成的模型接收机器人摄像头图像,并直接预测机器人接下来要执行的动作。
在训练数据方面,DeepMind在RT-2模型上进行了一系列定性和定量实验,进行了6000多次机器人试验。在探索RT-2的新功能时,首先需要将网络规模数据的知识与机器人的经验相结合的任务,然后定义三类技能:符号理解、推理和人类识别。
每项任务都需要理解视觉语义概念以及执行机器人控制,以掌控操作这些动作的能力,从而要求机器人对数据集中,从未见过的物体或场景执行操作任务,将知识从基于网络的数据转化为可操作的实体动作。RT-2保留了机器人数据中看到的原始任务的能力,并提高了机器人在以前未见过的场景中的性能,从RT-1的32%提高到了62%,显示了大规模预训练的巨大优势。
此外,DeepMind受LLMs(大语言模型)思维链提示方法的启发,将机器人控制与思维链推理相结合,可在单个模型中学习长期规划和低级技能。尤其是,DeepMind对 RT-2 的变体进行了几百个梯度步骤的微调,提高其联合使用语言和动作的能力,具备理解自然语言的能力。