谷歌推出乒乓球机器人 轻松战胜初级选手

近日谷歌旗下“深层思维”公司表示,他们的研发团队开发出一款乒乓球机器人,主体为一个六轴机械臂,可通过底部滑轨前后左右移动。

乒乓球机器人

该乒乓球机器人在与人类进行的29场比赛中,赢得13场,胜率为45%。对战者皆是机器人未见过的人类选手,机器人输掉了所有与高级选手的比赛,但赢得了所有与初级选手的比赛以及55%与中级选手的比赛。

与数字AI相比,实体AI机器人的训练、开发的难度要更大。除了算法和高质量训练数据之外,还需要考虑物理交互、动态环境、指令调用速率、模拟到现实差距、实际动作融合等重要因素。例如,乒乓球机器人需要实时地进行物理环境识别、预测,然后进行高精准分析,再对球拍控制、走位进行反击,这一系列动作可能在1—3秒就需要全部完成,对物理硬件、算法要求极高。

在环境建模方面,研究人员将乒乓球运动建模为一个单智能体顺序决策问题,其中人类对手被视为环境的一部分。通过使用马尔可夫决策过程(MDP)来描述这个问题,包括状态空间、动作空间、奖励函数和转移动力学。

在实际环境中,包括神经感知系统、运动捕捉系统、状态机和观察模块,用于跟踪球和人类玩家的球拍姿势,并为策略提供数据,例如,球的位置、速度、机器人的位置等。此外,还构建了一个基于MuJoCo物理引擎的模拟环境,用于训练和测试机器人的策略。

机器人的算法核心主要是由两大块组成,低级别控制器和高级别控制器。

1、低级别控制器

低级别控制器主要负责提出不同乒乓技术策略,包括正手击球、反手击球、发球等,它们被训练以50Hz的频率产生速度命令。

在训练时,首先训练两个通用基础策略,一个用于正手,一个用于反手,并将其添加到低级别控制器集合中。再通过添加奖励函数组件或调整训练数据混合来专门化策略,以适应不同的技能,例如,针对特定的回球位置、最大化回球速度或专门处理上旋或下旋发球等。评估新策略并确定其是否表现出所需的特征。如果一个策略被训练用于瞄准桌子上的特定位置,则计算球落地位置与目标位置之间的平均误差。如果成功,则将该策略添加到低级别控制器集合中。

2、高级别控制器

高级别控制器则用于控制低级别控制器,相当于机器人的“大脑”。当对手击球后,高级别控制器会在一个时间步后做出决策,这能更好地判断球的状态。会根据对手的打球风格来决定用正手或反手回球,同时会考虑了诸多战略因素,以弥补现实中噪声和球旋转捕捉不全的问题。在确定了对手打球的风格和旋转后,高级别控制器会参考控制低级别控制器的技术描述,包括初始球的位置和速度、击球后的中位击球速度、球的落地位置和标准偏差以及球的落地率等,做出最终的决策然后使用对应的技术进行回击。

简而言之就是机器人先摸透对手的打球套路和习惯,进行深度分析之后,再去找对应的策略进行回击。

目前乒乓球机器人虽然无法战胜职业选手甚至奥运冠军,但是如果在进行了海量高质量数据训练和硬件优化以后,一切都是有可能的。

行业动态

阿里发布Qwen2-Math 数学能力超GPT-4o

2024-8-9 12:01:50

行业动态

全新AI程序员Genie发布 秒杀Devin和GPT-4

2024-8-13 10:18:01

相关推荐