机器人乒乓球的样本有效强化学习

何贤河
导读 强化学习的最新进展可用于控制真实的机器人,并使它们能够执行以前不可用的任务。arXiv.org上的一篇最新论文介绍了一种被教导打乒乓球的工...

强化学习的最新进展可用于控制真实的机器人,并使它们能够执行以前不可用的任务。arXiv.org上的一篇最新论文介绍了一种被教导打乒乓球的工业机器人。

为了执行行程运动,必须知道球拍的位置,速度和方向。跟踪系统不会使用摄像机的原始图像来确定球的位置,而是可以预测到球拍撞击时刻为止的轨迹。速度和方向是通过使用确定性行为者批评算法的强化学习来学习的。

该方法已在仿真和实际环境(包括嘈杂的环境)中进行了测试。机器人学会了成功返回200个以下的球。它的性能优于以前的乒乓球机器人,但要与人类成功玩耍,还需要进一步改进。

强化学习(RL)最近在各种计算机游戏和模拟中都取得了令人瞩目的成功。这些成功中的大多数都是基于许多值得学习的经历。但是,对于典型的机器人应用,可行尝试的次数非常有限。在本文中,我们提出了一种适用于乒乓球机器人示例的高效采样RL算法。在乒乓球中,每个笔触都不同,位置,速度和旋转都不同。因此,已经找到了依赖于高维连续状态空间的准确返回。为了使在很少的试验中学习成为可能,该方法已嵌入到我们的机器人系统中。这样,我们可以使用一步式环境。状态空间取决于击球时的球(位置,速度,旋转),动作是击球时的球拍状态(方向,速度)。开发了基于行为者评论的确定性策略梯度算法,用于加速学习。我们的方法在不同的挑战性场景中在仿真和真实机器人上均显示出竞争性性能。始终在不到200次的培训中即可获得准确的结果。提供了一个演示视频作为补充材料。

标签: 机器人乒乓球的样本有效强化学习

免责声明:本文由用户上传,如有侵权请联系删除!