资讯

谷歌研究人员教机器人通过观看来学习

原创 2022-04-23 10:23 优优 来源:中国AGV网
美国谷歌公司 Area 120创业孵化器

不同的机器人末端执行器

机器人学家通常通过远程操作机器人执行任务来教机器人新的任务。然后,机器人模仿演示,直到它能独立完成任务。

虽然这种教授机器人的方法是有效的,但它将演示限制在实验室环境中,而且只有程序员和机器人专家可以做演示。谷歌公司机器人部门的一个研究小组一直在为机器人开发一种新的学习方法。

人类一直在通过观察来学习,但对机器人来说,这不是一个简单的任务。这对机器人来说是很困难的,因为它们看起来与人类不同。例如,一个拥有双指抓手的机器人不会从观察一个拥有五指手的人类拿起一支笔的过程中获得多少知识。

为了解决这个问题,该团队引入了一种自我监督的跨环境逆向强化学习(XIRL)方法。

这种教学方法的重点是机器人从视频中学习高层次的任务目标。因此,机器人不是试图使单个人类行动与机器人行动相对应,而是弄清楚其最终目标是什么。

然后,它以奖励函数的形式总结该信息,该函数对形状、行动和末端效应器动态等物理差异是不变的。通过利用学到的奖励和强化学习,研究小组教机器人如何通过试验和错误处理物体。

当样本视频更加多样化时,机器人学得更多。实验表明,该团队的学习方法导致在新的体现上的样本效率强化学习提高了2到4倍。

该团队已经对其方法和X-MAGICAL(其模拟的跨实例模仿的基准)进行了开源实施,以便让其他人在他们的工作基础上进行扩展和建设。

X-MAGICAL的创建是为了评估XIRL在一个一致的环境中的表现。该程序挑战一组具有不同形状和终端效应器的代理体现,以执行一项任务。这些代理以不同的方式和速度执行任务。

展示不同的形状在X-MagICAL中执行任务。|来源:谷歌

该团队还使用真实世界的人类示范任务进行教学。他们用自己的方法来训练模拟的索耶尔手臂将冰球推入目标区域。他们的教学方法也优于基线方法。

该研究团队包括来自谷歌机器人技术的 Kevin Zakka、Andy Zeng、Pete Florence、Jonathan Tompson 和 Debidatta Dwibedi,以及来自斯坦福大学的 Jeannette Bohg。

0 0

网友评论

取消