苏黎世联邦理工学院提出了一种能够自我改进其语义感知能力的机器人系统
翻译 2021-05-12 10:12 秋明 来源:中国AGV网移动智能机器人正在越来越多的非结构化环境中部署,它们有望在其中执行复杂的动态任务,例如自主移动和移动操纵。这种基于学习的机器人不仅需要获取有关其环境的基本信息,而且还必须针对诸如对象检测和语义分类之类的因素建立这种理解。
通常,在各种基于数据的预训练静态模型会部署在特定的基于学习的机器人系统中。因此,期望了解语义(即场景中发生的事情)的机器人将在其预训练阶段学习如何做到这一点。这种方法带来了三个主要挑战:可能需要对模型进行重新训练以合并新数据;在适应新的任务和环境的同时,应保留获得的知识;部署期间需要环境的训练信号。
苏黎世联邦理工学院的研究团队对建筑机器人的自我改进语义感知提出了一种新方法,该方法将持续学习和自我监督结合在一个新颖的机器人系统中,以实现对语义场景理解的在线终身自我监督学习。
在先前的工作中,已经在两个框架(强化学习(RL)和用于模型预测控制的在线参数优化)下探索了自我改进学习型机器人代理的想法。在RL的情况下,机器人可以学习执行其所需的任务,例如行走、抓物体、飞行等。但一旦掌握了这些技能,学习的模型便会固定,这样的机器人因此缺乏任何终身学习能力。用于模型预测控制框架的在线参数优化使机器人可以从在职学习中受益,但不会解决另一个问题:遗忘。
以前关于自我监督学习的许多研究都集中在学习卷积神经网络中有用的图像特征上。缺点是这些方法需要监督才能将学习到的功能与任何含义相关联。其他方法旨在产生用于图像分割的伪标签,例如为图像生成稀疏区域注释的图像分类器的类激活图(CAM)。新论文通过使用环境的可观察特征来生成用于目标任务的学习信号,同时利用相关任务中的现有注释数据作为先验知识来完善后一种方法。在后续学习中,从各种任务和领域的非平稳数据分布中训练神经网络模型,目的是优化每个任务的性能,以及在将知识从先前任务转移到当前任务时保持性能。一种方法是存储来自先前任务的所有数据,并为每个新任务从头开始重新训练网络。但是,由于内存有限,这个方法不切实际,因为需要同时更新和部署模型。为了解决这个问题,研究人员提出了“重播缓冲区”,通过记忆功能来补充每个新环境中的训练数据,该记忆功能可保留来自先前环境的有限数量的样本。先前关于在语义分割的上下文中应用持续学习的研究通常假定源域和目标域在训练时都是已知的,并且模型并未设计为在线更新。相反,苏黎世联邦理工学院的方法假定部署域事先未知,并且代理必须连续更新当前环境中的语义知识,而不会忘记以前看到的环境。
将这些部分放在一起,提出的自我改进感知系统将地图内的本地化与场景的语义分段互连起来。研究人员基于地图本地化创建伪标签,以训练语义分割,并使用此前景和背景分割来告知本地化,从而创建一个反馈环,从而对这两个部分都进行改进。该团队在增加复杂性的不同步骤和三种不同环境(建筑工地,停车场和办公室)中评估了所提议框架的性能。为了进行自我改进能力测试,将机器人部署在不同的未知环境中,并对获得的改进进行了测量。为了忘记和知识转移效果评估,在不同环境之间切换了部署。他们还进行了一项实验,以测试机器人的在线学习能力。
实验结果验证了该系统在多种环境下具有自我完善的能力,并且所提出的内存重放技术是缓解遗忘的有效解决方案,证明了该方法可以赋予机器人系统自我完善,持续不断的在线学习能力。
文中图片均来源于网络