机器人的空间感知:未来属于协作系统
原创 2023-12-15 09:48 南山 来源:AGV机器人的进化源于它们理解其移动空间以及独立但协作地前进的能力。美国麻省理工学院的卢卡·卡龙 (Luca Carlone) 正在研究这个问题
我们人类认为这是理所当然的,但机器人的空间感知却并不简单。对人类来说,几乎可以立即了解周围环境,探测有关图案、物体及其在环境中位置的复杂信息是直观的,但对机器来说,这是一个非常复杂的问题。不过,有些人正在努力使机器人系统也能做到这一点:麻省理工学院(MIT)的 SPARK 实验室就是这方面最先进的机构之一。感知、知觉、自主和机器人动力学实验室 "的主任是航空航天系副教授、美国麻省理工学院信息与决策系统实验室(LIDS)首席研究员卢卡-卡隆(Luca Carlone)。
卡洛尼出生于意大利,拥有都灵理工大学机电一体化工程专业的学位,多年来一直从事智能机器人系统的研究,并获得了众多奖项。
Luca Carlone,“传感、感知、自主和机器人动力学实验室”主任,航空航天系副教授,麻省理工学院信息与实验室首席研究员。决策系统(LIDS)。
特别是,他和他所领导的实验室的兴趣集中在空间感知,或者机器人感知和理解周围环境的能力。它是人类移动、操纵和互动的关键因素。算法和感知系统的最新进展使机器人能够创建未知环境的大规模几何地图并检测感兴趣的物体。尽管取得了这些进步,机器人和人类的感知之间仍然存在很大差距。这就是卢卡·卡龙 (Luca Carlone) 工作的地方,他坚信在这个问题上取得重大进展将对许多行业产生重大影响,机器人在“行业自动驾驶汽车的开发。只有最后一个市场预计将大幅增长:Statista 估计到 2030 年,该市场的规模将从 2021 年的 1060 亿美元增至 23,000 亿美元。
要点
对于人类来说,机器人的空间感知是本能和自然的,是一个高度复杂的问题,但它是保证它们能够在最不同的环境中独立、安全移动的基础。
美国麻省理工学院的 Spark 实验室由麻省理工学院教授、意大利人卢卡·卡龙 (Luca Carlone) 领导,正在努力创造条件,使机器人系统能够依赖尽可能类似于人类感知的空间感知。
由于人工智能技术的采用,许多多机器人系统也带来了前景:从搜索和救援行动到工业自动化,再到物流和自动驾驶汽车。
机器人空间感知今天取得的进展
正如 MIT 最近发表的一篇文章所报道的,由 Carlone 领导的团队开发并发布了 Kimera,这是一个开源库,它允许单个机器人实时构建其环境的三维地图,标记视野中的不同物体。两年后的 2022 年,Carlone 和 Jonathan How(SPARK 实验室和航空航天控制实验室)的研究小组推出了Kimera-Multi,这是一个更新的系统,其中多个机器人相互通信以创建统一的地图。这一发现和发表的论文为 Carlone 和 How 及其研究团队赢得了IEEE Transactions on Robotics Fu King-Sun Memorial Best Paper Award 2023,授予上一年在该杂志上发表的最佳文章。
复杂环境中的机器人运动(Kimera-Multi)
Carlone教授,机器人的空间感知需要考虑哪些方面?
除了相当重要之外,机器人的空间感知也是一个令人着迷的问题,因为我们作为人类解决这个问题的容易程度与机器人解决这些挑战的强大技术难度相对应。莫拉维克悖论很好地解释了这一点,该悖论指出:人工智能困难的事情看起来很简单,而简单的事情看起来很困难。让我们想象一下人工智能系统在下国际象棋或围棋或在很短的时间内为人类解决需要高推理能力的复杂问题的轻松程度。相反,在环境中移动或操纵物体,即使对于孩子来说,这种与生俱来的简单能力对于机器人来说仍然非常关键。
机器人感知从三维重建的角度进行了研究。本质上,配备摄像头或激光雷达等传感器的机器人系统必须重建环境的 3D 模型才能自主导航。
在本例中,我们讨论的是 SLAM(同时定位和建图),这是一种允许对未知环境进行地图绘制的方法。机器人利用地图信息来执行路线规划、避障等任务。
SLAM 的研究始于 20 世纪 80 年代至 90 年代,多年来取得了巨大进步。这个问题已经得到解决,SPARK 实验室也研究和使用了有效的技术解决方案一段时间。它们是机器人、无人机的基础,也是虚拟和增强现实观众的基础。
因此,多年来人们进行了大量的研究来了解环境的几何形状,以确保机器人能够四处移动并避开障碍物。
然而,近年来人们认识到(机器人和其他人的)空间感知比几何问题复杂得多。
机器人的空间感知——麻省理工学院模拟
这在实践中意味着什么?
我们人类不仅了解障碍的存在,而且当我们环顾四周时,我们能够赋予周围一切以意义。在实践中,我们发现自己面前的东西不仅被解释为空旷的空间或被障碍物占据,而且我们很好地理解语义,即物体的含义,即使是以非常复杂的方式。例如,我们了解我们周围人和物体的存在,我们在一个房间里,并且它是建筑物的一部分,因此我们形成了静态和动态事物的非常复杂的表示。空间感知是一个过程,从感官数据开始,我们可以为我们脑海中清晰的周围现实建立一个非常复杂的模型。过去十年中最有趣的元素也得益于人工智能的进步,其表现是语义部分变得更加容易理解。
在人工智能出现之前,解决识别和识别物体等任务非常复杂。现在,深度学习模型使我们能够识别图像中的像素并将其与某些对象进行匹配。
我们与 Kimera-Multi 合作的目的是将语义部分提升到一个新的水平。为此,我们继续构建包含几何和语义部分的3D 地图。这使得机器人可以在未知环境中移动,无需 GPS 和任何绝对参考,仅使用从摄像机和惯性传感器获得的传感数据,进行推理并能够构建包含几何图形的三维模型。和语义信息。因此,机器人也可以通过这个接口了解物体的类型。
那么,今天的机器人系统能否更好地了解它们所在的位置以及它们周围的事物?
没错。新颖的元素使机器人具有更高层次的理解:因此,它们理解场景的语义方面、完成高级任务的关键要素,包括导航和对象搜索、与人类的交互等等。我们现在开发了一个系统,多个机器人可以在该系统中相互通信以创建统一的地图,目标它们拥有共享的环境表示,以便协调开展行动。
然而,这个问题非常复杂。机器人以分布式方式收集数据这一事实给建立单一模型带来了困难。例如,如果我们考虑十个地理位置相距很远的机器人,它们会以分布式方式收集大量数据,但很难交换数据。我们研究的主要目标之一是设计分布式协议,让机器人继续交换最少量的信息,试图就如何构建地图及其轨迹达成共识。简而言之,两个机器人不是互相发送各自相机收集的所有图像,而是每次看到对方时交换彼此在参考系统中的位置估计,从而改进彼此的地图。因此,在此过程中,可以收敛到所有系统都一致的共同估计。这是这项工作的主要贡献之一。
还有其他值得注意的方面吗?
是的,另一个重要贡献涉及此类系统的稳健性问题。在实验室进行演示是一回事,开发一个如此可靠的水平仪以允许您在非常复杂的外部环境中管理多个机器人则是另一回事。此时机器人的空间感知与人类相差甚远。特别是,我们希望在这些地图系统中,机器人始终能够识别它是否正在访问它已经知道的地方。如果该区域已经被访问过,机器人必须能够识别该位置,并且该信息对于改进其地图非常有用。此外,机器人还必须识别它们是否正在查看另一个机器人已经访问过的地图部分。
困难在于地点识别算法非常不精确,并且这些算法产生的不正确结果会导致严重错误重建地图。我们已经证明,可以以分布式方式实现我的研究小组过去开发的特定鲁棒估计算法。通过这种方式,尽管地点识别算法中可能存在错误,但仍可以交换估计和测量结果,以形成正确且共享的地图。
机器人的空间感知应用了哪些人工智能技术?
在这项工作中,人工智能主要进入语义部分。深度学习算法用于根据不同语义类别对图像中的像素进行分类。然后,每个像素被分类为某个对象并具有相关的语义,并为创建三维地图提供有价值的信息。不仅如此:借助该系统,可以确保在多个图像中多次观察地图的同一部分。这使我们能够减少人工智能系统中可能错误地对某些像素进行分类的错误。
在研究方面,该领域有哪些承诺?您现在和未来几个月正在做什么?
有很多人致力于多机器人系统和感知。前者尤其在更大的机器人技术中构成了一个社区,并在多个方面进行操作,意识到这种类型的系统在许多情况下更加高效。例如,我想到的是搜索和救援行动,即在灾难性事件后搜寻幸存者,如果可以的话,成功的可能性会更高依靠更多的机器人。但在其他领域,依靠多机器人系统可以获得更好的结果。
谈到接下来的发展,我们需要回到人类的空间感知:它不仅超越几何,而且超越物体。作为人类,我们对现实不仅有一个非常复杂而且有层次的概念,以便非常有效地计划我们的行动。让我们想想当我们计划旅行时:我们在多个层面上建立了几个步骤,通过机场、车辆和城市来计划旅行。我们正在尝试复制这种理解水平,让机器人制定环境的分层抽象,并尝试使用这种表示来加快决策速度。在这方面,我们提出了“3D场景图”的想法,其中定义图来插入不同级别的抽象环境并捕获有关场景中不同对象或不同实体之间关系的信息。这些模型使您能够推理不同对象之间或不同人之间的关系——这是执行高级任务的一个重要方面。
我们正在研究更复杂的表示,并试图了解如何在具有一个或多个机器人的系统中构建这些表示。此外,我们正在尝试将它们开发为其他人工智能模型的输入,例如支撑决策的强化学习。我们希望了解如何使用人工智能算法提供这种感知表示,以便机器人能够更有效地做出决策。此外,我们正在努力通过使用几何来解决人工智能算法的一个基本问题,即需要拥有非常大的注释数据集,这是人工智能图像理解的基础。
人工智能算法的有效性取决于大量数据集的可用性。我们知道,在许多机器人领域,没有如此大的数据集。因此,我们打算重点关注自我监督的可能性,即开发无需人工监督即可运行的系统,无需注释即可收集数据。大型语言模型,例如 ChatGPT,以这种方式工作,即以无监督的方式工作,因此它们可以从互联网上的文本中学习,而无需很多注释。这是我们在机器人技术领域需要努力的前沿领域。未来我们必须拥有能够观察现实并通过推理来自行理解并做出决策的机器人,而无需人类操作员的频繁干预。
您对机器人空间感知的研究和研究未来的应用和好处是什么?
搜索和救援是一个非常重要的应用:让我们考虑一下在受地震或其他灾难性事件影响的地区派遣机器人进行救援行动、为团队或独立提供帮助的机会。在 DARPA(美国国防高级研究计划局)最近发起的机器人系统竞赛中,重点是地下研究。人们对开发地下环境中绘图的能力非常感兴趣,因为地下环境对人类来说非常困难且风险很大。除此之外,这种环境在很多方面都与其他行星上的外星探索非常相似。
另一个令人感兴趣的背景是工业和物流领域,同样是关于机器人的空间感知:今天亚马逊已经在使用机器人在其仓库中,地面上有虚拟向导移动。未来,依靠能够在不同环境中自主移动、与人类一起操作的机器人将会非常有趣。最后,空间感知的研究将使智能交通系统领域发生重大发展。例如,我正在考虑自动驾驶汽车,甚至卡车能够相互通信,以便以更有效和更有效的方式移动。协作方式,大大提高安全水平。