雷锋网 ai 科技评论按:7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(ccf-gair 2019)于深圳正式召开。峰会由中国计算机学会(ccf)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7 月 13 日,哈尔滨工业大学(深圳)教授、ieee ras国际事务委员会主席朱晓蕊教授为「机器人前沿专场」带来了《具有社会属性的智能移动机器人》的大会报告。以下为朱晓蕊教授所做的大会报告全文,感谢朱晓蕊教授的修改与确认。
我今天想跟大家探讨一下智能机器人未来的趋势,也就是具有社会属性的智能移动机器人,我把它叫做「learning from social behaviors」。
我先从具有社会属性的智能系统开始讲起。随着智能系统的感知能力和行动能力日益增强,人与智能系统日益融合,出现了人机共融环境,在这种人机共融的环境中,自然而然就发展出了具有社会属性的智能系统。这种智能系统既然有社会属性,就意味着它要具备可以进化的能力,所以我大概从以下两个方面讲一讲这个系统的可进化性。
一个方面是智能系统必须要具备可以内部进化的能力。系统如果要进行内部进化,通过一个单一的计算平台是不可能实现的,所以需要实现不同平台之间的交互,比如说机器人端和云端的计算平台之间的交互,也就是「云机器人」的概念。
另一个方面是智能系统要具备外部进化的能力。比如说通过人与机器人之间的交互来让智能系统拥有外部可进化性的能力,这也就是我们讲的「社交机器人」的概念。
下面我分别就这两个方面讲讲我们团队在过去大概六七年间做的一些探索。
首先我们提出了面向长期自主定位的云移动机器人。在讲这一点之前,我们先来回顾一下目前移动机器人或者服务机器人在应用上存在的问题:工作范围受限、业务覆盖受限、提供服务受限以及运维成本高。
这些问题看上去是应用层面的问题,然而具体到技术层面,实际上是关键的技术(长期自主的移动或长期自主和大面积覆盖的移动)并没有得到很好的突破的问题。
而这项关键技术也存在以下三大主要挑战:
第一个挑战是,我们需要覆盖大面积的区域,这样我们就需要大量的数据来描述不同的环境;
第二个挑战是,我们还需要让移动机器人适应动态场景,比如说检测和跟踪静态或动态的物体、学习更多的知识来预测环境变化;
第三个挑战是,由于移动机器人需要长时间运行,随着时间增长,它要求的数据存储量也越来越多。
这样的话,我们就需要让机器人拥有更多的存储空间和更强的运算能力,如果只是靠它们的单机本体其实是很难实现的。
这里面就提到了「云机器人」的概念,它就是利用了机器人端的运算以及云端的运算来进行机器人技术研究。总体而言,云机器人有几个优点,包括:
第一,它可以利用云机器人的框架弹性分配计算资源,这样就可以实现在复杂环境中的同时定位与制图;
第二,它可以在这个框架下访问大量的数据库,比如说我们在做识别和抓取物体的时候,需要用很多的数据库来进行比对,另外比如说我们做基于外包地图的长期定位,也需要访问大量的地图的数据库;
第三,这种机器人可以形成知识共享,也就是多机器人系统间的信息共享。也就意味着这些多机器人之间可以根据情况配备不同的装备,同时它们之间可以在云端形成一些知识共享。
具体有一个例子,就是我们自己提的面向长期实时定位的云移动机器人。上面是我们的一个系统框架,我们主要是做了哪些事情呢?
首先,我们充分利用云端的无线存储空间和丰富的数据库资源,来降低对机载传感器的要求,设计分布式算法,寻求云端的强大计算能力和机器人实时要求之间的平衡;
其次,我们还要补偿由于网络不稳定引起的断网问题,以及由于云端和机器人端数据的频繁交互引起的网络延迟。
具体的内容我就不详细讲了,我们有一篇关于这方面的论文,大家感兴趣可以下载下来看一下:
xiaorui zhu* et al, cloud-based real-time outsourcing localization for a ground mobile robot in large-scale outdoor environments, journal of field robotics, 2017, 34(7)
我们在做这个云移动机器人的时候,做了一个实际的环境测试,这个测试环境是围绕着深圳西丽片区的一条大概 13.1 公里长的道路,覆盖了 2.5×6.7 平方公里的面积,包含了几乎所有种类的路面:城市快道、主要交通干道、次要交通干道、服务性道路、城市峡谷、隧道等等几乎没有 gps 信号的地方。我们最终的实时定位的结果可以看到,从开始到最后 13 公里长的道路的平均定位误差是在厘米级的。
其实我们进行这项研究的时间是 2012 年到 2016 年,当时用的通讯方式是 4g 网络。那个时候,我们觉得这个想法不错,demo 也可以做出来,但是离实际的应用感觉还差很远,而这里面有一个很关键的环节,就是我们的通讯方式。
随着 5g 时代的到来,我们能够使用高带宽、低延时、高并发的通讯网络,这样云、网、端三位一体的云机器人才可能真正得到大规模的应用,从而让移动机器人能够扩展环境覆盖面积、提升业务覆盖能力、增强场景覆盖力、降低运维成本。这样整个服务机器人的商业化进程才会真正进入到一个新的时代。
下一个部分我要讲的就是我刚才提到的人与机器人的交互问题,对此我们提出了具有学习行人行为能力的社交移动机器人,即「social mobile robotics」。
我们知道使用传统方法研究的机器人是将环境中的人当做障碍物的,这样就产生了一个问题:导致整个系统的移动效率低,甚至在人群密集的环境中很有可能是失效的。
因而我们提出一种新型智能移动机器人,其在未知的环境中具有学习行人行为模式的能力,这样就可以增强移动机器人的智能理解和智能决策的能力。这个能力对于人来说是很简单的,但是为了让机器人从技术上实现这种能力,我们做了三个方面的工作:第一是未知环境可通行域感知,第二是半稠密环境语义地图制作,第三是人机共融动态环境下同时定位与地图更新。
我们这个系统主要有两个贡献:首先是提出了一种基于行人行为学习的机器人可通行区域制图算法,也就是「learning from social behaviors(lsb)」;其次是我们提出了一种适应人机共融动态场景下的机器人同时定位与地图构建的方法(dm-lsam)。二者其中的焦点就在于如何在动态环境适应能力、定位精度与鲁棒性这几个因素之间寻求平衡。关于这一点,我们也发表了一些文章:
deng f., zhu, x.*, et al, vision-based real-time traversable region detection for mobile robot in the outdoors, sensors, 2017.9,17(9)
邢志伟,朱晓蕊*,何超,基于行人行为学习的机器人同时定位与可通行区域制图,机械工程学报,2019
首先讲一下未知环境可通行域制图。
我们基于机器人实时看到的图象帧,然后快速进行了一次行人检测,如果发现这个场景里面并没有人,就采用基于消失点的道路检测;如果是有人的话,就可以基于行人来进行学习,然后进行道路检测。
上图是我们做的一个基于消失点的非结构化道路检测算法,这是一个图例,(a)是机器人当前看到的一幅图象,然后到(f)是我们通过算法确定的它在非结构化道路上的可通行区域。
这里对我们的算法和传统的基于像素和基于边界的方法进行了比较,发现我们的算法在这种非结构化环境下的检测效果,比传统方法要好很多。
这是我们对实际环境做的一个测试。(a)是机器人实时在跑,后面几张图是几个不同帧,我们对每一帧都有一个可通行区域的检测结果。
那在机器人看到的图象里面有行人存在的情况下,我们如何进行非结构化道路的检测呢?这里面我们有一个基本假设,即行人能通过的位置也就是机器人可通行的区域,所以这里我们也是从图象出发,经过几个步骤最终可以检测到这个可通行区域。
这是我们针对不同图片的场景来进行可通行区域感知的结果。有了可通行区域信息之后,下一步我们要建一个半稠密的语义地图。我们进行半稠密语义地图制作的路径,同样也是从图象出发,一方面结合图片中行人的位置,另一方面也结合我们刚才自动检测出的可通行区域的信息。
这是用我们的算法在 kitti 数据集上的一个序列上做的语义地图制作的效果,红色的区域就是可通行区域,蓝色的点是机器人当前的位置,灰色的部分是环境特征。
我们在数据集上做了一个测试,同时进行了实际环境的一段半稠密语义地图的制作。这里我们重点与目前效果最好的 orb-lsam 在鲁棒性方面的表现进行了比较,结果表明,我们的算法在动态适应性方面提高了很多。
有了半稠密语义地图之后,我们就会进行人机共融动态环境下机器人同时定位与地图更新,也就是我们刚才讲的 de-slam。在这里,我们基本上只用了简单的图象信息和 imu 的信息,其中最重要的一点是我们将运动目标的检测融合在了同时定位与地图构建的框架中。
尽管我们讲的是做动态场景的算法,但是我们不能以牺牲静态场景的效果为前提,所以我们在做实验的时候,同时做了动态场景和静态场景。以下是我们在数据集上做的四组静态场景和四组动态场景。
我们发现在静态场景下,de-slam 的均方根误差比 orb-slam 减小了将近 7%;动态场景下,de-slam 的适应性也更强,平均误差比 orb-slam 减小了 60%。
这是我们做的一个实际动态场景实验,这里我们固定了一个 30 米的标尺作为设定的实验环境。我们发现在动态场景下,我们的 de-slam 系统定义更精确,它的平均误差比 orb-slam 减低 77.89%,因此也能得到与展示环境下更一致的地图和轨迹。
我今天就讲这么多,谢谢大家的聆听。 雷锋网 雷锋网
专题