基于深度学习的语义地图生成

2019-01-03 02:30李佳芮
电子制作 2018年24期
关键词:坐标系语义卷积

李佳芮

(西安高新唐南中学,陕西西安,710065)

0 前言

在日新月异的21世纪,随着科学工作者们探索的深入,我国科技水平不断提高,计算机技术日益进步。又因为人们便捷生活的需求,人工智能变成了一个新的科技热点。它对于帮助行动不便者和老年人、为我们提供更加舒适、智能的生活环境都有重要意义。人工智能而今渐渐深入到我们的生活中,不断帮助我们工作、学习、娱乐。然而,虽然发展前景较为可观,这项技术也是有很大提升空间的,在有些方面也可以做得更好。如今,深度学习为人工智能提供了一个很好的平台,在机器人导航的过程中,视觉SLAM中的地图是编码环境信息的重要载体之一[1]。但传统的栅格地图,拓扑地图仅能满足导航,定位,路径规划等基础功能,环境语义信息对于机器人执行更高级的人机交互任务是至关重要的。此外,目前大多数关于语义地图的研究都是针对结构化环境、场景简单的实验环境或是仿真环境,并不符合复杂的实际生活环境,机器人更加需要坐标来在未知的环境中辨清方向。于此我们决定运用视觉SLAM构建实时的移动机器人语义地图,来辅助机器人精确导航,改进机器人的工作。我们在研究中依然发现,不仅仅是人工智能领域,其它的用于导航的技术也需要用这种方式来提高工作效率。我们通过在互联网上查找文献,以及实地探究,发现当今对于实用的家庭服务机器人和其它用于导航的技术,实时语义地图的建立是尤为重要的。文中在未知环境探索建图模块研究的基础上,针对复杂的实际室内场景,寻找一种为图像加入语义信息的方法,运用全卷积网络和坐标变换、映射构建实时语义地图。此项工作能使人工智能以及我国日后的科技发展更迅速,我们的生活也因此便捷而精彩。

1 相机模型

在实际应用中我们经常使用针孔相机模型[2]。在实际的三维空间中,构建地图首先要成像,通常使用双目相机模型。图像处理中有四大坐标系,分别为:世界坐标系、相机坐标系、图像坐标系、像素坐标系。在世界坐标系任何物体都可以表示。可以选机器人的任何一个坐标点。但为分析方便,我们通常选择初始位置,单位米。相机坐标系用来计算机器人在坐标系下所处位置和行走(变换)方式。物体之间的坐标变换,主要表现为旋转和平移,从世界坐标系到相机坐标系的变换是刚体变换,即物体不发生形变,直接进行旋转和平移。但从相机坐标系到图像坐标系需要用到相似三角形,就是透视投影,从3D投到2D。图像坐标系经简单的伸缩变换,不需旋转,即可得到像素坐标系。从相机坐标系到图像坐标系如图1所示。

图1 相机坐标系转换到图像坐标系

从图像坐标系到像素坐标系如图2所示。

图2 图像坐标系到像素坐标系

我们可以在相机坐标系中算出各点的坐标及其变化关系,再将每个点投影到世界坐标系(初始位置),让每个点在坐标系内有效连接、融合,然后即可建立坐标位置图。在这之后,才可以对相机进行标定,在实际三维空间创建语义地图。机器人能有一个清晰的导航路径,从而达到理解陌生环境,高效快捷地为人类服务的目的。

2 图像语义分割

2.1 图像语义分割的概念与原理

对于导航者,尤其是生活中最常见到的家庭服务机器人,构建地图的过程是依靠SLAM完成的。其实我们在一个陌生的环境,中,也需要知道自己在哪里[3]。下一步要去哪里,怎么去。那么,我们就要依靠地图为我们导航。机器人的工作也是一样的,它需要建立地图来描述环境、识别场景。这,就要用到SLAM技术来定位、建图[4]。它基本的定位原理是通过概率统计和特征识别、匹配来达到定位和减小定位误差的,建图则是记录下环境中位置的特征[5]。最终的目标是在此同时构建地图,并在之前的特征点地图、栅格地图、拓扑地图等普通三维点云地图的基础上做一点改动,因为,机器人使用这些地图只能知道自己的位置和图像中各个点的位置,缺少实时语义信息,所以无法有效规划路径。所以,应这一要求,建立地图的技术迈上了新的台阶—对传统三维地图赋予语义信息,建立语义地图。

语义其实是指图像的标注,就是识别特定的目标,在三维坐标系中重新建立。之后基于SLAM,在实际的三维空间中,定位信息、识别标签、SLAM位置信息结合在一起,构建出一个模型来,这就是初步的操作。建立实时语义地图的基石性操作是图像语义分割。它在服务型机器人导航、无人机着陆点的判断等方面举足轻重。在计算机视觉领域,不论是分割,还是检测,包括识别与跟踪,都非常重要,缺一不可。图像语义分割要求从像素的级别理解图像,确定图像中每个像素对应实际中哪个物体。

语义分割的效果是机器能够自动分割出图像内容,比如在一个房间内,通过语义分割,机器人能辨清哪里是门,哪里是床,从而到人指定的目的地去,达到人的目的。基于深度学习,运用全卷积网络分清楚每一个像素,让图像的特征更明了。对于人工智能来讲,机器人要通过语义地图的构建来识别场景,辨别方向,图像语义分割也是保证其展开正确行动的基础。在线构建语义地图,首先要清晰地理解整个场景,并且时间不能太长。场景理解就是标注图像与环境中其他物体之间的关系。语义地图为场景理解提供语义信息,可保证机器人导航、定位或自动驾驶的有效性。构建实时语义地图的传统方法有阈值分割、聚类分析、活动轮廓方法等。构建语义地图如图3所示。这些方法虽然在先前简单实用,但它们存在很大的局限性。这些方法通常不能快速计算,而且操作难度比较大。再者,建立实时语义地图需要分清图中的各个像素,这些方法也只是对图片进行分割,输出的是数值而不是像素。所以,经过数年研究,终于提出了卷积神经网络,进而发展到现今的全卷积网络。

图3 语义地图工作流程

2.2 全卷积网络

语义分割不比传统的图像分类,只是分清楚图片,要求通过提取特征分清像素对应的分类。在深度学习中,用的最多的方法是全卷积网络。在此之前使用的传统的卷积神经网络存在很大局限。其一,它计算重复量很大,相邻像素块重复较多,这就加大了运算的重复量。其二,它需要更大的存储空间。其三,因为像素块太小,我们不能全面、明显地提取图像特征。所以,现在的图像分割广泛地使用全卷积网络。它主要使用卷积化和上采样技术。卷积化就是把原先的全连接层换成卷积层,卷积虽然使用了之前卷积神经网络已经训练好的权值和偏置,它们的计算过程不同。不一样的是因为它的权值和偏置有自己的范围,所以它有一个自己的卷积核。它所有的层都叫做卷积层,故称为全卷积网络。在普通的池化中,图片的尺寸会缩小。这时,我们就需要进行上采样。上采样也叫反卷积,它和卷积运算方式相同,只是把多对一改成了一对多而已,也就是只把卷积的传播方向改变了。

计算时应该对逐个像素计算,相当于每一个像素把全连接层转化为卷积层。因为卷积神经网络只有5层是卷积层,后三层是尺寸不一的一维向量,而全卷积层将这三层也表示为卷积层,故称为全卷积网络。经过多次卷积后,图像变小了,分辨的也就没那么清晰了。为了恢复到原图的分辨率,全卷积网络就要使用上采样。将最后一层的输出图像上采样,才能和原图大小相等。上采样和反卷积原理是相同的。卷积神经网络的识别是图片级的识别,而全卷积网络的识别是像素级的识别。全卷积网络在像素水平对图像进行分类,从而处理了语义级别的图像分割问题。与经典的卷积神经网络不同,任意的图像都可以被全卷积网络接受, 对最后一个卷积层进行反卷积,它就可以和原图像尺寸相同。但原图的空间信息仍然保留着,最后对逐个像素分类。分类之后的效果,就是图中各个像素能明确区分开来,就可以提供有效语义信息。

能被广泛应用的全卷积网络一定有自己的优点。它的优点在于:①全卷积网络可以接受任意的输入图像,不需要所有的测试图像、参考图像尺寸都相同。②它节省了很大一部分存储空间,也避免了多次重复的繁琐计算,提高了计算机的工作效率。

总而言之,全卷积网络在图像语义分割中所起的作用很大。它是目前应用较广泛的一种技术。在未来,在研究者们的苦苦探索之下,一定能有一种科学技术又能战胜全卷积网络的局限性,用更缜密的思路为图像语义分割开辟一条全新的捷径,不能忽略图像中的空间信息,加强像素之间的联系,更细化考虑问题。其结构如图4所示。

图4 全卷积网络结构

2.3 实际环境下语义地图的表述方法

在机器人技术领域,语义地图包含了环境的空间信息和已知类别景物的空间分布特征。语义地图的构建是把传感器检测到的信息转化为抽象语义的过程。其构建方法主要有如下三种:

首先应对坐标数据和变换进行理解,得到场景中各个物体的标签,再结合得到的标签对数据进行语义再分类,并去除无效的数据,这些都是前期应该做的处理。之后,根据场景理解结果,生成场景的语义描述,赋予环境中各个物体图像中物体的各项属性,包括机器人需要认识的每一个对象。最后,根据场景的语义描述,按照一定规则生成地图,随着新的环境不断被感知,地图结构也不断调整,然后不断对开始生成的地图更新、维护,在大规模场景中,语义地图就生成了。这种方式可被用于家庭机器人导航等方面,对现时流行的无人机技术、自动导航车等方面也大有益处。

2.4 对语义地图建立的总结

本文主要概述语义地图建立的概念、原理、方法与作用。在技术方面,对图像语义分割主要用到的技术--全卷积网络进行了概论与评述,提出了其优缺点,还介绍了双目相机模型和四大坐标系,因为机器人导航时需通过坐标确定自己的位置,走正确的路线。再者,语义分割中有一个在坐标系中映射的过程,从用来计算的相机坐标系映射到初始的世界坐标系,融合后可构建语义地图。之后因人工智能终要应用到实际中去,又讲述了在实况下和场景理解的基础上,语义地图如何构建。人工智能的运作过程中,在陌生环境下规划清晰的路径是很重要的。在复杂的三维空间,一系列的人机交互任务,都要依靠坐标位置和路径完成。语义地图的建立,打破了视觉SLAM中传统栅格地图、拓扑地图等的局限性,能在相机坐标系中完成计算,变换,再映射到初始的世界坐标系中,将图像进行语义分割,提供有效的语义信息,从而让人工智能在实际情况下有确定的行进路线,能高效完成复杂的人机交互任务。能更好地为人类服务,帮助需要帮助的人,让他们的生活多一个依靠。

3 展望与总结

深度学习中图像语义分割技术一定对人工智能以及其他导航技术的研究有益处,从slam中只有简单功能的点云地图到能提供语义信息也是跨越了一大步。但这项技术经过分析并不是十分完美。其中用到的各项技术各有利弊,在未来的研究中应加以调整。我们在研究中没有进行实际实验,仅是对方案进行了设计,在日后我们会通过试验的方法来研究,让自己的方案更加精确可靠。随着研究步步深入,未来会发掘出更多种类的导航技术,图像语义分割的应用范围将愈加广泛。科技的发展会为提高我国综合国力做出巨大贡献,我们的未来会更加精彩。

猜你喜欢
坐标系语义卷积
真实场景水下语义分割方法及数据集
独立坐标系椭球变换与坐标换算
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
坐标系背后的故事
三角函数的坐标系模型
求坐标系内三角形的面积
“吃+NP”的语义生成机制研究