基于CNN与VLAD融合的闭环检测

2019-01-23 08:15林辉
现代计算机 2018年36期
关键词:闭环准确率编码

林辉

(广东工业大学自动化学院,广州 510006)

0 引言

同步定位与地图构建[1](Simultaneous Localization And Mapping,SLAM)是移动机器人实现自主定位与导航的基础和关键技术之一,旨在当机器人进入一个未知环境时,建立局部地图并同时确定机器人在地图中的位置。主要包括前端视觉里程计、后端位姿图优化、闭环检测和地图构建等四部分。其中,闭环检测是SLAM关键的组成部分之一,解决的是确定移动机器人是否回到先前访问过的位置的问题。准确地检测出闭环对SLAM系统纠正长时间的累积误差,构建全局一致的位姿估计和地图是至关重要的[2]。

闭环检测本质上是一个场景识别问题。在视觉SLAM领域,常规的做法是将移动机器人当前位置的视图与先前访问过的位置的视图进行匹配。图像匹配通常分为图像描述和相似性度量两个部分,构建图像描述是闭环检测的关键。视觉词袋模型(Bag of Visual Word,BoVW)[3]是最常用的一种闭环检测图像描述方法,将图像比作文档,提取图像的局部特征,采用K-means算法对提取的局部图像特征进行聚类,将其聚类中心作为视觉单词,由许多单词构成字典。对于一幅图像,利用视觉词袋模型量化图像特征,利用词频(或直方图)表示图像作为图像描述。FV(Fisher Vector)[4]使用高斯混合模型(Gaussian Mixture Model,GMM)构造视觉词典,用GMM的似然函数的梯度向量来描述图像,其中高斯分量类似于BoVW中的聚类中心,协方差为聚类中心关键点的分布。VLAD(Vector of Locally Aggregated Descriptors)[5]是 FV的简化,同 BoVW 一样直接使用K-means聚类得到视觉词典,与BoVW不同的是,VLAD对图像落在聚类中心上的残差进行累加求和,并把各个聚类中心的残差和串联起来作为图像描述。BoVW、FV和VLAD均为对图像局部特征进行特征编码,得到的图像描述。GIST[6]使用的不是局部特征,而是利用Gabor滤波器生成低维的全局图像描述。然而,上述的闭环检测方法多数还是采用基于SIFT[7]、SURT[7]和ORB[8]等传统手工设计的特征对图像进行描述,在场景感知条件发生变化时,难以提供准确的图像描述,在SLAM闭环检测中的成功率并不高。

与传统方法通过人工设计的特征进行图像匹配不同,深度学习通过神经网络学习图像的深层次特征作为图像描述进行图像匹配。对于存在一定变化的视觉场景,深度学习可以提供更加鲁棒的图像描述。近年来,学者们开始尝试将深度学习方法应用于闭环检测。Hou[9]利用Caffe框架下的PlaceCNN进行特征提取,发现在光照变换明显的环境下,采用深度学习的特征描述鲁棒性优于传统特征。Gao[10]利用自动编码器提取图像特征,使用相似性矩阵检测闭环,在公开数据集上取得了很好的效果。实验表明[11],局部图像描述比全局图像描述更能有效应对图像视角改变问题,但以上方法均没有考虑图像的局部空间特性。

考虑到上述基于传统方法与基于深度学习方法的图像描述存在的问题,本文提出一种卷积神经网络(Convolutional Neural Network,CNN)与 VLAD 融合的图像描述方法。该方法考虑了图像的局部空间特征,在两个基准数据集上进行闭环检测取得了很好的效果。

1 基于CNN与VLAD融合的图像描述

采用CNN与VLAD融合的方法描述图像。首先用预训练好的卷积神经网络提取图像的深层抽象特征,经过处理将其转换为图像的局部特征,然后利用VLAD对提取的特征进行编码,将得到的VLAD编码作为图像的描述。具体流程如图1所示。

图1 基于CNN与VLAD融合的图像描述生成流程

1.1 基于CNN 的图像特征提取

自2012年AlexNet[12]卷积神经网络在ImageNet大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)上夺冠以来,掀起了深度学习的应用热潮。卷积神经网络能够由浅至深,逐层提取特征,已经在图像分类和图像检索等领域取得了巨大成功。本文使用AlexNet卷积神经网络提取图像特征,并对提取的特征进行VLAD编码,作为图像描述。

AlexNet卷积神经网络主要由三种类型的层结构组成:五个卷积层,三个最大池化层和三个全连接层,其中最大池化层连接在第一、第三和第五卷积层后。卷积神经网络多数被训练来实现分类任务,其全连接层通常能够捕获更多的语义信息,但是图像的空间结构却不能得到很好的保留。由于空间信息的丢失,这些全连接层的特征对于视觉SLAM的闭环检测来说效果不佳[9]。故舍弃全连接层,仅使用AlexNet卷积神经网络的卷积层和池化层提取图像特征。

对于训练好的AlexNet卷积神经网络,将输入图像预处理成n×n的固定大小,然后通过神经网络提取图像特征。假设L层输出的特征图(Feature Map)Ml的维数为nl×nl×dl,其中nl×nl为特征图的大小,dl为卷积核的个数。如图1所示,令ns=nl×nl,在特征图Ml的每个位置(i,j)处获得一个dl维的向量fl i,j,其 中1≤i≤nl,1≤j≤nl。向量fl i,j实际上就是卷积神经网络所提取的图像局部特征[13]。于是获得在L层提取的图像特征向量

1.2 VLAD 编码

通过将特征图转换为图像的局部特征,每个图像都包含有一组局部特征向量,其结构与SIFT特征相似。鉴于VLAD编码在匹配精度和内存占用之间的折中效果[13],本文使用VLAD编码将图像的局部特征编码成单个向量作为图像描述。

VLAD编码类似于BoVW模型,通过K-means聚类得到视觉词典。对于卷积神经网络L层的输出特征向量,使用K-means聚类将其聚成K类,设聚类中心分别为对于每幅图像,经过卷积神经网络提取的L层局部特征根据其与聚类中心的距离被分配到每个类别中,计算所有特征fl i,j与所属的聚类中心的差。则VLAD编码形式如式(1)所示,其将图像L层特征转换为关于视觉词典的分布的dl×K维向量。

对于一幅图像,使用卷积神经网络提取抽象特征,并转换为图像的局部特征,再经VLAD编码,将得到的dl×K维向量作为图像描述。

2 基于CNN与VLAD融合的闭环检测

CNN模型的训练为有监督的训练过程,使用由麻省理工学院收集的用于场景识别和场景理解任务的包含180多万张场景图片、分为365个场景类别的大型场景数据集Places365-Standard[14]对AlexNet卷积神经网络进行重新训练。通过在此数据集上训练CNN,可以使CNN模型学习到更加丰富的场景语义信息,更适合于闭环检测。

使用预训练好的CNN模型作为图像的特征提取器,将提取的图像局部特征进行VLAD编码。构建图像描述后,使用欧氏距离度量图像的相似性。假设两图像对应的图像描述向量分别为xk、xt,它们的欧氏距离如公式(2)所示。距离越小则相似度越大,若两个图像相似度大于设定的阈值,则判断出现闭环。

闭环检测处理的视频帧数据具有时间连续性,相邻图像的相似度往往较大,非常容易被误检测为闭环[15]。因此在检测闭环的过程中应该设置检测的图像范围,排除相邻帧图像的干扰。为了避免相邻视图对闭环检测产生误闭环干扰,在实验中通过设置阈值的方式限定闭环的检测范围。例如设置阈值Th=50,即待检测图像与其之前相邻的50帧图像不进行闭环检测。

在此首先测试了AlexNet卷积神经网络各卷积层与池化层提取的图像特征在经过VLAD特征编码后的图像描述在公开数据集下的平均精度,选取卷积神经网络表现最好的前两层与基于手工设计特征的图像描述及基于深度学习的图像描述进行比较分析。

3 实验结果与分析

3.1 实验数据集

为了验证CNN与VLAD融合的图像描述在闭环检测中的效果,使用New College[16]和City Centre[16]两个数据集进行实验评估。New College和City Centre数据集是由牛津大学移动机器人团队收集提供,被广泛用于视觉SLAM研究和闭环检测算法评估的数据集。这两个数据集分别包含1073和1237对图像,每个数据集分为左右两个部分。具体的收集方式如下:在移动机器人左右两边各放置一个摄像头,机器人每前进1.5米采集一次图像。由于左右两个摄像头的角度不同,在同一位置两边摄像头采集到的图像是完全不同的,故这两个数据集可以分为左右两个独立的数据集。数据集以矩阵形式给出了闭环区域的真实标注,其中矩阵的行表示先前访问过的位置视图,矩阵的列表示当前视图。若当前视图i与历史视图j形成闭环区域,则(i,j)对应的数值为 1。

在对比基于不同CNN模型层结构所提取的图像局部特征融合VLAD编码作为图像描述的性能时,使用New College数据集的左半部分(New College Left)进行实验。对比CNN与VLAD融合的图像描述在该数据集上的平均准确率,选取CNN模型表现最好了两个隐藏层。使用全部的New College和City Centre数据集,比较分析其与基于手工设计特征的图像描述以及基于深度学习的图像描述的性能。实验中在两个数据集上皆设置阈值Th=100来限定闭环检测的范围。

3.2 评估方法

为了评估不同图像描述的性能,使用准确率-召回率曲线(Precision-Recall Curve)和平均准确率等指标。准确率描述的是,算法提取的所有闭环中确实是真实闭环的概率。而召回率则是在所有真实闭环中被正确检测出来的概率。准确率与召回率根据混淆矩阵进行计算。混淆矩阵(Confusion Matrix)是表示精度评价的一种标准格式,在闭环检测中,结果根据是否是闭环总共分为两类,则混淆矩阵可以表示为表1的形式。

表1 闭环检测混淆矩阵表示

其中,真阳性(TP)表示检测到正确的闭环的数目,假阳性(FP)表示检测到错误的闭环的数目,假阴性(FN)表示没有检测到的真实闭环的数目,正阴性(TN)表示正确检测到非闭环的数目。在闭环检测中,希望TP和TN要尽量高,而FP和FN要尽可能低。准确率和召回率的计算公式如下所示:

使用欧氏距离来计算图像的相似性,并应用距离阈值来确定是否发生了闭环。通过改变距离阈值,计算每个阈值下的精确率-召回率对,即可得到一条准确率-召回率曲线。平均准确率是通过计算准确率-召回率曲线中所有召回率的平均精确率来获得的。

3.3 闭环检测性能比较

使用New College Left数据集,对CNN与VLAD融合的图像描述进行实验,选取CNN模型中表现最好的两层隐藏层,与基于手工设计特征的图像描述及基于深度学习的图像描述进行比较分析。图2为CNN模型的所有卷积层与池化层提取图像局部特征后融合VLAD编码的图像描述在该数据集上的准确率-召回率曲线。表2列出了CNN模型各层提取图像局部特征融合VLAD编码的图像描述的平均准确率。图3中,将CNN模型表现最好的两层隐藏层使用虚线标注出来,并在表2的加粗标注出了这两个隐藏层的平均准确率。综合准确率-召回率曲线与平均准确率,选取conv3和conv4两个卷积层提取图像局部特征,融合VLAD编码,与基于手工设计特征的图像描述及基于深度学习的图像描述进行比较。

为进一步验证基于CNN与VLAD融合的图像描述的效果,使用New College和City Centre左右两部分数据集进行测试,并与基于手工设计特征的图像描述及基于深度的图像描述进行比较。基于传统手工设计特征的图像描述选用BoVW、VLAD和GIST三种作为参照,基于深度学习的图像描述则选取AlexNet-PlaceCNN模型的pool5层输出特征向量。

表2 各CNN隐藏层在实验数据集上的平均准确率

图2 各CNN隐藏层在实验数据集上的准确率-召回率曲线

表3列出了CNN与VLAD融合的图像描述与BoVW、VLAD、GIST三种基于手工设计特征的图像描述及基于PlaceCNN的图像描述在New College和City Centre左右两部分数据集的平均准确率。可以看出基于传统手工设计特征的图像描述及基于PlaceCNN的图像描述与基于CNN与VLAD融合的图像描述在平均准确率上的表现相当。图3展示了几种图像描述在New College和City Centre左右两部分数据集上的准确率-召回率曲线。图3表明了基于CNN与VLAD融合的图像描述在实现更高的准确率时,能够保持更好的召回率。由于在SLAM中,错误的闭环会导致致命的错误,故我们更关注准确率,即更关心准确率-召回率曲线偏向右上方的程度。故由图3也可以看出,基于CNN与VLAD融合的图像描述的性能更优。表4列出了各个图像描述在100%的准确率下能够实现的最高召回率。在100%的准确率前提下,基于CNN与VLAD融合的图像描述能够实现更高的召回率,其中表现最好的conv4层提取的图像局部特征融合VLAD编码作为图像描述的平均召回率较表现最佳的基于手工设计特征的图像描述GIST提高了59.71%,较基于PlaceCNN的图像描述提高了28.33%。

表3 不同图像描述平均准确率对比

图4 几种图像描述在公开数据集下的准确率-召回率曲线

表4 不同图像描述在100%准确率下实现的最大召回率对比

4 结语

针对视觉SLAM闭环检测中图像描述方法存在的缺陷,提出一种基于CNN与VLAD融合的图像描述方法。对基于CNN与VLAD融合的图像描述和基于手工特征的图像描述及基于深度学习的图像描述的闭环检测方法进行了比较研究。使用New College数据集和City Centre数据集进行了实验测试。实验结果表明,基于CNN与VLAD融合的图像描述和基于手工设计特征的图像描述及基于PlaceCNN的图像描述的闭环检测在上述两个数据集下的平均准确率表现相当,而基于CNN与VLAD融合的图像描述在较高的准确率下,仍能够保持较高的召回率。与其他图像描述相比,CNN模型的conv4层提取的图像局部特征融合VLAD编码作为图像描述在实现100%准确率的前提下,召回率最高提高了59.71%。为进一步研究闭环检测在SLAM系统的工程应用奠定了良好的理论研究与前期实验基础。

猜你喜欢
闭环准确率编码
大型军工企业集团重大风险全流程闭环管控方法探析
时尚与数字共舞,打造印花供应链生态闭环
公平关切下闭环供应链差别定价决策
生活中的编码
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
战略管理型模式下的产业闭环管理体系建设
《全元诗》未编码疑难字考辨十五则