基于SIFT 和DDIS 的智能立体仓库货物自动识别

2020-06-12 03:33杨欢幸芦笙

五邑大学学报（自然科学版） 2020年1期

杨欢，幸芦笙

（五邑大学智能制造学部，广东江门529020）

目前，应用于智能立体仓库的自动识别技术很多，例如，条码识别技术、磁卡（条）识别技术、RFID 无线射频识别技术、机器视觉图像识别技术等. 但纸质标签易损坏、易遮挡，而电子标签价格昂贵、系统集成稳定性差、国内无统一标准，同时，标签并不是货物的固有属性. 因此，本文利用机器视觉图像识别技术，根据货物本身的固有属性，通过图像匹配方法来提取图像中货物的特征信息，对货物进行自动识别入库，可以有效地避免贴标签所带来的一系列问题.

部分研究已将机器视觉图像识别技术应用于智能立体仓库，主要分为基于模板[1-2]和基于特征[3]的图像匹配自动识别技术. 但这些方法在进行图像匹配时仅考虑了货物形状或进行简单的数字识别，不能满足真实货物图像复杂度高等情况. 近年来，由于三维深度传感器的出现，研究者提出基于点对特征描述子的三维物体识别与定位方法[4]，但该方法成本高，需要很高的硬件条件. 本文通过对货物图像提取最小外接矩形（Minimum Bounding Rectangle，MBR）[5]，突出图像识别范围，再采用特征粗匹配尺度不变特征变换（Scale Invariant Feature Transform，SIFT）算法[6]和模板精匹配可形变多相似性度量（Deformable Diversity Similarity，DDIS）算法[7]对复杂货物图像进行匹配.

1 本文方法

本文针对匹配图像特征点太少或相同导致识别正确率降低的情况，提出一种特征匹配与模板匹配相结合的方法. 首先，对仓库中待匹配货物图像进行采集和预处理；其次，提取图像中货物MBR作为图像匹配的模板；然后，采用优化后的SIFT 算法进行货物图像的粗匹配，对匹配特征点对进行判别，若大于2 对且仅有一幅图像特征点对数最多，则匹配成功；最后，对特征匹配无法识别的货物图像采用模板匹配，优化后的DDIS 算法进行精匹配.

1.1 图像目标的MBR 提取

传统的特征匹配方法在目标匹配前仅对图像进行灰度化、二值化等单一的预处理，导致图像匹配准确度不高. 本文采用目标MBR 提取方式对预处理后的图像进行目标提取，得到更精确的目标对象，这样既避免货物图像中背景对货物识别造成的影响，又减少图像匹配时所需计算的图像面积大小，从而缩短运行时间. 本文图像目标MBR 提取方法采用运算速度极快的寻找主轴法[8]，并将得到的图像目标MBR 裁剪出来作为图像匹配时的模板图像. 具体步骤如下：

步骤1：目标MBR 提取. 本文利用寻找主轴法得到图像目标MBR，该方法确定矩形边较容易，旋转次数少，运算速度快.

步骤2：旋转目标图像. 大多数目标对象得到的MBR 并非正立，影响裁剪效果. 故本文对图像进行旋转，假设矩形从左上角开始，顺时针四个顶点分别为，由得到的目标MBR 可知，将图像逆时针旋转θ 度，便可得到正立矩形的图像. 旋转角度θ 为：

步骤3：裁剪目标图像. 根据矩形的顶点A （x1,y1），和矩形的两邻边长，裁剪目标图像，得到SIFT 算法匹配的模板图像.

1.2 优化的SIFT 算法

由于需要考虑立体仓库中光照环境和货物的摆放形态，在提取货物图像的特征时，要求此特征对旋转、亮度等保持不变性，对视角变化、仿射变换、噪声也要保持一定程度的稳定性，所以本文选用SIFT 特征，它是一种非常稳定的局部特征，符合仓库复杂环境下货物图像的特征要求. SIFT 算法具有特征检测和特征匹配两个部分，本文将SIFT 算法特征检测前的匹配图像目标进行提取，避免背景对特征检测的干扰，减少无关的特征点.

在特征匹配部分，在待匹配图像中查找与参考图像每个特征点最近邻的两个特征点，如果最近的距离除以次近的距离小于某个固定的阈值，则选取最近距离的这一对匹配点作为匹配对. 假设参考图像中的SIFT 描述子为待匹配图像中的SIFT 描述子为则两个特征点描述子的欧式距离为：

本文对图像匹配距离阈值进行修改，Lowe[6]选取的阈值为0.8，本文实验发现当阈值选取过高时，目标对象的匹配对数会大大减少，不利于图像最终的识别，故本文方法选取的阈值为0.7.

1.3 优化的DDIS 算法

由于图像中能找到的SIFT 特征点总是有限且不多的，就有可能匹配不到目标图像，或者匹配到特征点对数相同的几幅图片. 此时，本文选用DDIS 算法进行精匹配，获得最终匹配结果. DDIS 算法匹配前，需手动对模板图像和匹配图像的目标矩形框进行标记，即需预先计算好的矩形尺寸和位置信息，便于图像匹配时直接调用. 但该方法需进行大量前期工作，为解决此问题，本文在匹配过程中通过图像目标的MBR 自动计算矩形框尺寸和位置，如图1-a、b 所示. 图1-a为以图像目标的MBR 作为模板框的模板图像，由于得到的矩形框是倾斜状态，难用于模板匹配，故将图像旋转，得到正立的MBR 模板框图（如图1-b），图1-c 为DDIS 算法匹配结果.

2 实验结果及分析

本实验在4.2GHz Intel i3-7350K CPU 处理器、16 GB 内存、Window 10 64 位操作系统的主机上，利用VS2015 和MATLAB R2016b 进行仿真.

2.1 图像采集及预处理

本文所用到的图像采用手机移动设备代替仓库专用相机，仿照仓库环境拍摄获取. 采集的样本图像库有7 种货物图像.每种货物至少有3 张不同角度，不同背景，不同光照的图像，故图像库共有36 张图片，如图2 所示. 待匹配货物图像采用同样的采集方式，共12 张图片，如图3 所示. 为方便后续工作，本文对图像进行裁剪、灰度化和二值化等预处理操作.

图1 DDIS 算法匹配

图2 部分货物图像库

图3 待匹配货物图像

2.2 实验结果分析

为更好地说明本文方法的优越性，将与目前流行的匹配算法进行对比，采用的对比算法为原始SIFT 算法[6]，vl_SIFT 算法、Harris+vl_SIFT 算法[9]，SIFT+RANSACS 算法[10]. 对比实验结果如表1所示，表中识别正确用T(Ture)表示，识别错误用F(False)表示，未找到识别图像用N(Null)表示.

表1 各种算法的实验结果比较

由表1 可知，待匹配图pair0001 有3 种方法识别正确，2 种方法识别错误. 这张图像能在图像库中找的正确匹配图如图1-c 所示，其目标被部分遮挡，识别较困难.原始SIFT 方法找到的最大特征匹配对数为5 对，且有两张图像符合要求，一张正确和一张错误的图像，恰好正确的图像在图像库中排序靠前，所以识别正确是具有较大偶然性的；本文方法对两张匹配对数为5 的图像采用DDIS算法与待匹配图像进行匹配，最终根据模板图像的模板框和目标图像的目标框重叠范围作为匹配得分，得分高的即为最终匹配图像，识别正确.

图像pair0010 只有本文方法和vl_SIFT 方法识别正确；这张图片光照强度大，且光照方向对图像目标的曝光度大，使目标处于背光处，所以特征点检测很困难，本文方法提取目标图像后，检测到的匹配对少于两对，故转为采用DDIS 匹配出正确图像.

图像pair0011 只有本文方法识别正确；这张图片光照强度较大，与图像库中正确匹配图像相比有一定的视角变化，SIFT 特征点较少，且检测到几张图像最大匹配数都是3 对，故采用DDIS 算法匹配出最终结果，识别正确.

通过实验结果及上述分析，本文方法优于其他几种方法，对图像遮挡、光照变化、尺度变化、视角变化等的图像匹配具有较好的适应性，适用于智能立体仓库货物识别的环境.

实验结果表明，12 张待匹配图像中，Harris+vl_SIFT 方法正确识别6 张，识别正确率为50%；原始SIFT、vl_SIFT、SIFT+ RANSACS 方法正确识别9 张，识别正确率为75%；本文方法正确识别11 张，识别正确率为91.7%，如表2 所示. 因此本文算法识别准确率高于其他几种方法.

表3 为各算法匹配速度，本文方法每识别一个货物需要大约1 min，快于原始SIFT 方法和SIFT+ RANSACS 方法，这是由于本文方法在图像匹配前，对待匹配货物图像进行MBR 提取，避免背景干扰，缩小特征检测范围；慢于采用VLFeat 算法库的方法，本文通过增加时间提高了识别正确率，在智能立体仓库货物识别模块识别准确率的优先级高于识别速度，所以此时间也在可接受范围内.

表2 各种算法的识别正确率比较

表3 各种算法的平均识别速度比较

3 总结

本文针对智能立体仓库中货物自动识别方法中，标签不是货物的固有属性，且其他图像匹配方法匹配正确率较低的问题，提出一种特征匹配与模板匹配相结合的货物图像识别方法. 首先对待匹配图像进行目标MBR 提取作为匹配模板图像；然后采用优化后的SIFT 算法进行粗匹配，筛选出特征匹配无法识别的货物图像，最后采用优化后的DDIS 模板匹配方法进行精匹配，找到匹配图像. 实验结果表明，本文方法在可接受识别时间范围内识别准确率有所提高，具有一定的实用价值. 针对本文方法的不足之处，在后续的研究中还需要考虑实时性，可以参考VLFeat 算法库的方法，提高算法识别速度，从而满足智能立体仓库所要求的高实时性和高准确率.