基于Mean Shift算法的多目标识别与仿真

2020-06-23 09:03韩光威顾力伟

舰船电子对抗 2020年2期

韩光威，顾力伟，刘咏

(中国船舶重工集团公司第七二三研究所，江苏扬州225101)

0 引言

随着电子信息和计算机系统的迅猛发展，现代战争中的信息化作战也越来越重要。目标识别是指利用光学仪器、雷达、声纳和计算机等设备对目标的敌我属性、类型的判别[1]。目标识别系统作为现代信息化作战平台上进行区分敌我的重要手段，对目标识别系统进行多目标识别的研究具有重要的意义。

目标识别系统进行目标识别时影响因素较多，受外界地形环境的干扰复杂，不同影响因素间具有相互的干扰作用，因此基于规则或专家系统的方法也变得越来越困难[24]。基于聚类的方法能够通过分析系统采集的数据来得到我方目标的数据信息，而通过分析实时数据和我方目标的差异可以进行目标的识别。同时，由于系统信号传输的不确定性和一些外界因素，导致采集的系统数据中会出现离群数据点，这些离群点导致一些传统的聚类方法，如DBSCAN 等存在一些不足，影响聚类的效果。

本文针对目标识别系统的上述特性，提出了一种基于Mean Shift的改进聚类算法，能够在聚类的同时诊断出离群数据点，避免其对分类效果造成不利影响；同时由于系统聚类比较的是通过Mean Shift算法得到的数据密度中心点，能够进行精确的目标识别，避免了DBSCAN 的数据边界点造成的聚类异常；在实际在线测试过程中，也能够达到较好的识别结果。

1 基于Mean Shift算法的建模

1.1 基于Mean Shift的聚类算法

Mean Shift算法能够自适应地搜索空间中样本分布密度增加最大的方向，并最终收敛到此密度峰值点，进而识别出数据的局部聚类特征[56]。由于Mean Shift算法不需要具有任何先验知识，并且能够处理任意特征空间，只有移动窗口的参数需要调节，所以Mean Shift 算法比较适合处理复杂的数据。

Mean Shift向量的最基本形式可定义为：

式中：S h是一个半径为h的高维球区域；(x i-x)是样本点x i相对于基准点x的偏移量；M h(x)是落入区域S h中的t个样本点相对于点x的偏移向量的均值。

如图1所示，图中圆形区域为S h，小圆圈代表落入S h区域的t个样本点x i，黑点是Mean Shift的基准点x，箭头表示样本点相对于基准点x的偏移向量。由图1可看出，偏移向量M h(x)会指向样本分布密度最大的方向。经Mean迭代计算，不断用M h(x)的向量计算结果更新基准点x，当满足‖M h(x)‖小于某容许误差条件时即可获得收敛到的稳态聚类中心点[7]。

图1 Mean Shift示意图

由于各样本点与基准点的距离不同，所以在处理偏移向量时要对不同的偏移距离取不同的权重。一般而言，离基准点越近的点对估计当前区域的密度具有较大的作用。为解决这一问题，在此引入高斯核函数G(x)。运用高斯核函数能够单调地反映样本点与基准点之间距离与样本点的权重关系。此时，向量M h(x)化为：

1.2 离线建模流程

多目标识别系统的离线建模流程如下：

(1)采集目标识别系统的历史数据，包括我方目标和敌方不同目标的数据信息作为建模数据，并标准化处理。

(2)将已知我方数据信息和某一类的敌方目标的数据信息作为输入数据，运用Mean Shift方法得到2类输入数据的密度中心点。

(3)将2类密度中心点作为聚类中心点，同时不断扩大搜索半径来赋予输入数据标签，直到2类数据发生重叠或者所有数据全部分类完毕。

(4)对比分类完成后的标签和已知输入标签，如果标签正确率在90%以上，则说明建模成功。此时对比分析聚类中心，找到中心距离最大的前n个特征，得到特征值的序号，作为目标的模型f k，每一个k对应一种敌方的目标，即：

1.3 多目标的在线识别

由1.2可知，本文的多目标识别系统的输入是一批已知的我方目标的数据信息和在线的未知的一个批次的数据。在线识别时需要采集1 个批次(1个时间段)的在线数据与一批我方目标的数据进行输入分析，运用基于Mean Shift的算法进行在线聚类分析，如果输入的2类数据能够成功聚成2类，即聚类后的标签与输入标签一致，即说明输入的2类数据具有一定的差异性，同时得到一个与离线建模类似的模型向量f。对在线诊断得到的模型向量f匹配已离线建模的模型向量f k，这里匹配f和f k中相同的项，进而进行系统的多目标识别。

2 实验结果仿真分析

这里结合相关资料给出4组离线实验数据，其中1组我方目标，3组其他目标的数据，这里定义为敌方目标A，敌方目标B，敌方目标C。在每组数据中随机取20个作为建模数据，其余数据作为测试数据。Mean Shift算法选取的核函数的主要参数为带宽h。

经过多次实验比较，当选取h=3 时能够取得较好的聚类效果。图2显示了我方目标与敌方目标A 数据的聚类结果分析。敌方目标A与我方目标的密度中心点距离(采用欧氏距离)d1，样本数据与目标A数据的密度中心点距离d2，隶属度即d2/(d1+d2)，在一定程度上反映了数据与我方目标的相似程度。

图2 基于Mean Shift算法的敌方目标A 聚类结果

和传统的Kmeans和DBSCAN 算法对比发现，如果采用传统Kmeans聚类算法会出现分类异常的情况。如图3所示，可以看到由于第25个样本点是离群数据，与其他数据的距离较大，采用Kmeans算法进行聚类时，会把离群数据单独分为一类，无法有效进行聚类。

图3 敌方目标A 的Kmeans聚类结果

和基于密度的经典算法DBSCAN相比，DBSCAN 算法虽然也能有效处理噪声离群点，但是需要反复调试来确定邻域半径和半径内包括的最小样本点数。图4给出了在2个维度上的聚类结果。

图4 敌方目标A 的DBSCAN 聚类结果

同时DBSCAN在某些情况下效果不佳，DBSCAN 利用密度的连通性，本质上是通过寻找某一点周围距离较近的点来进行算法迭代，如果某一目标与我方目标类似，导致数据与我方之间的差异不明显，这时会导致出现某些数据与我方目标某些数据距离较近，导致分类效果不佳[8]。以敌方目标B为例来进行说明。图5给出所有样本点与第5个样本点的距离，图中前20个为我方目标数据，其余为敌方目标B 的数据，可以看到第21和29个样本点距离第1个样本点很近。所以无论如何选取邻域半径都无法得到较好的聚类结果。

图5 敌方目标B样本点距离比较结果

而采用基于Mean Shift的改进聚类算法，本质上是通过比较样本数据与密度中心点的距离，可以有效地处理这种情况，聚类结果如图6所示。

从图2和图6可以看到，基于Mean Shift的改进聚类算法，能够有效处理离群点问题，避免其对聚类造成不利影响，同时诊断出离群点，方便对离群点的干扰信息进行分析。

图6 基于Mean Shift算法的敌方目标B聚类结果

通过选取训练数据进行基于Mean Shift聚类建模，可以得到敌方目标A、敌方目标B、敌方目标C的模型库，再选取各类测试数据进行测试，目标识别结果如表1所示。

表1 多目标识别结果分析

3 结束语

本文针对目标识别系统的多目标识别问题，提出了一种基于Mean Shift原理的改进聚类算法，能够对目标进行良好的聚类，同时诊断出离群点，避免离群数据对聚类效果的不利影响，相比于传统的Kmeans和DBSCAN，具有更好的聚类效果。并且通过对比分析密度中心点，得到不同目标的模型向量，在在线识别时，通过聚类得到的模型向量进行匹配，能够准确地进行在线的多目标识别。