基于谱回归特征降维与后向传播神经网络的识别方法研究

2016-10-13 17:20邬战军牛燕雄耿天琪
电子与信息学报 2016年4期
关键词:隐层降维识别率

邬战军 牛 敏 许 冰 牛燕雄 耿天琪 张 帆 满 达



基于谱回归特征降维与后向传播神经网络的识别方法研究

邬战军 牛 敏*许 冰 牛燕雄 耿天琪 张 帆 满 达

(北京航空航天大学仪器科学与光电工程学院 北京 100191)

采用后向传播(BP)神经网络对空间目标进行识别时,高维的输入特征导致网络结构复杂,识别性能降低。针对上述难点,该文提出一种基于谱回归(SR)特征降维与BP神经网络的识别方法。该方法首先对空间目标进行HOG特征提取,然后将提取的高维HOG特征进行SR降维,最后把降维后的数据通过BP分类器进行训练识别。实验结果表明:该方法的降维和识别特性优于传统降维方法PCA, KPAC, LPP, KLPP等,能够兼顾实时性和准确性,提高了识别性能。

目标识别;后向传播神经网络;谱回归;特征降维

1 引言

空间监视系统是地球外层领域的研究热点,空间目标识别是空间监视的主要任务之一,引起多国的广泛关注。卫星目标在太空中沿轨道运动,具有视点结构特征,光照、形状、尺度和姿态都有不同程度的变化。BP(Back Propagation)神经网络能够逼近任意非线性函数,具有抑制噪声能力强、容错能力强、自适应学习能力强和并行处理能力强等优点,在目标识别领域有广泛应用[1]。但BP神经网络用于空间目标识别时,高维输入特征会使网络结构复杂,降低训练性能,因此在训练识别前对原始特征进行降维十分必要。

目前常用的特征降维法主要有主成分分析法(Principal Component Analysis, PCA),局部保形投影法等。主成分分析法计算简单,效率高,但不适用于高维非线性结构[2,3]。核主成分分析法(KPCA)通过核函数把低维线性不可分的数据映射成高维空间中线性可分的,再在高维空间中使用PCA降维,然而KPCA需要对核矩阵计算、存储和特征分解,样本过多时计算代价大,速度慢,效率低[4,5]。局部保形投影(Locality Preserving Projection, LPP)既解决了线性方法难以保持数据非线性流形的问题,又克服了非线性方法难以获得新样本低维投影的缺点,有很好的局部判别能力[6,7]。核局部保形投影(KLPP)比LPP有更好的抽取非线性特征的能力。然而LPP是无监督的学习方法,当图像的光照、姿态发生变化时,或两类目标靠得较近甚至部分重合时,识别率会下降;矩阵向向量变换的过程中,容易带来维度灾难,计算量很大。谱回归(Spectral Regression, SR)方法把求解特征函数的问题放在了回归模型中,避免了LPP求解稠密矩阵的特征值问题,它不仅在监督和非监督的情况下适用,在半监督的情况下同样有不错的效果[8]。

本文提出一种基于SR特征降维与BP神经网络的识别方法。该方法首先对空间目标提取梯度方向直方图(Histogram of Oriented Gradient, HOG)特征,对高维HOG特征分别使用PCA, KPCA, LPP, KLPP以及SR和KSR算法进行降维,最后使用BP神经网络分类器对降维后的数据进行训练识别。对比各算法降维和识别特性,SR与BP神经网络结合使用,克服了实时性与准确性难两全的问题,提高了识别性能。

2 空间目标图像特征提取与降维

2.1 HOG特征提取

2005年,文献[9]提出HOG特征,充分利用了图像的局部梯度幅值和方向的特征值[9,10]。HOG特征可以很好地表征目标的轮廓信息和局部细节特征,准确率高,对光照、姿态、距离等因素的变化具有较强的鲁棒性[11,12]。根据空间目标的图像特性和背景特点,本文确定对空间目标进行HOG特征提取,提取过程如下:

(1)计算各像素点的梯度方向和幅值:用梯度算子求各像素的横向和纵向梯度,分别设为和,则像素处的梯度方向和幅值分别为

(2)将图像划分为细胞和块,并设定各自的尺寸,图像中的像素组成细胞,细胞组成块,合理组织块的结构对目标识别的准确性和实时性有重要影响。HOG的方向数设为,将360°平均分成份,每个方向数对应一个角度区间,对细胞内各像素的梯度幅值在各角度区间上加权投票,完成细胞梯度直方图的建立,得到一个维向量。然后将每个块内个细胞得到的向量进行级联,得到块的维梯度向量。

(3)对各块特征向量归一化,级联各块特征向量得到图像的HOG特征,并对HOG特征向量归一化。

2.2 SR特征降维

基于HOG特征的目标识别准确率高,但特征维度也高,速度慢,分类器性能弱,主要是因为特征中存在冗余,要解决计算量大与准确率高的矛盾,就需要进行降维[13]。谱回归是流形学习中典型的降维方法,它先进行图的谱分析,再对数据进行回归处理,所以被称为谱回归,简记为SR。SR将学习嵌入函数的问题转移到了回归模型中,使得有效计算和正则化应用都变得十分容易,其降维过程如下[14,15]:

(2)选择权值:

(3)特征分解: 构造特征方程为

(4)正则最小二乘法及SR嵌入: SR算法通过求解最小二乘问题得到高维向低维映射的投影矩阵,正则化最小二乘问题如式(5)所示

如果在RKHS中求嵌入函数,第(4)步可以换成下列形式

(5)正则核最小二乘法及KSR嵌入: KSR算法将最小二乘问题转换为正则核最小二乘问题的求解:

3 基于BP神经网络的目标分类识别

3.1 BP神经网络原理

BP神经网络是基于误差反向传播算法的多层前馈神经网络,由RUMELHART和McCLELLAND在1985年提出。BP网络将样本的输入输出问题转化为非线性优化问题,利用输出误差估计前一层误差,逐层反传,至输入层,按照梯度下降法不断修正各层权值,直至误差达到设定值。只要有足够多的隐含层和隐含节点,BP网络就可以逼近任意的非线性函数,它运行速度快,学习能力强,容错能力强,具有较高的分辨率[16,17]。

BP神经网络由输入层、隐含层、输出层构成,学习过程由信号的正向传播与误差的反向传播组成[18]。

(1)信号正向传播: 输入信号从输入层经过隐层,传向输出层,该过程中网络权值固定不变,每一层神经元的状态只影响下一层神经元的状态,若在输出层得不到预期的输出,那么系统转向误差信号的传播。

(2)误差反向传播: 误差信号为实际输出与期望输出的差,它从输出端传向隐层,再到输入层,该过程中网络权值根据反馈进行调节,通过权值的不断调整,网络的实际输出值越来越接近期望输出值。权值不断修正的过程,就是网络的学习训练过程,该过程一直持续到误差达到设定值,或学习次数达到设定值。

3.2 BP神经网络分类器的设计

BP神经网络分类器的设计,包括输入层的设计、隐含层的设计、输出层的设计以及初始权值、神经元激励函数、学习速率、期望误差等参数的设计。构建BP神经网络的步骤如下:

(1)设计输入层: 输入节点等于提取的图像特征维数,本文根据降维后的特征维数,选择实际的输入节点。

(2)设计隐含层:

(a)隐层数: 增加隐层数可以提高网络的泛化性能,降低误差,提高识别率,但也使网络复杂化,训练时间增加。本文在对比降维效果时使用3层神经网络,选择BP神经网络最佳参数时,对3层和4层网络都进行了分析。

(b)隐层神经元数: 隐层神经元数的选择要在一个合理的范围内,数量太少,易陷入局部最小,训练出的网络有可能不收敛,识别率低,容错性差;数量过多,导致网络结构复杂,泛化能力变差,训练时间增加,实时性降低,识别率也降低。实际应用中参考经验公式:

通过调整隐层神经元数来提高误差精度比增加隐层数更容易观察和控制,所以,一般情况下先考虑改变隐层的神经元数量,在单隐层不能满足要求时,再考虑增加隐层数,但隐层的数量最好不超过两层。理论上已经证明:具有Sigmoid非线性函数的3层BP神经网络可以以任意的精度去逼近任何的连续函数。

(3)设计输出层: 实际使用时直接把待识别目标的种类数作为神经网络的输出节点数。本文随机选择了1类航天器进行实验研究,输出节点数设置为1,多类目标识别同理。

(4)用均匀分布随机数将权值和阈值初始化:

非线性系统中,权值和阈值的初始化十分重要,如果初始权值过大,会使加权后的输入进入激活函数的饱和区,导致调节停滞。随机化在BP模型的实现中尤为重要,如果不对权值进行随机初始化处理,可能导致学习过程不收敛。本文中,初始权值取(-1,1)之间的随机数。

(5)给定神经网络的输入样本、期望输出、神经元激励函数和学习速率: 激励函数对网络收敛效果有很大影响,神经元每个输入对应一个特定权值,输入的加权和决定该神经元的激活状态;学习速率决定每次训练的权值变化量,太高导致网络震荡,太低导致收敛慢,训练时间长,一般情况下,倾向于选择较小的学习速率以保证系统的稳定性。本文期望误差设为,隐层神经元传递函数为正切型函数tansig,输出层传递函数为线性函数purelin,训练函数为LM,学习次数设为5000。

(6)对样本数据进行训练: 将样本数据读入,得到隐含层和输出层的实际输出,计算隐含层误差和输出层误差,如果误差达不到设定值,将误差信号沿原路线返回,并根据误差反馈对网络权值和阈值进行修正,重复上述过程,直到误差达到设定值,或者学习次数达到设定值,训练结束。

4 实验结果及分析

本文按照特征提取,特征降维,目标分类训练和识别的顺序进行实验。在确定特征降维方案时,使用3层BP神经网络从实时性和准确性角度对比不同算法的优缺点,选择性能较好的降维方法和特征维数;在确定降维方案的基础上,分别使用3层和4层BP神经网络对分类器参数进行选择,确定效果较好的识别方案。

(1)HOG特征提取: 目标选择Mars Express航天器,如图1所示,利用3ds max制作角度和姿态不同的640×480像素的训练样本794幅,测试样本864幅。HOG特征提取参数设置如表1所示,训练样本特征提取时间为83.219139 s,测试样本为95.940454 s。

图1 Mars Express 航天器

表1 HOG特征提取参数设置

(2)特征降维: 162维的HOG特征维数过多,造成冗余,对分类器的设计很不利,现将维数降至5~40维不等,通过降维和识别的综合效果,选择较好的降维算法和维度。各方法降维时间如表2所示,PCA计算简单,运算效率高,降维时间最短;流行学习算法LPP和SR,因为要解稠密矩阵,所以LPP降维时间较长,SR利用正则化最小二乘法避免了求解稠密矩阵,故而时间较短;KPCA, KSR, KLPP由于要将数据变换到核空间,所以降维时间都比较长,并且依次增加。

使用3层网络对降维后的数据进行训练识别,对比各降维算法性能,隐层神经元数按照式(9)取值,训练和识别情况如图2所示,图2(a)为训练时间,图2(b)为训练误差,图2(c)为识别时间,图2(d)为识别率:训练时间和识别时间都随特征维数的增加而增加,各方法差别不大;训练误差随特征维数的增加而减小,按照KPCA, KSR, KLPP, SR, LPP, PCA的顺序,误差依次增大;识别率随特征维数的增加而增加,30维后趋于平缓,按照KPCA, KSR, KLPP, SR, LPP, PCA的顺序,识别率依次减小。

综合降维特性,训练性能和识别效果,SR在实时性、准确性、网络性能等各方面达到协调,将SR与BP神经网络结合使用,能达到较好的识别效果;当维数超过30维时,识别率的上升趋于平缓,但训练时间和识别时间还在增加,综合考虑实时性和准确性,选择30维的HOG特征进行后续的训练识别。

(3)BP神经网络训练识别: 使用BP网络进行识别时,隐层数和隐层神经元数对识别的精度和时间都有很大影响。当使用3层网络时,根据式(8)可知,隐层神经元数取值范围是7~16,将精度设置为,训练和识别性能随隐层神经元数的变化如图3所示,图3(a)为训练时间,图3(b)为训练误差,图3(c)为识别时间,图3(d)为识别率:随着隐层神经元数的增加,训练时间持续增加,训练误差先降低后升高,识别时间先减少后增加,识别率先增加后降低。这说明隐层神经元数并不是越多越好,会出现一个极值,经过多次试验,选择最佳神经元数,才能保证最好的识别效果。3层网络在神经元数为13时,效果最好,识别率达到100%。

4层网络时,隐层1和隐层2的神经元依次取7~16之间的数,进行组合。若精度保持,识别率基本都接近100%,为了更清晰地反映隐层神经元数对识别效果的影响,将精度调整为。如图4所示,图4(a)为训练时间,图4(b)为训练误

表2 各方法降维时间(s)

图2 基于HOG特征的目标训练与识别

图3 基于HOG特征的3层网络训练与识别

差,图4(c)为识别时间,图4(d)为识别率:训练时间随神经元数的增加而增加,识别时间规律性不大,训练误差随神经元数的增加先减少后增加,识别率随神经元数的增加先增大后减小,出现了极大值。4层网络在隐层神经元数为(11, 9)时,效果最好,识别率为100%。

综合上述实验结果,在隐层数方面:4层网络比3层网络更稳定,识别率也更高;在隐层神经元数方面:一定范围内,随着隐层神经元数的增加,识别率在增加,但是超过一定的限度,识别率会随隐层神经元数的增加而降低,出现极大值。本节确定分类器方案为:4层网络,隐层1神经元为11,隐层2神经元为9。

5 结束语

本文针对BP神经网络难以有效训练识别高维特征空间目标的问题,将SR特征降维与BP神经网络配合使用,利用SR算法将高维特征降至低维,再输入到BP网络进行训练,提高了分类器性能。实验结果表明:该方法克服了传统降维方法实时性和准确性难两全的问题,降维和识别特性优于PCA, KPCA, LPP, KLPP等常用降维方法,特别适用于高维特征目标识别。

图4 基于HOG特征的4层网络训练与识别

[1] 乔俊飞, 李淼, 刘江. 一种神经网络快速修剪算法[J]. 电子学报, 2010, 38(4): 830-834.

QIAO Junfei, LI Miao, and LIU Jiang. A fast pruning algorithm for neural network[J]., 2010, 38(4): 830-834.

[2] 曾岳, 冯大政. 一种基于加权变形的2DPCA的人脸特征提取方法[J]. 电子与信息学报, 2011, 33(4): 769-774. doi: 10.3724/ SP.J.1146.2010.01003.

ZENG Yue and FENG Dazheng. An algorithm of feature extraction of face based on the weighted variation of 2DPC[J].&, 2011, 33(4): 769-774. doi: 10.3724/SP.J.1146.2010.01003.

[3] 马原, 吕群波, 刘扬阳. 基于主成分变换的图像稀疏度估计方法[J]. 物理学报, 2013, 62(20): 204202-1-204202-11. doi: 10.7498/aps.62.204202.

MA Yuan, Lü Qunbo, and LIU Yangyang. Image sparsity evaluation based on principle component analysis[J]., 2013, 62(20): 204202-1-204202-11. doi: 10.7498/aps.62.204202.

[4] 孙韶媛, 李琳娜, 赵海涛. 采用KPCA和BP神经网络的单目车载红外图像深度估计[J]. 红外与激光工程, 2013, 42(9): 2348-2352.

SUN Shaoyuan, LI Linna, and ZHAO Haitao. Depth estimation from monocular vehicle infrared images based on KPCA and BP neural network[J]., 2013, 42(9): 2348-2352.

[5] ZHENG W, LAI J, and YUEN P C. Penalized preimage learning in kernel principal component analysis[J]., 2010, 21(4): 551-570.

[6] ZHANG L M, QIAO L S, and CHEN S C. Graph-optimized locality preserving projections[J]., 2010, 43(6): 1993-2002.

[7] 张志伟, 杨帆, 夏克文, 等. 一种有监督的LPP算法及其在人脸识别中的应用[J]. 电子与信息学报, 2008, 30(3): 539-541.

ZHANG Zhiwei, YANG Fan, XIA Kewen,. A supervised LPP algorithm and its application to face recognition[J].&, 2008, 30(3): 539-541.

[8] 于攀, 叶俊勇. 基于谱回归和核空间最近邻的基因表达数据分类[J]. 电子学报, 2011, 39(8): 1955-1960.

YU Pan and YE Junyong. Spectral regression and kernel space K-nearest neighbor for classification of gene expression data[J]., 2011, 39(8): 1955-1960.

[9] NARNEET D and BILL T. Histograms of oriented gradients for human detection[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, San Diego, 2005: 886-893.

[10] SU X, LIN W, ZHENG X,. A new local-main gradient orientation HOG and contour differences based algorithm for object classification[C]. IEEE International Symposium on Circuits and Systems, Beijing, 2013: 2892-2895.

[11] 罗会兰, 钟宝康, 孔繁胜. 带权分块压缩感知的预测目标跟踪算法[J]. 电子与信息学报, 2015, 37(5): 1160-1166. doi: 10.11999/JEIT140997.

LUO Huilan, ZHONG Baokang, and KONG Fansheng. Tracking using weighted block compressed sensing and location prediction[J].&, 2015, 37(5): 1160-1166. doi: 10.11999/ JEIT140997.

[12] 韩贵金, 朱虹. 基于HOG和颜色特征融合的人体姿态估计[J]. 模式识别与人工智能, 2014, 27(9): 769-777.

HAN Guijin and ZHU Hong. Human pose estimation based on fusion of HOG and color feature[J]., 2014, 27(9): 769-777.

[13] 宋丹, 唐林波, 赵保军. 基于仿射梯度方向直方图特征的目标识别算法[J]. 电子与信息学报, 2013, 35(6): 1428-1434. doi: 10.3724/SP.J.1146.2012.01241.

SONG Dan, TANG Linbo, and ZHAO Baojun. The object recognition algorithm based on affine histogram of oriented gradient[J].&, 2013, 35(6): 1428-1434. doi: 10.3724/SP.J.1146.2012.01241.

[14] 姜伟, 张晶, 扬炳儒. 自适应正则化核二维判别分析[J]. 模式识别与人工智能, 2014, 27(12): 1089-1097.

JIANG Wei, ZHANG Jing, and YANG Bingru. Adaptive regularization based kernel two dimensional discriminant analysis[J]., 2014, 27(12): 1089-1097.

[15] 孙丽娟. 基于谱回归的人脸识别的研究[D]. [硕士论文], 重庆大学, 2009.

SUN Lijuan. Research on the face recognition based on spectral regression[D]. [Master dissertation], Chongqing University, 2009.

[16] 潘炜深, 金连文, 冯子勇. 基于多尺度梯度及深度神经网络的汉字识别[J]. 北京航空航天大学学报, 2015, 41(4): 751-756. doi: 10.13700/j.bh. 1001-5965.2014.0499.

PAN W S, JIN L W, and FENG Z Y. Recognition of Chinese characters based on multi-scale gradient and deep neural network[J]., 2015, 41(4): 751-756. doi: 10.13700/j.bh. 1001-5965.2014.0499.

[17] 张海燕, 李欣, 田书峰. 基于BP神经网络的仿真线设计及其FPGA实现[J]. 电子与信息学报, 2007, 29(5): 1262-1265.

ZHANG Haiyan, LI Xin, and TIAN Shufeng. Simulation line design and its FPGA realization based on BP neural network[J].&, 2007, 29(5): 1262-1265.

[18] 孙琼, 王光飞. 基于BP神经网络与HMM的驾驶状态识别[C]. 2014中国汽车工程学会年会, 上海, 2014: 430-432.

SUN Qiong and WANG Guangfei. Driving state recognition based on BP neural network and HMM[C]. 2014 SAE-China Congress & Exhibition, Shanghai, 2014: 430-432.

邬战军: 男,1971年生,高级工程师,研究方向为光纤传感技术.

牛 敏: 女,1991年生,硕士生,研究方向为目标检测与识别.

许 冰: 女,1984年生,博士生,研究方向为目标检测与识别.


Research on Recognition Method Based on Spectral Regression and Back Propagation Neural Network

WU Zhanjun NIU Min XU Bing NIU Yanxiong GENG Tianqi ZHANG Fan MAN Da

(Department of Instrument Science and Opto-Electronics Engineering, Beihang University, Beijing 100191, China)

When using Back Propagation (BP) neural network to recognize the spatial target, the high dimensional input features induce the complexity of the network structure and the poor performance of the recognition. In this paper, a new recognition method based on Spectral Regression (SR) feature dimension reduction and BP neural network is proposed for the above difficulties. Firstly, the HOG features are extracted from the spatial object, and then the feature dimensions are reduced by SR. Finally, the BP classifier is used to train the data. Experimental results show that the proposed method is better than the traditional dimension reduction methods such as PCA, KPCA, LPP, KLPP in dimension reduction and recognition, which can juggle real-time and accuracy, thus improving the recognition performance.

Target recognition; Back Propagation (BP) neural network; Spectral Regression (SR); Feature dimension reduction

TP391.4

A

1009-5896(2016)04-0978-07

10.11999/JEIT150781

2015-06-29;改回日期:2015-11-09;网络出版:2015-12-18

牛敏 niuminbuaa@163.com

猜你喜欢
隐层降维识别率
混动成为降维打击的实力 东风风神皓极
基于RTD可编程逻辑门的n变量函数实现算法
基于BP神经网络学习算法的图像压缩技术研究
基于类图像处理与向量化的大数据脚本攻击智能检测
降维打击
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于RDPSO结构优化的三隐层BP神经网络水质预测模型及应用
提升高速公路MTC二次抓拍车牌识别率方案研究
代价敏感正则化有限记忆多隐层在线序列极限学习机及图像识别应用
高速公路机电日常维护中车牌识别率分析系统的应用