稀疏自编码和Softmax回归的快速高效特征学习*

2017-05-10 13:00徐德荣陈秀宏
传感器与微系统 2017年5期
关键词:特征提取正确率编码

徐德荣, 陈秀宏, 田 进

(江南大学 数字媒体学院,江苏 无锡 214122)

稀疏自编码和Softmax回归的快速高效特征学习*

徐德荣, 陈秀宏, 田 进

(江南大学 数字媒体学院,江苏 无锡 214122)

针对特征学习效果与时间平衡问题,提出了一种快速高效的特征学习方法。将稀疏自编码和Softmax回归组合成一个新的特征提取模型,在提取原始图像潜在信息的基础上,利用多分类器返回值可以反映输入信息的相似程度的特点,快速高效的学习利于分类的特征向量。鉴于标签信息已知,该算法在图像分类效果上明显优于几种典型的特征学习方法。为了使所提算法具有更好的泛化能力,回归模型的损失函数中加入了L2范数防止过拟合,同时,采用随机梯度下降的方法得到模型的最优参数。在4个标准数据集上的测试结果表明该算法是有效可行的。

稀疏自编码; Softmax回归; 特征学习; 图像分类; 随机梯度下降

0 引 言

在数字图像处理与计算机视觉领域,图像分类是一项重要的研究课题,其关键技术在于特征提取[1]。图像特征提取,主要分为2个层次,一层是底层特征提取,另一层是高层特征提取。底层特征[2~4]一般分为颜色特征、纹理特征[2]和形状特征[3]。

一般而言,底层特征具有良好的鲁棒性,但是由于是人工设计的,因此,易受语义误差影响。为了解决这一问题,一些学者尝试通过机器学习的方法来提取高层次的特征。近年来,深度学习方法[5]已经开始应用于提取图像的高层次的语义信息,并取得了很好的效果。与底层特征提取方法相比,深度学习方法能够自动提取语义层次上的特征,但是,它也存在一定的缺点,例如:模型层数过多导致耗时过多。

为了解决上述特征学习算法的局限性,且文献[6]指出输入特征经过分类器所返回的返回值能够用于检测输入特征的相似程度,本文提出了一种基于稀疏自编码和Softmax回归的有监督特征学习(sparse autoencoder softmax regression,SAESR)算法。

1 典型的特征学习算法

1.1 尺度不变特征转换及其延伸

由于尺度不变特征转换(SIFT)特征在处理旋转、亮度变化、尺度缩放以及仿射变换等方面明显优于其他特征,所以SIFT描述子一直是图像识别领域的研究热点。但是,为了匹配两个物体之间的相似程度需要计算它们对应层次的SIFT特征,这将导致实现过程很繁琐。因此,文献[7]提出了一种特征词袋(bag of feature,BOF)算法用于解决上述在图像识别中的困难。

尽管BOF方法能够成功计算局部特征,但是,其计算方式紊乱,导致其在一些图像分类实验中的判别能力降低。为了弥补BOF的局限性,文献[8,9]提出了一种多分辨率版本的BOF,该方法通过组合不同分辨率上的BOFs来解决无序并且有不同数目的特征集之间的分类问题。综上,SIFT及其延伸算法已经成功应用于图像识别领域,但是它们都是局部特征,由于是人工设计且没有考虑标签信息,容易导致语义误差问题出现。

1.2 深层网络学习

深度学习[10]是机器学习的一个重要的研究领域,深度学习是一个多层次的学习,其实质就是通过建立、模拟人脑的分层结构,对外部输入数据进行从低级到高级的特征提取,从而能够解释外部数据。近年来,深度学习开始广泛应用于学习数字对象的表示。文献[11,16]提出使用深度信念网络(DBN)来构造深度学习模型,从而来学习数据的高层次的表示。对于深度学习结构而言,深度学习模型可以比浅层学习模型学习出更本质的语义特征,如深度信念网络和卷积神经网络。但是,训练深度学习模型是一个困难且艰巨的任务,模型层数过多将导致处理时间过长。

2 SAESR算法

2.1 稀疏自编码用于图像预处理

稀疏自编码器可以提取原始数据的潜在信息,降低数据维度,有助于最终提高预测的正确率。本文将其用于图像预处理,从而获得图像更本质的特征。

假设训练数据集为

{(x(1),y(1)),…,(x(m),y(m))}

将其输入具有n个神经元的隐含层,通过一个非线性激活函数 (如Sigmoid函数等)后输出一个含m个神经元的可视层,由式(1)、式(2)、式(3)得到相应的映射a(2)∈Rn×1,a(3)∈Rm×1,即

(1)

(2)

hW,b(x)=a(3)=f(z(3))

(3)

(4)

式中sl为第l层的节点数(不包括偏置单元);nl为网络层数;第二项为惩罚项,防止模型过拟合。

为了迫使隐藏神经元发挥最大的潜力,学习到真正的特征,可以在自编码的基础上增加稀疏性约束条件,即稀疏自编码。此时,稀疏自编码重构误差函数为

(5)

本文采用BP算法[12,17,20]和L-BFGS优化算法[13]来训练稀疏自编码模型,获得最优权重矩阵W(1)和偏置向量b(1)。

将原始数据输入稀疏自编码模型后所提取的潜在信息用于后续操作,表示如下

{(z(1),y(1)),…,(z(m),y(m))}

(6)

2.2Softmax回归组合图像特征

因为输入特征经过分类器所返回的预测值能够用于检测输入特征的相似程度,所以,本文根据分类器所返回的预测值组成一个新的特征,用于后续的图像分类。该特征由预测值组成,具有低的复杂性。同时,它由稀疏自编码提取的潜在信息经分类器得到,具有良好的语义表示能力。为了使该特征学习算法具有好的泛化能力,本文在Softmax回归模型的代价函数中加入L2范数。同时,采用随机梯度下降的方法得到Softmax回归模型的最优参数。

与稀疏自编码预处理之后得到的潜在信息式(6)相对应的Softmax回归函数为

(7)

由式(7)可知,样本Z(i)属于第j类的概率为

p(y(i)=j|z(i);θ)=φj

(8)

从而有

(9)

式中I(S)为一个指示函数,当S为真时,I(S)=1;否则,为0。对应的似然函数为

(10)

(11)

取使其达到最大的参数θ作为最优估计量,但是,如果仅最大化式(11),则易导致模型过拟合。为此,本文在该函数中添加一个L2范数作为惩罚项以抑制过拟合。这时,Softmax回归模型的代价函数为

(12)

式中 第一项用于测试模型拟合训练数据的程度;第二项则用来平滑模型,抑制过拟合问题。

为了使所提算法具有更好的泛化能力,本文在Softmax回归模型的损失函数中加入L2范数防止过拟合,同时采用随机梯度下降的方法得到特征学习模型的最优参数。因为这个权重衰减项使代价函数变成了严格的凸函数,可以保证梯度下降算法收敛到全局最优解。由Softmax回归模型的代价函数可知θj的梯度为

(13)

则参数迭代更新为

(14)

式中 α为学习率;φj=p(y(i)=j|z(i);θ)。

参数更新算法如下:

输出:最佳模型参数θj

fort=1toTdo

fori=1tomdo

根据式(14)计算θ中的各值;

end

end

返回最佳参数θ

3 实现结果与分析

3.1 相关参数选择

在每个数据集中,本文从每一类样本中随机选择30 %的图像作为测试样本,而剩余的用于训练特征提取模型。在BOFs算法中,首先从每一张图像中提取128维的SIFT特征,然后通过基于k-means的BOW模型计算出K维的新特征。本文尝试了对K 进行不同的取值(K=512,1 024,2 048,3 072),综合考虑4个数据集上根据BOFs模型所得分类平均正确率和算法运算时间,本文采用了K=2 048用于后续分类效果比较。在SAESR,SAE,和DBN算法中,每一张图像都将缩放成大小为64×64的灰度图,最后将每张图像的灰度图以一行或者一列表示,用来代表原始图像的输入特征。

在SAE算法和SAESR的预处理阶段,实验设定隐含层数n=1 000,稀疏性参数ρ=0.1,惩罚项系数λ=1×10-3,稀疏惩罚因子的权重β=3。在SAESR算法的特征组合阶段,学习率α可以通过线性搜索的方法获得,而各个数据集(3Ddatase,ETH-8,RGB-D,NECAnimalDataset)对应的回归模型的正则化系数λ则是通过实验分别取值为10-4,10-5,10-6,10-5。在DBN算法中,设置了其具有4个隐含层,分别为1 024,512,256,64,在其预训练和微调阶段,设置其相应的迭代次数均为150。

3.2 图像分类平均正确率比较

为了评价所提算法的性能好坏,本文将该特征提取算法应用在4个标准数据集(3Ddataset,ETH-8,RGB-D,NECAnimalDataset)上进行测试,并用K最近邻分类器计算它们的平均正确率(averageprecision)。图像分类的平均正确率越高表明所提取的特征越能反应图像之间的相似程度。

由图2可以发现,SAESR算法在3Ddataset,ETH-8,RGB-D,NECAnimalDataset4个数据集上的分类平均正确率明显优于其他3种算法。SAESR算法在特征提取阶段将标签信息用于更新Softmax回归模型,所以在分类效果上会优于SAE算法。BOFs算法只是提取了底层特征,且没有利用标签信息,所以它的分类效果不是很突出。至于DBN算法,因为模型构造能力和参数调试能力有限,图示效果为实验最优值。

图1 算法(BOF,DBN,SAE,SAESR)在标准数据集上用K最近邻分类的平均正确率

3.3 特征提取时间比较

对于大部分在线应用而言,执行算法所需时间越短越好。图像识别大致可以分为两个阶段,特征提取和图像分类。这意味着一个具有低复杂性的特征提取算法更适用于在线应用。例如BOFs,需要提取SIFT特征并计算BOFs特征,且每张图像一般都具有几百甚至几千个SIFT特征,所以其特征提取是相对耗时的。表1给出了4种算法提取每张图像特征所需的时间。

表1 相关算法特征提取时间 μs/张

4 结束语

本文提出了一种新的有深度的特征学习算法,考虑到标签信息,该方法在分类正确率上明显优于典型的特征提取算法BOFs和DBN,而标签信息完全可以通过现有的标签技术来获取。另外,本文采用了L-BFGS和随机梯度下降的方法分别来更新稀疏自编码器和Softmax回归模型的参数,从而获得一个具有更好泛化能力的特征学习模型。

[1] Li C H,Ho H H,Kuo B C,et al.A semi-supervised feature extraction based on supervised and fuzzy-based linear discriminant analysis for hyperspectral image classification[J].Appl Math,2015,9(1L):81-87.

[2] Bagri N,Johari P K.A comparative study on feature extraction using texture and shape for content-based image retrieval[J].International Journal of Advanced Science and Technology,2015,80:41-52.

[3] Hong B W,Soatto S.Shape matching using multiscale integral invariants[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(1):151-160.

[4] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[5] Schmidhuber J.Deep learning in neural networks:An overview[J].

Neural Networks,2015,61:85-117.

[6] Wang G,Hoiem D,Forsyth D.Learning image similarity from flick groups using fast kernel machines[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2177-2188.

[7] Daoudi E M,Tadonki C.3D shape retrieval using bag-of-feature method basing on local codebooks in image and signal proces-sing[M].Berlin Heidelberg: Springer,2012:391-396.

[8] Grauman K,Darrell T.The pyramid match kernel:Discriminative classification with sets of image features[C]∥The Tenth IEEE International Conference on Computer Vision,ICCV 2005,IEEE,2005:1458-1465.

[9] Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]∥2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,IEEE,2006:2169-2178.

[10] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

[11] Nair V,Hinton G E.3D object recognition with deep belief net-s[C]∥Advances in Neural Information Processing Systems,2009:1339-1347.

[12] 赵 映,陈小平.BP神经网络在红外CO2体积分数测量中的应用[J].传感器与微系统,2015,34(3):151-153.

[13] Liu D C,Nocedal J.On the limited memory BFGS method for large scale optimization[J].Mathematical Programming,1989,45(1-3):503-528.

[14] Zinkevich M,Weimer M,Li L,et al.Parallelized stochastic gra-dient descent[C]∥Advances in Neural Information Processing Systems,2010:2595-2603.

[15] Chu C,Kim S K,Lin Y A,et al.Map-reduce for machine learning on multicore[J]. Advances in Neural Information Processing Systems,2007,19:281.

[16] 阳 武,李 倩,赵继生,等.深度信念网络在故障指示器检测中的应用[J].传感器与微系统,2015,34(7):155-157.

[17] 刘 萍,简家文,陈志芸,等.伪逆BP神经网络在汽车尾气检测中的应用[J].传感器与微系统,2016,35(3):157-159.

徐德荣(1993- ),男,硕士研究生,主要研究方向为数字图像处理。

陈秀宏(1964-),男,博士后,教授,主要从事模式识别,图像处理,人工智能领域研究工作。

Fast and efficient feature learning algorithm based on sparse autoencoder and Softmax regression*

XU De-rong, CHEN Xiu-hong, TIAN Jin

(School of Digital Media,Jiangnan University,Wuxi 214122,China)

Aiming at equilibrium problem between the effectiveness and time of feature learning, a fast and efficient feature learning method is proposed.A new feature extraction model is combined with sparse autoencoder and softmax regression.After extracting the potential information of original image,the model take advantage of return value of multiple classifier which can respond the similarity of input information,learning feature vector for classification fastly and efficiently.In view of the label information is known,this algorithm is better than several typical feature learning methods in the image classification.In order to make the proposed algorithm has better generalization ability,addL2-norm into loss function of regression model to prevent overfitting.At the same time, use stochastic gradient descent method to get the optimal parameters of the model.The test results on four standard data sets show that the proposed algorithm is feasible and effective.

sparse autoencoder; Softmax regression; feature learning; image classification; stochastic gradient descent

10.13873/J.1000—9787(2017)05—0055—04

2016—06—18

国家自然科学基金资助项目(61373055)

TP 391.4

A

1000—9787(2017)05—0055—04

猜你喜欢
特征提取正确率编码
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
门诊分诊服务态度与正确率对护患关系的影响
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
基于Gazebo仿真环境的ORB特征提取与比对的研究
Genome and healthcare
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
生意
品管圈活动在提高介入手术安全核查正确率中的应用