一种判别极端学习的相关反馈图像检索方法

2016-12-23 00:57黄晓冬孙亮刘胜蓝

西安交通大学学报 2016年8期

关键词：隐层学习机分类器

黄晓冬,孙亮,刘胜蓝

(1.解放军信息工程大学信息系统工程学院,450001,郑州;2.大连理工大学电子信息与电气工程学部,116024,大连)

一种判别极端学习的相关反馈图像检索方法

黄晓冬1,孙亮1,刘胜蓝2

(1.解放军信息工程大学信息系统工程学院,450001,郑州;2.大连理工大学电子信息与电气工程学部,116024,大连)

针对基于支持向量机(SVM)的相关反馈图像检索方法计算复杂度高、缺乏判别能力以及图像特征提取不充分的问题,提出一种基于判别极端学习的相关反馈图像检索(DELM)方法。在图像特征提取阶段,通过连接图像的颜色、纹理及边缘直方图实现图像的特征提取,解决了以往多数检索方法仅使用单一图像特征造成的图像描述不充分的问题;在检索的反馈阶段,将最大边际准则(MMC)引入到极端学习机中,通过分析极端学习机隐层空间的类内离散度和类间离散度得到包含判别信息的分类模型,并给出降维和不降维两种形式,以提高相关反馈图像检索系统的检索能力。DELM方法能有效应用于基于内容的图像检索中,并显著提高图像检索的性能。实验结果表明,DELM方法和采用SVM、ELM和最小类别方差ELM的方法相比,在Corel-1K数据集下检索平均准确率分别提高了11.06%、5.28%和6.40%。

图像检索;相关反馈;支持向量机;极端学习机;判别信息

近年来,随着电子信息技术及互联网图像资源的迅速发展,人们对图像检索的需求越来越强烈。基于内容的图像检索方法(content-based image retrieval,CBIR)主要包含特征提取、高维特征向量降维、相似度匹配以及检索结果分类等几个环节,往往存在维度灾难和语义鸿沟等问题。目前主要通过维数约简方法来解决维度灾难问题,而针对语义鸿沟问题,目前主流的方法是采用相关反馈技术(relevance feedback,RF),利用人的主观认知能力提高CBIR系统检索的准确性。

区别于传统的CBIR只进行一次分类,RF-CBIR系统需要根据反馈回来的信息进行再学习。目前已有大量的相关反馈方法用于改善图像检索的性能。He等人提出一种半监督学习方法[1],在相关反馈中较好地保持了查询图像的局部空间信息。为解决排序问题,Kundu等人提出了一种基于图的相关反馈图像检索机制[2],提高了检索准确率。此外,基于支持向量机(support vector machine,SVM)的主动学习算法也被用于RF-CBIR中,如半监督的SVM批处理主动学习算法[3]、集成的SVM学习机[4]等。然而,由于RF-CBIR中有标签的样本数量很少,因此基于SVM的算法很难获得令人满意的分类结果。

近年来,基于极端学习机(extreme learning machine,ELM)的方法在高维数据的处理分类中得到了广泛应用。Huang等人证明了通过随机增加激活函数作为节点,SLFNs可以近似于任意的连续目标函数[5]。基于此,他们又提出了增量ELM算法[6]和凸增量ELM算法[7]。文献[8]提出的鲁棒的ELM算法改善了离群点问题对ELM算法精度的影响,但是没有充分利用未标记样本。文献[9]提出了一种基于图的半监督ELM算法,提高了ELM的泛化能力。除了上述关于ELM的理论改进之外,一些基于ELM方法的应用也相继提出。文献[10]提出一种鲁棒的激活函数(robust activation function,RAF),该方法将Gaussian核函数中的欧氏距离转化为余弦度量,避免了离群点对核函数的影响,提高了ELM算法的性能,并应用于人脸识别中。文献[11]提出一种基于ELM的RF-CBIR系统框架,检索性能明显优于基于SVM的算法,但是该方法没有利用数据的类判别信息。为处理人体运动识别中的分类问题,最小类别方差ELM算法(minimum class variance ELM,MCVELM)[12]将线性判决分析(linear discriminant analysis,LDA)引入到ELM隐层的特征值降维中,保证类内离散度最小来实现降维。基于此方法的启发,并考虑到LDA容易出现小样本问题,本文将最大边际准则(maximum margin criterion,MMC)[13]引入到ELM中,提出一种包含判别信息的ELM算法(discriminative ELM,DELM)。该算法通过分析ELM隐层特征空间中的类内离散度和类间离散度得到了一种判别分类模型,增强了分类器的判别能力。实验结果表明,本文算法能够有效应用于图像检索,取得了较好的检索结果,同时避免了小样本问题。

1 ELM理论

(1)

式中:vj=[vj1,vj2,…,vjN]T为连接网络第j个隐层节点和输入节点的输入权值;βj=[βj1,βj2,…,βjm]T为连接网络第j个隐层节点和输出节点的输出权值;bj为第j个隐层节点的偏置值。

式(1)可以写成矩阵形式O=Gβ,则网络隐层输出矩阵为

图1 单隐层前馈神经网络

(2)

(3)

(4)

式(4)可以利用梯度下降算法求解。由式(4)可知,SLFNs网络的解可通过线性系统T=Gβ的最小二乘解得到β。

当网络输出节点选择一个线性激活函数时,β可以通过β=G†T计算,其中G†=(GTG)-1GT是GT的MP广义逆矩阵。G†可以利用奇异值分解法和最小二乘法计算。同时,为防止过拟合现象,希望求解的权值尽可能小,因此ELM的优化模型可以用下式表示

(5)

式中:ξi=[ξi,1,ξi,2,…,ξi,m]T是m个输出节点关于训练样本xi的训练误差向量。式(5)可以通过拉格朗日方法转化为无约束最优化问题求解β。

ELM算法可以概述如下:

(2)根据激活函数计算隐层输出矩阵G;

(3)计算网络输出权值β=G†T。

2 基于判别极端学习机的相关反馈图像检索算法

2.1 LDA及MMC的优化模型

(6)

MMC中2个不同类的距离d(mi,mj)定义为

(7)

(8)

2.2 判别极端学习机(DELM)

传统的ELM直接利用隐层输出矩阵G计算输出权值β。实际上,在ELM的隐层特征空间中有许多非常重要的结构。MCVELM算法[12]在ELM空间中只对训练数据的类内离散度矩阵求最小化,与此对应,本文同时考虑最小化类内离散度,最大化类间离散度来构造一个基于ELM的分类器。

(9)

(10)

根据式(10)得到DELM分类器的输出函数为

(11)

(12)

根据式(12)得到带降维的DELM分类器的输出函数为

(13)

2.3 基于DELM的反馈算法

在CBIR系统中基于SVM的相关反馈方法已经得到广泛应用,然而,当SVM中特征维数非常大时引起的过拟合问题却使系统性能不令人满意。此外,SVM需要产生大量的支持向量,导致分类的时间复杂度增加。为了解决上述问题,本文针对CBIR系统提出了基于DELM的相关反馈方法。

在RF-CBIR系统中,用户可以对上一步的检索图像进行标记。通过将检索图像作为训练样本再学习,可以得到一个基于DELM分类器的二分类学习算法。给定一个反复变换的样本集(xi,ti),xi∈RD表示包含一幅图像的颜色、纹理、形状特征的特征向量,ti是xi的标签,ti∈[1,-1],DELM分类器的输出函数为f(xi)=(f1(xi),…,fm(xi))。然后,构造一个基于DELM算法的分类器,把剩余图像分成相关类和不相关类。基于此原理,经过几次反馈后,依据与查询图像的关联度将图像进行排序可以得到更好的结果。具体步骤如下:

(1)利用传统的图像检索算法对查询样例进行检索,得到前N幅图像;

(2)通过用户标注,将这N幅图像分为两类,相关的标记为正例集合U+,不相关的标记为负例集合U-;

(4)利用式(11)或(13)构造基于DELM算法的分类器;

(5)计算数据集中每幅图像的输出向量,通过选择分类器f(xi)中输出向量的第一个值得到与查询图像的相似距离,因此,每幅图像的得分Ii可以表示为Ii=f1(xi);

(6)依据图像的得分进行排序,并返回最新的检索结果。

选择Sigmoid函数作为ELM的激活函数。上述算法过程与基于SVM的相关反馈框架[15]十分相似,但是由于利用了ELM分类器,该算法比基于SVM的相关反馈要快几千倍,并且在完成相同的任务时性能表现更好。实验结果阐明了算法的有效性。图2给出了基于DELM的RF-CBIR系统工作流程图。

图2 基于DELM的RF-CBIR系统工作流程图

3 实验结果及分析

3.1 实验设置

本实验采用的图像数据集为Corel-1K、Corel-5K和Corel-10K。Corel-1K包含10类总计1 000张图片,有汽车、恐龙、食物等等。Corel-5K和Corel-10K数据集比Corel-1K更大。这3个数据集的基本信息如表1所示。

表1 实验数据集分布

表2 图像特征描述子的维数

3.2 实验结果及分析

本实验的数据集中的所有图片都轮流作为查询图片。用于评价数据集的查准率和查全率的定义与文献[18]一致。

表3为N=20时采用4种方法对2种特征在Corel-1K数据集上的检索准确率比较。通过表3可以看到,在Corel-1K数据集中,多数情况下DELM要比SVM、ELM和MCVELM的性能更好,这主要是因为在DELM空间中图像的类别能保持较好的结构。本文发现一个比较有意思的结果是MSD的检索结果要优于FD1,这说明一个好的特征描述子对提高图像检索性能十分重要,达到较高的查准率所需要的反馈次数也更少。由于基于MSD的检索结果非常相似,因此很难对基于MSD特征的相关反馈方法给进行评价,所以表4和表5只列出FD1特征的检索结果来评价不同的相关反馈算法。

通过表3～5可以看到,第一次相关反馈的结果更利于评价相关反馈方法的性能。因此,在N为20、30、40、50,反馈次数为1时,给出不同数据集上基于FD1特征的不同方法的查准-查全率曲线,如图3所示。从图3可以看出:由于查找范围与查全率是正相关的,因此随着查全率的增加,参与反馈的样本数增多,相关反馈效果越来越好,但是检索平均准确率降低,这是因为检索准确率和查全率成反比;DELM的效率和MCVELM相似,主要原因是这2种方法在实现降维时都有着相似的处理过程。DELM中降维的时间复杂度为O(D3),这是比ELM多出的额外时间,因此DELM需要花费更多的时间来得到反馈函数,但是这一点在图像特征的维数不大(小于500)时的影响非常小。

表3 N=20时采用2种特征对4种方法在Corel-1K数据集上的检索准确率比较

注:P、P1、P2、P3、P4分别表示原始图像检索准确率和经过1、2、3、4次相关反馈后的检索准确率;黑体数据为比较最优值。

表4N=20时采用4种方法对FDI特征在Corel-5K数据集上的检索准确率比较

方法P/%P1/%P2/%P3/%P4/%SVM24.7827.1229.1029.9330.35ELM24.7830.2634.1736.8139.41MCVELM24.7830.0433.7536.6638.83DELM24.7830.5134.1737.1439.73

表5N=20时采用4种方法对FDI特征在Corel-10K数据集上的检索准确率比较

方法P/%P1/%P2/%P3/%P4/%SVM23.9025.8326.8427.2727.56ELM23.9027.1230.9233.2935.68MCVELM23.9026.5830.1133.3035.77DELM23.9027.1230.8633.2635.68

(a)Corel-1K

(b)Corel-5K

(c)Corel-10K图3 反馈次数为1时在不同数据集上基于FD1特征的不同方法的查准-查全率曲线

4 结论

本文深入分析了ELM特征空间的分类结构,并针对CBIR系统的相关反馈提出了一种判别极端学习的相关反馈图像检索方法-DELM。该方法的主要优点如下:①DELM包含了隐层特征空间的类内离散度和类间离散度,增强了基于ELM的相关反馈算法的判别能力;②DELM可以根据用户需求选择是否包含降维方法,避免了小样本问题。基于标准数据集下的实验结果表明,ELM的相关方法比基于SVM的方法更有效。此外,第一次的反馈结果也说明了图像特征的提取在图像检索过程中的重要性。

[1] HE X. Incremental semi-supervised subspace learning for image retrieval [C]∥Proceedings of the 12th Annual ACM International Conference on Multimedia. New York, USA: ACM, 2004: 2-8.

[2] KUNDU M K, CHOWDHURY M, BULS R. A graph-based relevance feedback mechanism in content-based image retrieval [J]. Knowledge-Based Systems, 2015, 73: 254-264.

[3] HOI S C H, JIN R, ZHU J, et al. Semi-supervised SVM batch mode active learning for image retrieval [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2008: 1-7.

[4] WANG X Y, CHEN J W, YANG H Y. A new integrated SVM classifiers for relevance feedback content-based image retrieval using EM parameter estimation [J]. Applied Soft Computing, 2011, 11(2): 2787-2804.

[5] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications [J]. Neurocomputing, 2006, 70(1): 489-501.

[6] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes [J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.

[7] HUANG G B, CHEN L. Convex incremental extreme learning machine [J]. Neurocomputing, 2007, 70(16): 3056-3062.

[8] HORATA P, CHIEWCHANWATTAN S, SUNAT K. Robust extreme learning machine [J]. Neurocomputing, 2013, 102: 31-44.

[9] LIU S, FENG L, XIAO Y, et al. Robust activation function and its application: semisupervised kernel extreme learning method [J]. Neurocomputing, 2014, 144: 318-328.

[10]冯林, 刘胜蓝, 张晶, 等. 高维数据中鲁棒激活函数的极端学习机及线性降维 [J]. 计算机研究与发展, 2014, 51(6): 1331-1340. FENG Lin, LIU Shenglan, ZHANG Jing, et al. Robust activation function of extreme learning machine and linear dimensionality reduction in high-dimensional data [J]. Journal of Computer Research and Development, 2014, 51(6): 1331-1340.

[11]LIU S, WANG H, WU J, et al. Incorporate extreme learning machine to content-based image retrieval with relevance feedback [C]∥Proceeding of the 11th World Congress on Intelligent Control and Automation. Piscataway, NJ, USA: IEEE, 2014: 1010-1013.

[12]IOSIFIDIS A, TEFAS A, PITAS I. Minimum class variance extreme learning machine for human action recognition [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(11): 1968-1979.

[13]LI H, JIANG T, ZHANG K. Efficient and robust feature extraction by maximum margin criterion [J]. IEEE Transactions on Neural Networks, 2006, 17(1): 157-165.

[14]HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multiclass classification [J]. IEEE Transactions on Systems, Man, and Cybernetics: Part B Cybernetics, 2012, 42(2): 513-529.

[15]张磊, 林福宗. 基于支持向量机的相关反馈图像检索算法 [J]. 清华大学学报(自然科学版), 2002, 42(1): 80-83. ZHANG Lei, LIN Fuzong. Support vector machine based relevance feedback algorithm in image retrieval [J]. Journal of Tsinghua University (Science and Technology), 2002, 42(1): 80-83.

[16]OJALA T, PIETIKINEN M, MENPT. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

[17]LIU G H, LI Z Y, ZHANG L, et al. Image retrieval based on micro-structure descriptor [J]. Pattern Recognition, 2011, 44(9): 2123-2133.

[18]LIU G H, YANG J Y, LI Z Y. Content-based image retrieval using computational visual attention model [J]. Pattern Recognition, 2015, 48(8): 2554-2566.

[本刊相关文献链接]

周远,周玉生,刘权,等.一种适用于图像拼接的DSIFT算法研究.2015,49(9):84-90.[doi:10.7652/xjtuxb201509015]

毛彦斌,张选平,杨晓刚.伪DNA密码图像加密算法研究.2015,49(9):91-98.[doi:10.7652/xjtuxb201509016]

刘凯,张立民,孙永威,等.利用深度玻尔兹曼机与典型相关分析的自动图像标注算法.2015,49(6):33-38.[doi:10.7652/xjtuxb201506006]

符均,牟轩沁,季文博.亮色分离的饱和图像校正方法.2014,48(10):101-107.[doi:10.7652/xjtuxb201410016]

岳桂华,滕奇志,何小海,等.岩心三维图像修复算法.2014,48(9):37-42.[doi:10.7652/xjtuxb201409007]

任茂栋,梁晋,唐正宗,等.数字图像相关法中的优化插值滤波器.2014,48(7):65-70.[doi:10.7652/xjtuxb201407012]

靳峰,冯大政.利用空间序列描述子的快速准确的图像配准算法.2014,48(6):19-24.[doi:10.7652/xjtuxb201406004]

张琳彦,朱利.以多幅图像非几何约束线段匹配重建建筑物外立面三维线段模型.2014,48(4):15-19+25.[doi:10.7652/xjtuxb201404003]

袁飞,朱利,张磊.利用超图图割的图像共分割算法.2014,48(2):20-24.[doi:10.7652/xjtuxb201402004]

王芳梅,范虹,YiWANG.利用改进CV模型连续水平集算法的核磁共振乳腺图像分割.2014,48(2):38-43.[doi:10.7652/xjtuxb201402007]

马元魁,张树生,白晓亮.用球面混合曲率图像比较三角网格模型的相似性.2012,46(5):97-101.[doi:10.7652/xjtuxb 201205017]

史金钢,齐春.一种双约束稀疏模型图像修复算法.2012,46(2):6-10.[doi:10.7652/xjtuxb201202002]

吴攀超,王宗义,林欣堂.采用局部差分模型描述的彩色图像配准技术.2011,45(10):30-37.[doi:10.7652/xjtuxb201110 006]

徐胜军,韩九强,赵亮,等.用于图像分割的局部区域能量最小化算法.2011,45(8):7-12.[doi:10.7652/xjtuxb201108 002]

罗涛,牟轩沁.一种胸部X射线摄影图像中结节检测的多尺度匹配滤波器.2011,45(4):30-35.[doi:10.7652/xjtuxb 201104006]

赵海峰,姚丽莎,罗斌.改进的人工鱼群算法和Powell法结合的医学图像配准.2011,45(4):46-52.[doi:10.7652/xjtuxb201104009]

陈蓉,孙剑,徐宗本.彩色图像分割中基于图上半监督学习算法研究.2011,45(2):11-14.[doi:10.7652/xjtuxb201102003]

(编辑刘杨)

A Retrieval Method of Relevance Feedback Images Based on Discriminative Extreme Learning

HUANG Xiaodong1,SUN Liang1,LIU Shenglan2

(1. Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450001, China; 2. Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian 116024, China)

A novel retrieval method of relevance feedback images based on discriminative extreme learning, named DELM, is proposed to concern the high computational complexity, low discriminant ability and insufficient image feature extraction of content-based image retrieval (CBIR) with the relevance feedback (RF) methods based on support vector machine (SVM). The proposed method extracts image features in the phase of image feature extraction through color, texture and edge histogram of the image to solve the problem that image feature extraction of the existing methods that based on single feature is insufficient. A maximum margin criterion (MMC) is introduced to extreme learning machine (ELM) in the phase of retrieval feedback. A classification model including discriminative information is obtained through analyzing discrete degrees within and between scatters of feature space in ELM hidden layer, and two versions of DELM are proposed to improve the retrieval performance of RF based image retrieval system, that is, a dimension reduction free based version and a dimension reduction based version. The DELM method is effectively applied to CBIR, and significantly improves the quality of retrieval performance. Experimental results on Corel-1K dataset and comparisons with the methods using SVM, ELM, and minimum class variance ELM (MCVELM) show that the average retrieval precision of the DELM method increases by about 11.06%, 5.28% and 6.40%, respectively.

image retrieval; relevance feedback; support vector machine; extreme learning machine; discriminative information

10.7652/xjtuxb201608016

2016-03-20。作者简介:黄晓冬(1991—),男,硕士生;孙亮(通信作者),男,教授。基金项目:国家自然科学基金资助项目(61372172)。

时间:2016-06-28

http:∥www.cnki.net/kcms/detail/61.1069.T.20160628.2026.002.html

TP391

0253-987X(2016)08-0096-07

一种判别极端学习的相关反馈图像检索方法

1 ELM理论

2 基于判别极端学习机的相关反馈图像检索算法

3 实验结果及分析

4 结 论

4 结论