基于V-矩的图像分类算法

2014-06-01 09:31宋瑞霞王也娜孙红磊王小春齐东旭
图学学报 2014年5期
关键词:特征向量形状边界

宋瑞霞, 王也娜, 孙红磊, 王小春, 齐东旭

(1. 北方工业大学理学院,北京 100144;2. 北京林业大学理学院,北京 100083)

基于V-矩的图像分类算法

宋瑞霞1, 王也娜1, 孙红磊1, 王小春2, 齐东旭1

(1. 北方工业大学理学院,北京 100144;2. 北京林业大学理学院,北京 100083)

基于一类不仅含有连续函数,还含有间断函数的正交完备函数系——V-系统,提出相应的 V-矩函数,并将之应用到图像分类中。V-系统中基函数的间断特性,使得V-矩函数在描述含有多个闭合边界的形状时有特别的优势,这种优势表现为对这类复杂形状的特征提取更加准确。因此用 V-矩可以得到一种图像分类的有效算法。在几个通用数据库中的图像分类实验表明,本文算法较Zernike矩、不变矩和几何中心矩有更高的准确率,对噪声不敏感,特别在含有多个闭合边界的复杂形状分类问题中,本文方法优势更为显著。

图像分类;V-系统;矩函数;V-矩;区域特征

图像分类关键是对图像特征的描述,图像特征有形状、纹理、颜色等低层次特征,也有高层次的语义特征。本文研究图像的形状特征,研究对象是二值图像。一般而言,图像形状特征的描述有两种方法:一种是基于边界的方法;另一种是基于区域的方法。基于边界的方法仅针对图像的边界进行特征描述,适合于具有单一闭合边界的形状,典型的有Fourier描述子、曲率尺度空间描述子、小波描述子,形状上下文等[1-4]。而基于区域的方法是针对图像的全部区域,描述区域像素的统计分布特征,常用于描述纹理和边界都比较复杂的图像,使用最普遍的是矩的方法。如Hu不变矩、Zernike矩、Fourier-Mellin矩、Legendre矩、小波矩等广泛用于复杂形状的分类与检索[4-8], 其中Zernike矩被认为性能最佳[4]。

基于边界的方法优势体现在:仅需要形状的边界信息,计算量小,处理起来简便。对于一个具有单独闭合边界的形状,边界信息基本上能反映形状的特征,所以许多新算法(包括多特征融合的方法、度量学习的方法等),针对单独闭合边界的图像取得很高的分类准确率[9-11]。但是当形状的边界不是一条闭合曲线,而是多条闭合曲线的组合时,这些方法并不能准确得到形状的特征。此外所有基于边界的方法都依赖图像边界的提取,边界提取的质量会直接影响图像的分类结果。特别是有的图像很相似但提取的边界会相差很远,如图 1(a)、1(c)是两个视觉上很相似的图像,但它们的边界图 1(b)、1(d)却相差很远。在这种情况下,应该把图像全部区域考虑进来,用基于区域的方法更为恰当。

图1 形状相似但边界不同的图像

图像矩描述的恰是图像区域的整体特征,它和众多的描述边界特征的方法有很大的不同,它不需要提取图像边界,而是针对图像全部像素来提取图像的特征,适于处理复杂边界的图像(如商标图像、字符图像等)。然而,对于复杂边界的图像特征提取,经典的矩方法虽是常用手段,但并没有取得像简单边界图像那样高的分类准确率,甚至多个特征融合也很难取得高的分类准确率[12-13]。在图像分类问题中,无论是基于边界的方法还是基于区域的方法,描述的都是图像整体的特征,并不能刻画图像局部特征,此外颜色、纹理以及拓扑信息都没有利用,因此将形状、颜色、纹理、拓扑结构等多个特征融合是必然的发展趋势[14-15]。目前对于复杂图像的特征提取手段还不够丰富,能够准确描述图像特征的方法还不完善,因此探索新的图像特征表达方法显得尤为紧迫。

本文基于一类正交函数系——V-系统,提出一类新的正交矩——V-矩,并将之应用到图像分类问题中。V-矩相对于经典的正交矩,具有计算简单和“间断”的特性。所谓“间断”是指V-系统的基函数中含有间断函数,这在复杂边界图像的分类中有优势。因为复杂图像一般都由多个分离部分组成,它的边界不是单个封闭边界,表现为“间断”,这时利用 V-矩的“间断”特性可以比较准确的提取图像特征,下文的实验表明了 V-矩对复杂图像的分类性能。

需要指出的是,Li等[16-17]把V-系统和球面调和函数相结合,得到了V-系统的旋转不变矩,并成功地应用到3D模型检索。本文定义的V-矩函数与文献[16-17]定义的V-系统的旋转不变矩是不同的,尽管两者都是从V-系统出发。

1 V-系统

k次V-系统是一类L2[0,1]空间的完备正交函数系,它由分段k次多项式组成,其详细构造过程可查阅文献[18],这里仅给出本文用到的1次V-系统的数学表达。

1次V-系统的前4个函数的数学表达式为:从第5个函数开始,是由 V21(x),V22(x)经压缩、平移、复制得到的,其一般表达式为:

为下文讨论的方便,我们把1次V-系统的基函数按顺序排列为:

2 V-矩及其图像分类算法

本节基于 V-系统来定义一类新的矩函数——V-矩。

几何矩是典型的矩函数代表,需从几何矩出发。熟知区域G上的函数 (,)fxy的 p+q阶几何矩的数学表达为:

在几何矩基础上建立的Hu不变矩,它的应用价值已在多个领域得到证实。值得注意的是,几何矩是基于函数系{xi, i= 0,1,2,…}建立的,这个函数系有两个不利因素:①它不是正交的,即几何矩不是正交矩,而正交性是一般信号处理、特别是信号特征提取中的非常重要的性质,正交性使得在表达信号时有最小的冗余度,并且可以通过逆变换重构原信息;②随着几何矩阶数的增加,其运算复杂度将急剧增加,这在运算效率上是不利的。

考虑到上述1次V-系统的特性,它有正交性、并且基函数是分段1次多项式,计算复杂度低,因此如果定义相应的V-矩函数,那么可以克服几何矩的上述两个缺憾。据此,可定义 f(x,y)的 p+q阶V-矩函数如下:

其中 Vi(x)表示 V-系统中按顺序排列的第 i个基函数,V-矩函数除具有“正交性”和“计算简单”两个特性外,它相对于连续正交矩函数(如Legendre矩),还有“间断性”这个特点,这在表达间断信号时会带来优势。

现在将V-矩用于图像的表达。如果一幅图像的亮 度 函 数 为 f(x,y), x = 0,1,… M−1, y= 0,1,… ,N −1,则它的p+q阶V-矩为:

对于一幅给定的数字图像,选择恰当的p,q,可得到图像的 V-矩特征向量由于V-系统是分组构造的,并且是按组一致收敛的,所以应该以组为单位来选择基函数构成V-矩。据此,我们称由前m组基函数构成的 V-矩为 m 阶 V-矩,即式(1)中p,q = 0,1,2,… 2m−1。图像用m阶V-矩构成的特征向量为这是一个4m维向量。

利用两个图像的 V-矩特征向量之间的欧式距离,就可以度量这两个图像间的相似度,距离越小表示两个图像越相似,并以此进行图像的分类。本文依最近邻(nearest neighbor)进行图像分类,即将查询图像归类到全部比较图像(不含查询对象本身)中距离最小的那个图像的所属类别。

若要在某个数据库中查询某个图像所属类别,首先要对数据库中每个图像进行预处理(见下节),然后计算并预存好数据库中每一个图像I的V-矩特征向量 βi。则输入图像在这个数据库中进行分类查询的流程为:

(1) 输入查询图像Q;

(2) 按下节方法进行预处理,得到归一化二值图像QA;

(3) 计算QA的V-矩特征向量 αq;

(4) 将 Q与数据库中每一幅图像进行距离比较,即计算全部的 d(αq,βi);

3 图像的预处理

对于一幅数字图像,在进行分类之前,首先对其做预处理,预处理的效果将直接影响分类的效率。预处理包括彩色图像灰度化、二值化、二值图像尺度规范化、主方向归一化。尺度规范化包括把图像的重心平移到原点、把图像的大小归一到同一个尺度,主方向归一化指的是图像的形状主轴旋转到同一个坐标轴。图像灰度化、二值化比较简单,下面给出尺度规一化及主方向规一化过程。

3.1 平移

首先将原图像区域扩充到d d× (图像目标区域不改变),其中d是原图像区域对角线的长度。这个过程是为了目标区域图像做平移及主方向旋转时不超出图像区域。

3.2 主方向归一化

由图像的K-L变换可知,具有最大特征值的特征矢量方向θ,可以根据图像的中心矩进行计算,即:

则图像的主轴就旋转到x轴了。

3.3 图像尺度归一

在上述步骤完成后,将目标图像向两个坐标轴投影,得到图像的外接矩形,将该外接矩形扩充为正方形(以矩形较长边为边长),并保持目标图像重心仍在原点。把这个正方形区域提取出来。

当图像完成上述3个步骤后,图像区域是一个正方形区域,且该正方形至少两边外切于目标图像,图像中心是坐标原点,形状主轴就是x轴,最后再把图像大小规范到128128× 就完成了全部预处理过程。

图2示意了一个图像的预处理全过程。

图2 图像预处理过程

4 图像分类实验

本文的实验数据库为通用数据库 MPEG-7-Shape-CE1-SetB、MPEG-7-Shape-CE2-SetB以及MPEG-7-Shape-CE2-SetA3,以下简称 CE1-B和CE2-B,CE2-A3。CE1-B中共包含二值图像 1400幅,明确分成70类,每类包含视觉上相似的20个形状,图3给出了部分图像例子,这个数据库的特点是图像的边界都比较简单,常用于检验基于边界的算法效率。CE2-B数据库中包含2811个纹理和边界都比较复杂的二值图像,这个数据库不像CE1有明确的视觉上相似的分类,它常用来检验基于区域的算法对复杂图像的分类能力,图4是CE2-B的图像举例。CE2-A3由3101个图像组成,其中330个图像分成30类,每类11个,同一类的图像都是由同一个图像经尺度变换或旋转变换所得,图5是其中一类。这个数据库用于检验算法对尺度和旋转变化的鲁棒性。

图3 实验数据库CE1-B中的图像举例(简单边界)

图4 实验数据库CE2-B中的图像举例(复杂边界)

图5 实验数据库CE2-A3中的一类图像(尺度和旋转变换)

由于Zernike矩已经在模式识别的很多方面表现出突出的性能,且有快速算法,故本文选择Zernike矩作为算法的比较对象,又因为 V-矩源于几何中心矩,所以本文方法也和几何中心矩做比较,Hu不变矩作为最经典的矩方法也纳入本文的比较对象。通过采用最近邻指标来评价,即考虑最接近查询对象的那个图像(不含查询对象本身)是否与查询对象属同类来计算准确率,同时也给出每个图像的平均分类时间消耗,即数据库中每一幅图像从输入到分类完成所用的平均时间。本文实验环境为:Intel(R) Xeon(R) E5620 2.40 GHz 2.39 GHz,内存8 G,64位win7操作系统,Matlab R2011a编程。

由于V-矩、Zernike矩和几何中心矩都和阶数相关,采用不同的阶数会得到不同的实验结果。为了确定实验方法中的最优阶数,可在CE2-B中进行实验,之所以选择这个数据库,是因为它是检验基于图像区域方法的通用数据库。表1给出了不同阶数的 3种矩方法的分类正确率比较(因为不变矩的定义没有阶数的概念,所以不必参与这样的比较)。从表1看出,4阶V-矩(相应的特征向量为256维)、18阶Zernike矩(相应的特征向量为100维)、6阶中心矩(相应的特征向量为28维)取得最好的正确率,因此下文的全部试验,均采用4阶 V-矩、18阶Zernike矩(用快速算法)和6阶中心矩进行比较。

表1 不同阶数的矩方法对数据库CE2-B中的分类结果比较(%)

4.1 简单图像分类实验

这个实验的数据库为通用数据库 CE1-B。实验中,1400个图像逐个查询,并依最近邻算法统计准确率,数据库中1400个图像的平均分类准确率如表2。

表2 对数据库CE1-B中图像的分类比较

这个实验用于检验算法对简单形状的分类能力。从实验结果看,V-矩的准确率最高,比位于第2位的Zernike矩高出近5个百分点。从运行速度上看,不变矩最快,V-矩列第2位。不变矩的特征向量只有7维,所以快捷;虽然V-矩特征向量的维数比其他几个方法的维数都高,但由于V-矩仅涉及线性运算,所以运算速度也较快;而几何矩随着阶数的增加,运算复杂度会急剧增加,这里虽然仅用了6阶,但速度已经受到很大影响;Zernike矩用的是快速算法,所以速度与V-矩相当。

4.2 复杂图像分类实验

这个实验的数据库为通用数据库CE2-B,数据库虽没有明确的分类,但MPEG-7 (Moving Pictures Experts Group)选了其中的682个图像,将它们人工地分成了10类,每类个数分别为68,248,22,28,17,22,45,145,45,42,图 6是分类的部分图像举例,每类仅列出了4个图像(每一列的图像是同一类的)。由于这个数据库中的图像纹理、形状都比较复杂,这种人工分类会有很强的主观性,但很多文献都依据这个分类来检验自己的算法。本文也根据这个分类来检验本文算法。

图6 复杂图像分类实验中的10类图像举例(每一列的图像是同一类的)

将分好类的682个图像的每一个分别作为查询对象,在数据库 CE2-B中逐个查询,依最近邻算法统计数据库的平均分类准确率,实验结果如表3。由于数据库的图像非常复杂,分类主观性又很强,所以几个算法的实验结果都不十分理想,但本文算法相对而言仍取得最好的分类准确率,比位于第2位的Zernike矩高出10个多百分点。运算速度本文算法排在第3位,但与排第2位的Zernike矩不相上下。比较表2和表3,本文算法在复杂边界的图像分类中优势更加显著。

表3 对数据库CE2-B中的图像分类比较

4.3 旋转和尺度变化的图像分类实验

使用通用数据库CE2-A3来检验算法对尺度和旋转变化的鲁棒性,数据库中共有3101个图像, 其中含有旋转和尺度变化的330个图像分成30类,将这 330个图像分别作为查询对象在数据库CE2-A3中逐个查询,其分类结果见表 4。熟知Zernike矩是具有旋转不变性的,但它对尺度的变化比较敏感,因此在这个实验中,依然是本文算法取得最好的实验结果,这说明本文算法对旋转和尺度的变化均比较鲁棒。由于这个库中的图像大小不一致,所以V-矩预处理花时间较多,影响了运行速度,仅快于几何中心矩。

表4 对数据库CE2-A3中的图像分类比较

4.4 在商标数据库中的分类实验

为了验证本文算法在较大数据库中的分类性能,需设计一个商标分类实验。这个实验中的初始实验数据库含有 10300幅各不相同的真实商标图像,商标图像基本上是多边界的,图7给出了部分商标例子。另外设计了450个商标(45类,每类10个相似图像)加入初始数据库,这样数据库共有10750个图像。从10750个图像中查询这450个,每个查询对象都要和10750个图像一一比较,统计这450个图像的平均分类准确率,实验结果如表5。实验结果看出V-矩取得了最高准确率,但速度依然仅快于几何中心矩。

图7 商标数据库中的部分图像

表5 对商标库中的图像分类比较

4.5 噪声图像分类实验

在CE2-B的全部图像中加入不同级别的噪声,形成新的数据库,采用4.2节相同的实验方法,其分类结果见表6。这里“椒盐a”指的是密度为a的椒盐噪声,“高斯b”指的是均值为0、方差为b的高斯噪声。从实验结果看,本文算法取得了最好的抗噪能力,说明本文算法对噪声不敏感。

表6 对数据库CE2-B中加噪声的图像分类比较

5 结 论

本文采用正交函数系 V-系统对应的 V-矩,对形状提取区域特征,得到图像的分类算法。充分利用V-系统的“间断”特性,发挥它对含有分离边界的图像的表达优势,通过简单边界的通用数据库CE1和复杂边界的通用数据库 CE2以及较大商标数据库的实验,说明了用V-矩可以得到比Zernike矩、不变矩以及几何中心矩更高的分类效率,尤其是对复杂边界图像优势更显著。实验结果也表明本文算法对尺度和旋转变换比较鲁棒,对噪声不敏感,具有较强的抗噪能力。从时间效率上来说,由于本文算法仅涉及一次多项式的运算,从实验结果看,它与有快速算法的Zernike矩的速度相当。

鉴于目前图像分类算法的趋势,后续研究应将V-矩与其它特征(如拓扑结构、颜色纹理特征、局部特征等)相结合,争取更好的效率。

需要注意的是,文献[21]中的V-描述子与本文的V-矩有本质的不同,基于V-系统定义的V-描述子,是通过对图像的边界作正交V-变换,在频域得到图像的边界特征,特征向量由V-描述子构成。而V-矩则是对图像全部区域进行特征描述,特征向量由 V-矩函数构成,得到的是图像区域的整体特征描述。

[1] Zhang Dengsheng, Lu Guojun. A Comparison of shape retrieval using fourier descriptors and short-time fourier descriptors [C]//Proceedings of 2nd IEEE Pacific Rim Conference on Multimedia, 2001: 855-860.

[2] Abbasi S, Mokhtarian F, Kittler J. Curvature scale space image in shape similarity retrieval [J]. Multimedia Systems, 1999, 7(6): 467-476.

[3] Belongie S, Malik J, Puzicha J. Shape matching and object recognition using shape contexts [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2002, 24(4): 509-522.

[4] Zhang Dengsheng, Lu Guojun. Review of shape representation and description techniques [J]. Pattern Recognition, 2004, 37(1): 1-19.

[5] Hu M K. Visual pattern recognition by moment invariants [J]. IRE Transactions on Information Theory. 1962, 8(2): 179-187.

[6] Kim W Y, Kim Y S. A region-based shape descriptor using Zernike moments [J]. Signal Processing: Image Communication, 2000, 16(1-2): 95-102.

[7] Zhang Hui, Shu Huazhong, Han Guoniu, Coatrieux G, Luo Limin, Coatrieux J L. Blurred image recognition by Legendre moment invariants [J]. IEEE Transactions on Image Processing, 2010, 19(3): 596-611.

[8] Guo Liqiang, Zhu Ming. Quaternion Fourier-Mellin moments for color images [J]. Pattern Ecognition, 2011, 44(2): 187-195.

[9] Bai Xiang, Liu Wenyu, Tu Zhuowen. Integrating contour and skeleton for shape classification [C]//Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on. IEEE, 2009: 360-367.

[10] Direkoğlu C, Nixon M S. Shape classification via image-based multiscale description [J]. Pattern Recognition, 2011, 44(9): 2134-2146.

[11] Bai Xiang, Yang Xingwei, Latecki L J, Liu Wenyu, Tu Zhuowen. Learning context-sensitive shape similarity by graph transduction [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(5): 861-874.

[12] Pun C M, Lin Cong. Shape classification using contour simplification and tangent function [J]. International Journal of Circuits, Systems and Signal Processing, 2010, 1(4): 17-24.

[13] Song Jianguo, Lu Xiaoqing, Ling Haibin, Wang Xiao, Tang Zhi. Envelope extraction for composite shapes for shape retrieval [C]//Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012: 1932-1935.

[14] Qi Heng, Li Keqiu, Shen Yanming, Qu Wenyu. An effective solution for trademark image retrieval by combining shape description and feature matching [J]. Pattern Recognition, 2010, (43): 2017-2027.

[15] Bagheri M A, Gao Qigang, Escalera S. Logo recognition based on the Dempster-Shafer fusion of multiple classifiers [M]. Springer Berlin Heidelberg, 2013: 1-12.

[16] Li Zongmin, Men Xiuping, Liu Yujie, Li Hua. 3D model retrieval based on V-system rotation invariant moments [C]//Proceedings of Third International Conference on Natural Computation, 2007: 565-569.

[17] Liu Yujie, Yao Xiaolan, Li Zongmin, Men Xiuping. 3D model retrieval based on the V-system invariant moment [C]//International Conference on Shape Modeling and Applications, 2008: 249-250.

[18] Song Ruixia, Ma Hui, Wang Tianjun, Qi Dongxu. A new class of complete orthogonal V-system and its applications [J]. Communication on Pure and Applied Analysis, 2007, 6(3): 853-871.

[19] Huang Chao, Yang Lihua, Qi Dongxu. A new class of multi-wavelet bases: V-system [J]. Acta Mathematica Sinica, English Series, 2012, 28(1): 105-120.

[20] 齐东旭,宋瑞霞,李 坚. 非连续正交函数[M]. 北京:科学出版社, 2011: 144-279.

[21] 宋瑞霞, 陈 曦, 孙红磊, 姚东星, 薛冠辰. 形状群组的分类和检索算法[J]. 计算机辅助设计与图形学学报, 2011, 23(12): 1981-1986.

An Image Classification Method Based on V-moments

Song Ruixia1, Wang Yena1, Sun Honglei1, Wang Xiaochun2, Qi Dongxu1
(1. College of Sciences, North China University of Technology, Beijing 100144, China; 2. College of Sciences, Beijing Forestry University, Beijing 100083, China)

The V-system is a complete orthogonal function system which is composed of both continuous function and functions with discontinuities. In this paper, we propose a new kind of V-moment functions based on the V-system, and apply them on image classification. Due to the discontinuity of the basis functions of the V-system, the V-moment functions have distinct advantages in describing the shapes with a plurality of closed boundaries. When they are applied on feature extraction for complex shapes, the extracted features are fairly accurate, thus effective image classification technique can be obtained using the V-moment functions. Experiment of image classification is conducted on several benchmark databases. The results show that the proposed method has higher accuracy than Zernike moments, invariant moments and geometric center moments, and it is not sensitive to noise. Especially, the proposed method presents obvious advantage when it is applied to classify complex shapes with several closed boundaries.

image classification; V-system; moment function; V-moments; regional feature

TP 391

A

2095-302X(2014)05-0747-08

2014-01-09;定稿日期:2014-05-06

国家“973”重点基础研究发展规划资助项目(2011CB302400);国家自然科学基金资助项目(61272026);北京市自然基金重点资助项目暨北京市教委科技发展计划重点资助项目(KZ201210009011)

宋瑞霞(1963–),女,江西南昌人,教授,硕士。主要研究方向为计算机图形学、模式识别。E-mail:songrx@ncut.edu.cn

猜你喜欢
特征向量形状边界
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
拓展阅读的边界
探索太阳系的边界
意大利边界穿越之家
一类三阶矩阵特征向量的特殊求法
你的形状
论中立的帮助行为之可罚边界
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
火眼金睛