基于改进Hu矩的字母手势识别

2013-07-17 06:42黄国范李英

赤峰学院学报·自然科学版 2013年5期

关键词：特征向量手势字母

黄国范,李英

（南阳师范学院软件学院，河南南阳473061）

基于改进Hu矩的字母手势识别

黄国范,李英

（南阳师范学院软件学院，河南南阳473061）

本文提出了一种字母手势识别方法，首先对字母手势图像进行预处理，然后用模板匹配的方法进行识别，并用改进的Hu矩作为特征向量进行测试样本与模板之间的相似性度量，以降低噪声的干扰.实验结果表明，我们的方法显著地提高了识别准确率.

字母手势；模板匹配；Hu矩；特征提取

1 引言

随着人机交互技术的发展，手语识别逐渐成为人们研究的热点.手语识别可以分为基于视觉的识别系统和基于数据手套的识别系统[1]，基于视觉的手语识别方法交互方便自然，更能反映机器模拟人类视觉的功能，是目前手语识别的研究重点.

目前手语识别的方法主要有模板匹配法、隐马尔可夫模型法以及神经网络法等[2]，其中模板匹配的方法多用于静态手语的识别中.模板匹配的方法是首先进行手势训练建立模板库,然后提取出特征向量与模板之间进行相似度计算来进行匹配[3].模板匹配方法的优点是实现起来比较简单，计算复杂度较低，但对噪声非常敏感.

本文提出了一种改进H u矩的方法对字母手势识别进行研究，采用模板匹配的方法进行识别，选取经典H u矩作为特征向量，并对其进行改进，通过增加一个位置加权函数来提高质心附近区域所占比重，以降低噪声的干扰.实验结果表明，我们的方法可显著地提高识别准确率.

2 字母手势图像的预处理

在字母手势图像的预处理中，主要是进行灰度变换、平滑、二值化等处理，为下一步的识别作好准备工作.

2.1 图像的灰度化

我们通过数码相机采集到的图像，是24位真彩色的J P E G图像.该格式的图像数据量很大，直接进行识别会大大影响识别的速度.为此，必须首先进行处理，将其转换为灰度图像.我们的做法是将彩色图像的R G B三个颜色分量分别提取出来，然后再根据下式进行灰度转换：

将图像中的每一像素点都用上式进行计算，然后再写回图像就可以完成图像的灰度化.

2.2 图像的平滑

图像的平滑主要是减少图像的噪声.图像平滑的方法主要有两类：一种是全局处理，另一种是局部处理.全局处理是对噪声图像的整体或大的块进行校正平滑处理，计算量相当大.而局部处理是使用局部算子，对某一像素的局部小邻域的像素加以运算，其优点是计算效率比较高，可以多个像素并行处理[4].我们所采用的图像平滑方法是局部平均法.局部平均法的算法思想是将图像中某个像素的灰度值和它周围相邻的八个像素的灰度值相加，然后再求取平均值，以此来作为新图中该像素的灰度值.

2.3 图像的二值化

图像的二值化是将灰度图像转换为只有两个灰度值即黑白图像的过程.最简单的图像二值化方法可以通过设定阈值来完成，即当该点的像素值大于设定的阈值时，以“0”标志；否则以“1”标志.这样二值化后，图像变换为：

由此可见，二值化的关键取决于设定的阈值T.

在我们的字母手势图像识别系统中，采用的图像背景为黑色，比较单一，与手的灰度相差较大.因此，我们所采用的阈值的设定方法是：先拍摄一张背景图片，然后取背景图像的平均灰度值，再乘以一个系数，便可得到二值化的阈值T：T=B*2.5

其中，B为背景图像的平均灰度值.

3 字母手势图像的识别

3.1 模板匹配

模板匹配的常用方法有两种：全局匹配和特征匹配.全局匹配是把待测图像中的每一像素点和模板图像中的每一像素点都进行匹配，以对待测图像进行分类识别.而特征匹配则是提取出图像的某些特征，如直方图、点、线等几何特征进行匹配[3].为了降低计算复杂度，我们的字母手势识别系统选用特征匹配的方法，从待测手势图像和模板手势图像中分别提取出具有代表性的特征向量进行描述，然后对二者的特征向量进行相似度计算即可进行字母手势图像的识别.但是，提取的特征向量一定要具有代表性，要具有较小的信息冗余度，而且还要保证对旋转、位移、缩放等保持不变性.在我们的识别系统中，选用了比较经典的不变矩即H u矩的特征提取方法，并对其进行了改进，来降低图像噪声的干扰.

3.2 特征向量的提取

基于H u矩的特征提取方法是一种比较经典的方法，满足图像对于平移、旋转、尺度等的不变性，在手势识别中已得到了广泛的应用.

对于一幅二维数字图像f(x,y)，设定其分辨率为M×N，其p＋q阶原点矩mpq定义如下：

其p＋q阶中心矩μpq定义为：

其中(x,y)表示物体图像上的点，(x,y)是物体的质心，其中=m10/m00y=m01/m00.

用原点矩或中心矩直接作为图像的特征向量进行识别，不能保证同时具有平移、旋转和尺度不变性.为此，M.K. H u在1961年提出了不变矩的概念，并给出了具有平移、旋转和比例不变性的七个H u不变矩的表达式，七个H u不变矩是由二阶和三阶中心矩的线性组合构成的[5].

由上述中心矩的定义可以看出，在求和过程中，由于质心附近区域的信息占据的比重很小，远离质心的噪声会严重地干扰质心附近区域的重要信息，影响到识别的效果.尽管零阶矩不存在这种现象，但七个H u不变矩中高阶矩是决定性因素，所以，用七个H u不变矩作为特征向量来进行识别，仅靠零阶矩提供的微小的信息量来降低噪声的干扰，来保证较高的识别准确率还是远远不够的.为此，提出了一个位置加权函数来提高质心附近区域所占的比重.该函数定义如下：

其中，α是一个可调整参数，可以通过在训练阶段采用自动优化算法找出其最佳取值.

通过位置加权函数对物体的p＋q阶矩m'pq改进如下：

中心矩μ'pq改进为：

p＋q阶规范化中心矩定义为：

其中γ=(p+q)/2+1且p+q≥2

利用二阶和三阶规范化中心矩可以导出改进后的7个H u不变矩组：

在我们的识别系统中，使用改进后的7个H u不变矩作为图像的特征向量，形成特征空间（M1,M2,M3,M4,M5,M6,M7）来进行字母手势图像的识别.

3.3 字母手势的识别

我们的字母手势识别系统分为两个阶段：训练阶段和识别阶段.在进行字母手势识别之前，首先要进行手势训练以得到手势的原型模板，建立手势模板库，以用于测试集上的手势识别.在训练阶段，我们采用k_m e a n s聚类算法进行手势训练，得到字母手势模板；在识别阶段，对待识别的字母手势样本，用改进的H u矩作为特征向量来进行测试样本与模板之间的相似性度量，从而识别各种待测手势.k-m e a n s算法是基于划分的聚类方法，应用非常广泛，具有算法简单且收敛速度快的特点.k-m e a n s算法以K为参数,把N个对象分为K个簇,以使簇内对象具有较高的相似度,而簇间对象的相似度较低[6].

在我们的字母手势识别系统中，使用了高清数码相机进行字母手势图像的采集，对30个字母手势，我们分别对不同演示者进行取照，每个字母手势取照10张，共形成300张图片库，其中选择前5套作为训练样本进行训练产生手势模板，其余的5套作为测试样本来进行识别.

实验结果显示，在这5组测试集上，平均识别准确率为91.34%.文献[7]中，基于H u矩的平均识别率仅为87.5%.由此可见，我们的方法显著地提高了字母手势识别的准确率.

表3.1 测试集上的字母手势识别结果

4 结束语

在我们的中国手指语字母手势识别算法中，采用了模板匹配的方法，选取经典Hu矩作为特征向量来进行测试样本与模板之间的相似性度量，并对其进行改进，来降低噪声的干扰，实验结果表明，我们的方法较好地实现了字母手势的识别.

〔1〕Pavlovic V,Sharma R,Huang T.Visual Interpretation of Hand Gestures for Human-computer Interaction:AReview[J].IEEEPAMI,1997,19(7):156.

〔2〕张良国,吴江琴,高文，等.基于Hausdorff距离的手势识别[J].中国图象图形学报,2002,7(11):2.

〔3〕何斌,马天予，等.VisualC++数字图像处理(第二版)[M].北京:人民邮电出版社,2002.146-148.

〔4〕李俊山，等.数字图像处理[M].北京:清华大学出版社, 2006.125-128.

〔5〕M.Hu．Visual Pattern Recognition By Moment Invariants[J]．IEEE Transaction on Information Theory,1962.8 (2):179-187．

〔6〕Treshansky A,Mc Graw R.An overview of clustering algorithms[C]//Proceedings of SPIE,The International Society for Optical Engineering,2001,4367:41-51.

〔7〕殷涛,葛元,王林泉.基于几何矩的字母手势识别算法[J].计算机工程,2004,30(18):129.

TP391

1673-260X（2013）03-0023-02