基于Kinect和变形雅可比-傅里叶矩的手势识别*

2016-08-22 12:11刘亚瑞杨文璐

传感器与微系统 2016年7期

关键词：感器傅里叶识别率

刘亚瑞，杨文璐

(上海海事大学信息工程学院，上海 201306)

基于Kinect和变形雅可比-傅里叶矩的手势识别*

刘亚瑞，杨文璐

(上海海事大学信息工程学院，上海 201306)

为了使人机交互变得更加自然，提出利用Kinect体感器获取手势深度图像;利用变形雅可比—傅里叶矩对手势图像进行特征提取;利用最小欧氏距离分类器进行建模、分类，实现手势识别。用Kinect体感器获取手部深度数据流，深度数据结合阈值分割法，可以有效地实现手势的分割。变形雅可比—傅里叶矩是一种不变矩，不变矩具有灰度、平移、旋转和尺度不变性，适合用于多畸变不变图像的特征提取。实验对5种手势进行了测试，平均识别率为95.2 %，实验结果表明：该方法具有较高的识别率。

Kinect；变形雅可比—傅里叶矩；手势识别；自然人机交互

0 引言

在智能计算机的快速发展下，传统的人机交互方式已经不能满足人类的需求，人类从而提出了自然交互界面(natural interactive interface)。自然人机交互主要通过手势、语音和姿势来实现。其中，通过视觉通道让计算机感知人的意图和行为是自然人机交互的重要追求目标，而手势是一种最直观的表达方式，所以，在自然人机交互的研究中手势识别技术显得非常重要。

手势识别技术主要包括基于数据手套的手势识别技术和基于视觉的手势识别技术，其中，基于数据手套的手势识别结构复杂、成本昂贵，极大地限制了自然人机交互的进行[1,2]。基于视觉的手势识别技术[3,4]需要进行手势分割，在复杂背景下手势分割易受周围环境(如背景、光照等)的影响。

在手势识别方面的研究，已经有了一些研究成果，但是他们的研究都存在一些不足。Liu N等人做出的手势识别系统可以识别出26个字母[5,6],缺点是系统复杂；Apivan Tuntakurn等人用Kinect体感器自带的骨骼流建立了手势识别医学软件[7]，但是该系统具有局限性，要求人的身体必须全部在Kinect体感器视野范围内；Li Y在特定手势识别中采用角点检测和凸性检测来识别手势，缺点是识别率易受周围环境的影响，无法识别复杂背景下的手势[8～11]。

基于前述研究的不足，本文提出了一种新的手势识别的方法。使用Kinect体感器来获取图像，然后利用变形雅可比—傅里叶矩[12，13]进行特征提取，可以比较准确地识别出人手表示的数字。

1 手势分割

1.1 手势识别流程

手势识别的具体流程如图1所示。

图1 手势识别流程图Fig 1 Flow chart of gesture recognition

1.2 深度图像变为彩色图像

手势分割是将手从图片背景中完整地分离出来。本文通过使用Kinect体感器来获取图像并进行手势分割。Kinect体感器可以获取彩色数据流、深度数据流和骨骼数据流。深度数据是指Kinect体感器视野范围内的物体到Kinect体感器的三维空间距离。

深度数据流提供了一个结构，该结构中每个像素用16位表示，高13位表示人体到Kinect体感器的距离(mm)，低3位表示Kinect体感器追踪到的玩家索引，将每个像素值右移3位即可得到真实距离。当测试者站在体感器前方，将手放在身体的前方时，可以获取到手到Kinect体感器的距离。

使用深度数据流可以获取深度图像，同时通过变换可以将深度图像变为彩色图像。本文中利用深度信息，将深度图像变为黑白两种颜色的图像。图像变换过程中，用到深度数据，根据深度值的不同着以不同的颜色。本方法中根据深度值的不同，分别着黑白两种颜色。距离Kinect体感器800～900 mm处的像素点着为黑色，其余的像素点着以白色。深度图像就可以变为黑白两种颜色的图像，如图2所示

图2 图像变换Fig 2 Image transformation

1.3 手势分割

首先将Kinect体感器放在水平桌面上，使测试者坐在距离Kinect体感器1 m处的椅子上；然后使用阈值分割法，实现手势的分割。本实验使用800 mm和900 mm作为阈值。手距离Kinect体感器的距离为L，当 800

图3 手势图片Fig 3 Gestures images

1.4 图像预处理

首先将分割后的RGB图像变为灰度图像，如图4(a)所示。分割后的手势图像中存在一些孤立的噪声点，孤立噪声点的存在对特征提取和识别会产生很大的影响。需要将噪声点去除，降低噪声点对图像的影响。本文选用中值滤波，中值滤波不仅可以去除噪声，而且可以保持图像的边缘特性，不会使图像产生显著的模糊，中值滤波后的图像如图4(b)所示。

最后对图像进行边缘检测。因为边缘检测可以大幅度地减少数据量，有利于后面进行特征提取。本文中边缘检测用的是Canny算子，边缘检测后的图像如图4(c)所示。

图4 图像预处理Fig 4 Image preprocessing

2 特征提取

2.1 变形雅可比—傅里叶矩的定义

2003年，阿木古楞等人提出了雅可比—傅里叶矩的理论，此矩具有灰度、尺度、平移和旋转等多畸变不变性，适合用于多畸变不变图像的特征提取。但是此矩是定义在极坐标下的，相关计算需要进行极坐标变换，需要大量的计算。后来，阿木古楞等人又提出了变形雅可比—傅里叶矩，此矩定义在笛卡尔坐标系中[3]。

在笛卡尔坐标系中，对于二维数字图像f(x,y)求积分可以用求和来代替，变形雅可比—傅里叶矩为

(1)

式中

(2)

(3)

(4)

(5)

(6)

2.2 特征提取

本文提出使用变形雅可比—傅里叶矩进行特征提取，利用式(1)算出每个图片的66阶不变矩，如图4(c)的66阶不变矩如图5(a)所示。

从66阶不变矩的数据中可以看出，数据具有局部对称性，当将数据中共轭的数值去掉后就可以得到36阶不变矩。如图5(b)所示。

图5 图4(c)的不变矩Fig 5 Invariant moment of fig 4

计算出每种手势的不变矩的均值和方差，36阶不变矩的均值如图6(a)所示，36阶不变矩的方差如图6(b)所示。

图6 特征值参数Fig 6 Eigenvalue parameter

3 参数训练和分类

首先，用Kinect体感器采集10个人的手势，每个人做5种手势，分别表示数字1～5，每种手势采集40张图片，其中，20张做训练样本，20张用于测试。这样每种手势有200张图片做训练样本。

采集好手势图片后求出每张图片的不变矩，然后求出这200张图片不变矩的均值和方差。保存5种不变矩的均值和方差，作为参数用于测试。

本文用最小欧氏距离(见式(7))作为分类依据

(7)

式中 n的取值为36和66 ，当选择计算66阶矩时，n=66，计算36阶矩时，n=36。X表示被测试手势图片的不变矩，M表示手势j所对应的不变矩的均值，Y表示手势j所对应的不变矩的方差。求出最小距离下的j(等于1,2,3,4,5)，j表示被测试手势所表示的数字为j。

4 识别结果与分析

为了验证特征提取的有效性，选取了5种手势，分别代表数字1～5，如图7所示从左到右依次表示手势1～5。

图7 手势1～5Fig 7 Gestures 1～5

测试部分每种手势用200张图片来做试验。选用36阶不变矩模型的平均识别率为95.2 %，平均用时为1.36 s；选用66阶不变矩模型的平均识别率为91.2 %，平均用时为2.08 s。每种手势的识别率见表1和表2。

表1 36阶矩的识别率Tab 1 Recognition rate of 36 order moment

表2 66阶矩的识别率Tab 2 Recognition rate of 66 order moment

识别结果表明：用变形雅可比—傅里叶矩进行特征提取和使用欧氏距离作为分类器进行手势识别是可行的。本文使用了较少的特征值，拥有较高的识别率。此方法简单、准确、分类速度快，具有研究意义。

表1和表2相比较可以看出，选用变形雅可比—傅里叶矩36阶矩比选用变形雅可比—傅里叶矩66阶矩进行特征提取识别效果更好，所以,最后选用了36阶矩进行特征提取。

5 结束语

本文使用Kinect体感器获取深度数据，结合阈值分割法进行手势分割，降低了光照和背景对手势分割的影响。使用变形雅可比—傅里叶矩提取手势的特征，用欧氏距离作为分类器进行分类。识别结果表明：此方法是可行的，且计算简单，分类速度快。

下一步将采集多种手势进行识别，希望可以识别出更多的手势，使人机交互变得更加自然。同时会结合现实，将本文中的方法应用到实际应用中，如虚拟现实、人机交互等。

[1] Wachs J P,Kolsch M,Stern H,et al.Vision-based hand gesture application[J] .Communications of the ACM,2011,54(2):60-71.

[2] Kenn H,Megen F V,Sugar R.A glove-based gesture interface for wearable computing applications[C]∥Applied Wearable Computing(IFAWC),2007:1-10.

[3] Bisas K K,Basu S K.Gesture recognition using Micosoft Kinec-t[C]∥2011 the 5th International Conference on Automation,Robotics and Applications(ICARA),Wellington,New Zealand:IEEE,2011:100-103.

[4] Silanon K,Suvonvorn N.Hand motion analysis for Thaialphabet recognition using HMM[J].International Journal of Information and Electronics Engineering,2011,1(1):65-71.

[5] Liu N,Lovel B,kootsookos P.Evaluation of HMM training algorithms for letter hand gesture recognition[C]∥Proceedings of 2003 IEEE the 3th International Symposium on Signal Processing and Information Technology,America,2003:648-651.

[6] Zhang Zhengyou.Microsoft kinect sensor and its effect[J].IEEE Journal of Multimedia,2012,19(2):4-10.

[7] Tuntankurn A,Thongvigitmanee S S,Sa Ing V,et al.Natural interactive 3D medical image viewer based on finger and arm gestures[C]∥2013 the 6th Biomedical Engineering International Conference(BMEICON),IEEE,2013:1-5.

[8] 陈启军,朱振娇,顾爽.基于傅里叶描述子和HMM 的手势识别[J].控制工程,2012(19):634-638.

[9] Tomer Leyvand,Casey Meekhof,Wei Yichen,et al.Kinect identity technology and experience[J].Computer Society,2011,44(4):94-96.

[10] Li Y.Hand gesture recognition using Kinect[C]∥2012 IEEE International Conference on Software Engineering and Service Scie-nce(ICSESS),Beijing,China:IEEE,2012:195-199.

[11] Zhao Haiyong,Liu Zhijing,Zhang Hao.Recognizing human activities using non-linear SVM decision tree[J].Intelligent Computing and Information Sicence,2011,134(7):82-92.

[12] 阿木古楞,杨性愉,平子良.用变形雅可比(p=4,q=3)—傅里叶矩进行图像描述[J].光电子·激光,2003,14(9):981-985.

[13] 阿木古楞,白云莉,哈斯苏荣.用不变矩实现花粉显微图像的归一化[J].光电子·激光,2008,11(19):1538-1541.

Hand gesture recognition based on Kinect and Pseudo-Jacobi-Fourier moments*

LIU Ya-rui， YANG Wen-lu

(College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China)

In order to make the human-computer interaction becomes more natural,Pseudo-jacobi-Fourier Moments is used for features extraction of gestures image,and combining with Euclidean distance classifier for modeling,classify and hand gesture recognition.Use kinect sensor to obtain hand depth data flow,using depth data combined with threshold segmentation method,can effectively implement gesture segmentation.Pseudo-Jacobi-Fourier is a kind of invariant moment which has gray,rotation and scale invariance,which is suitable for feature extraction of multi-distorted invariant image.Experiments on five kind of gestures are tested,and the average recognition rate is 95.2 %,experimental result demonstrates that the method has high recognition rate.

Kinect ; Pseudo-Jacobi-Fourier moments; hand gesture recognition; natural human computer interaction

10.13873/J.1000—9787(2016)07—0048—03

2015—10—21

上海市科学技术委员会资助项目(12441903500)

TP 391

1000—9787(2016)07—0048—03

刘亚瑞(1989-)男，山东菏泽人，硕士研究生，主要研究方向为通信理论与技术，模式识别。

基于Kinect和变形雅可比-傅里叶矩的手势识别*

0 引 言

1 手势分割

2 特征提取

3 参数训练和分类

4 识别结果与分析

5 结束语

0 引言