基于BS-HMM和巴式距离的手势识别技术研究

2019-06-17 09:59朱正伟
计算机应用与软件 2019年6期
关键词:巴氏手势深度

朱正伟 祝 磊 饶 鹏

1(常州大学信息科学与工程学院 江苏 常州 213164)2(常州光电技术研究所 江苏 常州 213164)

0 引 言

手势识别交互技术是人机交互(HCI)研究的主要焦点之一。目前,对于手势识别(HGR)的研究方法也比较多样化,这些方法可以根据所使用的传感器的不同进行分类[1]。一般分为基于数据手套的手势识别和基于计算机视觉的手势识别,后者使人机交互更加自然,已经成为手势识别研究的重点。本文提出了一种基于Kinect深度传感器的手势识别系统,无需在用户身上穿戴任何外接设备。

基于Kinect深度传感器的手势识别研究大致分为手势分割、跟踪定位和特征提取三个过程。Pisharady等[2]针对在复杂背景下手势分割不准确的问题,提出了一个多类手姿态的手势识别系统,并取得了较理想的效果。Chen等[3]利用系统当前环境对对象物体进行追踪,通过Kinect捕获的图像深度信息来对前景进行提取,并快速捕捉到目标物体。Yang等[4]利用HOG描述符来表示手势,阐述了传统RGB相机所捕获到的图像的局部结构特征。Ji等[5]开发了一种RGB视频序列描述符,将HOG的概念推广到了3D中。除了使用RGB摄像头之外,Wu等[6]将HOG描述符运用到了深度图像中。Oreifej等[7]提出了一种基于HON4D特征来描述序列深度图,可以同时捕获手部形状及其运动信息。Wang等[8]则为深度序列提出了随机占用模式(ROP)特征。

目前,绝大部分的手势识别系统主要使用K最近邻算法(K-NNs)、支持向量机(SVM)、神经网络和有限状态机(FSM)等[9]。特别是隐马尔科夫模型(HMMs),每个观测都可以被视为一个混合模型,给捕捉数据提供一个强大的概率框架,可以直接用来识别手势[10]。值得注意的是,在标准HMM中,模型观测状态符合混合高斯分布,经常使用极大似然估计(MLE)来对参数进行评估,这样导致模型的训练量较大。为了解决过度拟合的问题,Saon等[11]提出了一种结合贝叶斯压缩感知的隐马尔科夫模型(BS-HMM),并将其应用到语音识别中。

本文利用手势图像的深度信息,将分布序列引入到BS-HMM中,每个分布均由k个连续的帧图像组成作为观测,利用巴氏距离研究每个观测序列概率分布。在该系统中,将巴式距离结合BS-HMM对各类手势进行建模,然后通过最大期望算法(EM)来训练参数,这样做的优点如下:(1)系统学习了基于深度图像特征的隐藏状态,所建模型要比基于HMM的手势识别系统更加规范。(2)将巴式距离融入到了BS-HMM中(称为BDBS-HMM),给处理深度图像特征提供了一种更直观的方式。

1 结合贝叶斯压缩感知的HMM

Φiwt)TRi(Zt-Φiwt))]

(1)

式中:Ri是一个状态依赖精度矩阵,wt是先验值N(0,Ai-1)中的一个感知权值,λi={Ai,Φi,Ri}是状态参数。通过整合感知权值wt,得到序列特征Z的边界似然,公式如下:

2 基于BDBS-HMM的手势识别系统

2.1 图像预处理和特征提取

该系统使用深度传感器Microsoft Kinect获取一系列包含几何信息的深度图像。然后,利用骨架信息对手部进行跟踪,通过深度阈值可以很容易地将背景分离出来[13]。根据手部的位置裁剪深度图像,并将大小调整为50×50像素,然后对深度图像进行标准化处理。为了细化图像纹理,通过直方图均衡化来提高图像对比度,同时,采用中值滤波的方法对每个图像进行降噪[14],在本文中,使用的是5×5中值滤波器。

2.2 基于BS-HMM的巴氏距离

BS-HMM对一系列的数据点进行建模,为了得到序列分布模型,本文提出了BDBS-HMM,将巴氏距离引入到了BS-HMM中,巴氏距离DB用来测量概率分布的差异,其定义公式如下:

(3)

p(μl,∑l|wl,λi)∝

(4)

每个观测分布hl都是由BDBS-HMM参数λ={πi,aij,Ai,Φi,Ri}生成。

E{logp(H,S|λ)|H,λold}=∑Sp(S|H,λold)logp(H,S|λ)

(5)

式中:λold是当前参数值,第二项主要是为了式(6)的计算。

(6)

3 实验过程和分析

3.1 数据库与评价标准

通过识别手势行为动作来对所提出方法的有效性进行评价,F-measures(F值)来评估识别效果,评价标准包括准确率(Precision)、召回率(Recall)和F1分数(F1 Score)[15]。本次实验是在两个数据库上进行,数据库的原深度视频信息都是通过微软Kinect设备捕捉。第一个是MSRGesture3D数据库,包含了12个动态美国手语手势,共336个视频,每个视频帧数在30~60之间[16],图1(a)是一个MSRGesture3D数据库的手势深度图像示例。第二个数据库包含了在实际环境条件下的自记录数据。本文的数据库共有100个视频和上、下、左、右、旋转、禁止、停止、来、缩放和确定等10类手势,每个视频的帧数为60。图1(b)是本文数据库的手势深度图像示例,由于MSRGesture3D中的大多数手势视频都是经过分割处理的,所以只显示手腕以上部分,但是,本文数据库中的视频并没有被很好地分割,因此需要使用手势定位来对数据库进行预处理。在实验过程中,一半文件用于手势训练,另一半文件用于手势测试。

(a)

(b)图1 MSRGesture3D数据库和本文数据库手势深度图

3.2 相关实验设置

为了证实提出的BDBS-HMM的效率,本文选择使用标准HMM作为参照,由于HMM通常会导致模型过度拟合,所以选择使用BS-HMM作为另一个参照。本研究共进行了两个实验,实验一研究了HMM、BS-HMM、和BDBS-HMM在不同混合分量下的识别效果。实验二检测了训练过程中BS-HMM和BDBS-HMM基向量的相似性,同时也研究了主动相关决策(ARD)参数。在这两个实验中,对HOG和HON4D两个特征集也进行了研究。为了公平比较,HMM、BS-HMM和BDBS-HMM都使用相同的特征集。通过64分量标准HMM初始化BS-HMM和BDBS-HMM的基向量,每个实验随机划分进行20次得出平均结果。

3.3 结果与分析

首先,将HMM、BS-HMM和BDBS-HMM分为两个隐状态,每个状态下,混合分量设置为2个、4个、8个和16个,表1和表2分别表示使用MSRGesture3D数据集和本文的数据集获得的实验结果。实验结果表明,在大多数情况下,本文提出的BDBS-HMM效果要比HMM和BS-HMM要好。在这里,BS- HMM和BDBS-HMM都使用64分量HMM初始化。

表1 使用MSRGesture3D数据库手势识别率 %

表2 使用本文数据库手势识别率 %

接下来,对本文提出的BDBS-HMM和BS-HMM进行更详细的比较。理论上讲,混合分量中的基向量集在训练学习过程中会更加独立,以训练过程中的前五次迭代为例,图2为余弦相似度和ARD参数与迭代次数关系图。ARD的值表示感知权值的精度,BS-HMM与BDBS-HMM二者算法的比较验证了它们的收敛速度是相似的。表3使用了MSRGesture3D的数据库,比较了BS-HMM和BDBS-HMM的平均F值,实验结果表明,本文提出的BDBS-HMM要优于BS-HMM。

表3 BS-HMM与BDBS-HMM的Precision、Recall和F1 Score比较

(a) 使用BS-HMM得到的结果

(b) 本文所提出的BDBS-HMM得到的结果图2 余弦相似度和ARD参数与迭代次数关系图

4 结 语

本文提出了一种基于深度信息的手势识别系统,该系统的主要创新之处在于其较好的处理概率特征的能力。为了处理序列分布形式特征,将巴氏距离引入到BS-HMM中,通过极大似然法对提出的BDBS-HMM参数进行预估。同时也考虑到了模型正规化,使用EM算法推导出参数的递归解,并将所提出的BDBS-HMM与使用标准HMM和BS-HMM的手势识别效果进行比较,实验结果表明了在使用MSRGesture3D数据库的情况下所提出的BDBS-HMM的优越性。

猜你喜欢
巴氏手势深度
四增四减 深度推进
深度思考之不等式
释放巴氏新小绥螨可满足对苹果全爪螨的防治需求
浅谈巴氏鲜奶的发展现状
挑战!神秘手势
简约教学 深度学习
胜利的手势
巴氏灭菌对橙汁中键合态香气物质的影响研究
认手势说数字
释放巴氏钝缓螨防治柑橘红蜘蛛应用技术