人工智能辅助下人机交互隔空手势识别模型

2021-11-17 03:12黄永彪

计算机仿真 2021年3期

陈莹，黄永彪*，谢瑾

(1.广西民族大学，广西南宁 530006；2.武汉大学计算机学院，湖北武汉 430072)

1 引言

人机交互的形式随着生活水平的日益提升与智能设备的普及，逐渐进入大众的日常生活，其中，应用最多、最常见的手势识别技术，引发了众多相关研究学者的热烈讨论。针对手势背景复杂性与形态多样性，石雨鑫等[1]提出一种基于卷积神经网络与随机森林的识别方法，经过分割静态手势图像，采用卷积神经网络对特征向量进行提取，通过森林分类器完成特征向量划分。孙玉等[2]在研究中采用Leap Motion传感器收集手部的三维坐标数据，并获得含有手指动作与手掌位移的动态手势特征序列，通过与长短期记忆网络模型的结合，实现手势识别。而彭玉青等[3]研究得出的手势识别方法，则应用了改进的TOLO算法来检测手势，根据空间金字塔池化，避免卷积神经网络的多尺度输入，从复杂的背景中识别手势。

为进一步提高人机交互手势识别准确度，提出一种人工智能辅助下人机交互隔空手势识别模型。根据人机交互隔空手势识别的原理，添加语义反馈与交互通道信息整合机制，设计支持隔空手势识别。在色彩空间中，架构高斯混合的颜色分布模型，采用最大类间方差法，对相似度图像实施二值化处理，完成手势姿态分割。构建相对深度直方图及其归一化图像，通过级联分类器获取最终的手势动作，实现隔空手势识别。

2 人机交互隔空手势识别分析

隔空的人机交互模式作为具有未来感的方式，具有广阔的应用前景。Norman模型是人机交互里最具影响力的模型之一，其与人机之间的直观认知非常接近[4]。交互系统共有四个部分构成，分别为用户、系统、输入与输出。在识别隔空手势过程中，需要采用“悬停”等特殊动作表示用户对命令的选取。若静止时长达到设定的时间阈值，则触发选中命令，但若静止时间长度不足预设阈值，那么将重新计时。触发选中命令流程如图1所示。

图1 触发选中命令流程图

用户发出隔空手势动作，利用Kinect动作跟踪手势并采集手部图像数据，当判断手势悬空静止时间未超过阈值，则返回至动作跟踪；当判断手势悬空静止时间超过阈值，则触发选中操作。基于上述手势识别分析过程，为计算机辅助下隔空手势识别模型的设计提供依据。

3 人机交互隔空手势识别模型设计

3.1 计算机辅助下隔空手势识别整体框架

多通道交互技术的逐渐成熟，当今的网络环境逐渐演变为一个无处不在的服务供应平台，而且添加了相对自然的交互方式。因为软、硬件不断地更新换代，使人机交互领域出现了隔空手势识别的新型技术。该模型通过引入较强的语义反馈与交互通道信息整合机制，实现手势识别模型的架构，其整体框架如图2所示。

图2 隔空手势识别模型结构示意图

识别模型的组成部分共有五个，分别是用户模块、人机交互对象模块、表现模块、对话控制模块以及应用程序模块。各部分的相应性能描述如下：

1)用户模块：采用交互对象库里的各类交互工具与设备，对信息进行输入，利用反馈设备，完成相应信息的获取；

2)人机交互对象模块：控制管理输入与输出设备，将用户的手势动作转换成交互方式的原语，并放入交互原语的队列里，且该模块可以对表现模块的驱动进行接收，把处理结果传输至用户。由于抽象化手势姿态可以得到交互原语，因此，所有级别的原语均与设备具有一定的关联性，而各模块则是以增删变更设备、确保通道完整性为目的而创建的；

3)表现模块：对交互对象库里的交互原语进行抽象化处理，得到交互概念原语，与此同时，完成对话控制模块返回信息的接收，其概念原语用于处理人机交互对象模块的信息，而对象显示的处理目标则是对话控制模块；

4)对话控制模块：通过整合用户的所有交互信息，解析交互意图[5]，从而组建成交互任务原语，并放入原语队列，该模块对应用程序发送的应用反馈进行接收后，经过表现模块，将其发送给用户；

5)应用程序模块：对用户提交的任务进行处理后，把结果发送至对话控制模块，该模块由多个处理任务的非交互式计算部分构成[6]。其运算结果储存区域为相应用户界面内的抽象部分里，最终经过用户界面发送至用户。

3.2 手势分割

基于MCG-Skin数据库，采用分量Cr与Cb，在YCrCb的色彩空间内，架构如式(1)所示的颜色分布表达式

Pc(x)=αCrg(x，μCr，σCr)+αCbg(x，μCb，σCb)

(1)

式(1)中，α表示颜色分量系数，g表示颜色过滤值，μ表示均匀量化系数。

根据颜色分布公式，在深度图像中手势识别时，通过背景去除实现两个独立高斯模型的合并搭建，采用下列表达式对所得的高斯混合模型进行描述

Pd(x)=αhg(x，μh，σh)+αfg(x，μf，σf)

(2)

式(2)中，(αh，αf，μh，μf，σh，σf)是该概率密度函数的参数，且αh与αf之间存在下列关系式

αh+αf=1

(3)

因为在人机交互的过程中，手势姿态一直位于身体的前部，所以，将高斯混合模型Pd(x)的μh设定成手势的深度值，身体深度值用μf来表示，则深度阈值表达式如式(4)所示

(4)

在颜色分布模型Pc(x)里输入经过阈值处理的图像像素点，对所有像素对应的颜色点概率进行获取，通过将其映射至灰度范围[0，255]中，完成含有256灰度等级的肤色相似度图像重建，相似度随着各像素灰度值的增加而提升。依据最大类间方差法对相似度图像实施二值化处理[7]，肤色点用灰色像素表示，其余点则为黑色像素，令手势姿态得到理想的分割。

3.3 手势跟踪

建立相对深度直方图时，选用下列离散函数来指代灰度范围是[0，L-1]的图像直方图

h(rk)=nk

(5)

式(5)中，第k级灰度表示为rk，图像含有rk灰度级的像素数量是nk，且k=0，1，…，L-1。

对手势跟踪的重要前提是对图像信息进行归一化处理，使之变换为一固定标准形式的过程，因此归一化直方图的推算公式如式(6)所示

(6)

式(6)中，rk灰度级的出现概率预估值为P(rk)。根据式(6)可以得出，把归一化直方图的各区域相加，得到的总和是1。

通过所有像素的绝对深度值，求取其相对极小深度值的绝对深度，从而设定相对深度的取值区间是[0，D-1]。若采用式(5)表示相对深度直方图，则第k级相对深度表示为rk，图像含有rk深度级的像素数量是nk，且k=0，1，…，D-1，其归一化相对深度直方图的构建方法同灰度直方图。

选用常用的概率分布相似性评估方法对相对深度直方图的相似度进行判定，则基于离散概率分布条件的巴氏距离定义域X界定公式如(7)所示

DB(p，q)=-ln(Bs(p，q))

(7)

式(7)中，巴氏系数表示为Bs(p，q)。在巴氏距离计算的基础上，计算手势跟踪公式为

(8)

式(8)中，x表示手势运动速度。至此实现了隔空手势的跟踪，为手势准确识别做铺垫。

3.4 手势识别

鉴于隔空手势识别的难度，需要引入一组级联式的学习器，通过不同阶段学习器对姿势内在模式的学习，精准、快速识别隔空手势。该方法的流程图如图3所示。

图3 级联式手势识别流程示意图

用hi表示第i级学习器，在姿势样本x进行至第i级时，如果学习器hi无法完成高置信度的识别，那么，将识别任务交予下一级学习器，待取得最终的识别结果，任务结束。因为级联的建立理念可以令各级学习器学习各种姿势模式，让前两级学习器精准识别难度较低的非控制姿势，而难以区分的控制姿势则由偏后的学习器负责识别，使其不被非控制姿势识别阶段所影响。

级联结构逐级识别非控制姿态的过程中，级数的递增有效缓解了控制姿态与非控制姿态的类别不平衡性[8]。将后续学习器的关注点着重放在两种姿态的差异模式上，因为级联靠前的学习器识别对象只有非控制姿态，所以，样本不平衡并不会影响识别效果。

假设隔空手势动作集合的表达式如式(9)所示

G={G1，G2，…，Gn}

(9)

式(9)中，姿势种类数量表示为n。

(10)

从各姿势种类中采集一组样本作为训练数据，其集合表达式如(11)所示

G1={xi1，xi2，…，xim}

(11)

式(11)里，第i种姿势的样本数量是m。

随机选择一组级联分类器，采用下列公式对其进行描述

T={(M1，F1)，(M2，F2)，…，(Mi，Fi)}

(12)

式(12)里，第i层分类器为Mi，对应特征则为Fi。所以，得到如下特征集合表达式

F={F1，F2，…，Fi}

(13)

手势识别的具体流程描述如下：

(14)

4)在级联分类器T内加入(Mi，Fi)，其中，i应自加1；

5)返回级联分类器T。

隔空手势识别是一种更自然、更易于理解与应用的人机交互形式，只有精准识别出隔空手势，才能进行理想的人机交互。

4 实验分析

实验应用Kinect软件对手势动作进行采集，并随机选取实验11k Hands数据集中100幅像素为50×50的图像作为实验对象，计算机配置为奔腾2.8GHz双核E5500处理器，运行内存为6GB。

分别采用自学习稀疏表示法与本文模型，对实验者的“抓”“放”手势实施识别，效果评估参数选用的是F1，该指标数值越高，表示手势识别准确率越高，识别效果越好，其表达式如(15)所示

(15)

式(15)中，precision表示精准率，recall表示召回率[10]，对应的计算公式分别如下

(16)

(17)

式(16)、(17)中，准确预估的样本数量为tp，错判的样本数量为fp，当前类别被预估成其它类别的样本数量是fn。

如表1所示为各方法得出的手势识别F1指标数统计表。

表1 手势识别F1指标数统计表

为了使三种方法的对比更加直观，将表中数据用下列折线图(图4)进行展示。

根据表1、图4中数据可以看出，研究模型比自学习稀疏表示法具有更加理想的识别效果，评估指标F1的识别数值高于95%，自学习稀疏表示法的评估指标F1的识别数值均不满90%，最高只有90.85%，Leap Motion方法的最高评估指标F1的识别数值为90.26%，无法满足实际的精度需求。

5 结论

为优化人机交互的手势识别方法，提出一种人工智能辅助下人机交互隔空手势识别模型。依据隔空手势识别原理，构建语义反馈与交互通道信息相结合的手势识别模型。通过肤色数据库与色彩空间，对高斯混合的颜色分布模型进行架构。采用计算得到的深度阈值，获取颜色点概率，利用最大类间方差法对经过重建的相似度图像进行二值化处理。基于相对深度直方图，采用巴氏距离进行判定，通过各级联学习器对动作内在模式的学习，使隔空手势识别得以实现。该模型为未来的相关研究提供了良好的数据支持，具有重要的现实价值与现实意义。

图4 评估指标数值对比图