OD-LBP 与加权HOG 特征融合表情识别方法研究

2022-06-23 09:17郑伟

智能计算机与应用 2022年6期

郑伟

（南京邮电大学通信与信息工程学院，南京 210003）

0 引言

面部表情识别技术是人机交互领域的研究热点之一，在医疗看护、智能驾驶、远程教育和公共安全等方面有着十分广阔的应用前景。面部表情识别一般包括4 个步骤：人脸图像检测；对检测到的人脸图像进行预处理，包括图像灰度化、尺度归一化等；对预处理后的图像进行特征提取；基于提取的特征实现表情分类。人脸特征提取是面部表情识别技术的关键步骤。在过去的几十年里，相关的研究人员提出了许多特征提取算法，通常可以分为3 类：基于几何特征、基于纹理特征和基于神经网络的特征提取算法。其中，基于几何特征的提取算法主要是依据不同的面部表情下的五官形状以及位置变换来提取特征，但对于尺寸过多的图像处理存在困难且容易受到光照等客观因素的影响；基于神经网络的特征提取算法利用多层的神经网络结构从大量的训练信息中提取面部表情特征，比传统的特征提取方法具有更好的抗噪性和抗泛化能力，但其计算较复杂，需要花费大量的时间成本。基于纹理特征的特征提取算法主要是提取人脸表情图像的底层信息，如图像的密度、边缘、梯度等，相较于几何特征，纹理保留的图像信息更为完整且具有良好的光照适应性，相较于神经网络提取特征，基于纹理特征提取的算法计算简单，花费时间更少。因此，基于纹理特征提取的算法受到了广大研究者的欢迎，目前，LBP和HOG 是能够有效描述图像纹理特征的描述子。

LBP 特征是由Ojala 等人提出的，该特征值只需将图像中的像素值与周围像素值做比较、并加以进制转换便可得，因为其计算简单，灰度不变性以及对图像的旋转、尺度变化的特性等优势，受到了许多研究者的青睐并对其进行了改进，如文献［11］引入了欧氏距离和差分编码，解决了传统LBP 特征只考虑了中心像素与邻域像素之间的关系，却忽略了邻域像素间的关系。HOG 特征是由Dalai 等人在CVPR 会议上提出的特征提取算法，该特征能够准确提取到图像的轮廓信息，因此现已由众多学者将其应用到面部表情识别领域中。

考虑到人脸不同部位对表情识别的贡献程度不同，本文对HOG 特征不再直接应用到整幅人脸图像中，而是将人脸均匀划分并对每个子块提取HOG 特征，然后根据不同子块对识别贡献率的大小赋予不同的权重。针对LBP 特征，直接对人脸表情敏感区提取LBP 特征。最后，将二者融合得到改进的融合特征提取算法。

1 算法原理

该算法具体步骤为：图像预处理、OD-LBP 特征提取、加权HOG 特征提取、加权HOG 与OD-LBP特征融合、PCA 降维、SVM 分类识别。图像预处理中，对JAFFE 和CK 表情库中图像进行灰度化处理、利用Haar＋Adaboost 构成的人脸检测系统定位图像人脸区域、裁剪人脸区域并采用双线性插值法对裁剪后的图像尺度做归一化。然后，对预处理后的图像定位面部表情敏感区（眼睛、嘴巴、鼻子）并提取OD-LBP 特征。接着，对预处理后的图像进行均匀分块，对每个子块计算改进的空间频率值，同时提取每个子块的HOG 特征。进一步地，用改进的空间频率值对HOG 特征进行加权，再将加权HOG 与ODLBP 特征进行融合，且用PCA 对融合后的特征进行降维处理。最后，通过SVM 完成面部表情分类识别。具体算法流程如图1 所示。

图1 算法流程图Fig.1 Flow chart of the algorithm in the paper

1.1 OD-LBP 特征

OD-LBP 特征由Karanwal 等人提出并对LBP 特征进行了改善，用于面部表情识别领域的一种局部描述子，该描述子在不同姿态、光照条件和噪声等因素下具有良好的适应性。OD-LBP 特征提取算法步骤可阐释分述如下。

（1）基于正交特性对邻域像素点进行分类。假设图像中的的任一像素点位置为(x，y)，像素值为G，对其构造3× 3 的邻域窗口，再对窗口中位置为(x，y)，像素值为G(0 ≤≤7) 的邻域像素点按照正交特性进行分类，分类结果如图2 所示。

图2 基于正交特性的邻域像素点分类图Fig.2 The graph of depicting the neighborhood pixels based on orthogonal characteristics

（2）分别对不同正交群的邻域像素点进行差值运算。目前大多数的局部描述子都是邻域像素值与中心像素值做对比，导致特殊局部特征信息（如图像边缘像素点）丢失的情况。针对上述问题，OD-LBP将邻域像素值与其最近的2 个邻域像素值和中心像素值做差值，具体计算过程如式（1）所示：

其中，、、、是第一正交群中正交值的差值集合，、、、是第二正交群中正交值的差值集合。

（3）不同正交群中正交值的差值集合做二值化处理。将正交值中的3 个像素差值与各自产生的阈值做比较。对此处理过程，研究展开的表述为：

其中，、、、表示第一正交群中正交值经过处理后的二进制值集合；、、、表示第二正交群中正交值经过处理后的二进制值集合；表示阈值；x(0 ≤≤2) 表示正交值中的各个差值；（）表示方差。

（4）生成一个图像像素点的OD-LBP 特征值。首先串联不同正交群中二进制化的正交值：

其中，b是正交值中的每个差值二进制化后的值。

然后，构造3 个不同姿态下的OD-LBP 特征值，将串联后的24 位正交比特流按照每8 位进行截取，再进制转换，具体计算如下：

最后，串联生成一个像素点的OD-LBP 特征值：

实验中对人脸图像提取OD-LBP 特征，先提取人脸图像中敏感区域，敏感区域分为3 部分：90×54像素大小的眼睛部分，54×18 像素大小的嘴巴部分和54×18 像素大小的鼻子部分；然后将每个部分分成18×18 像素大小的子块并按上述流程提取ODLBP 特征，每个子块得到3 个不同姿态下256 个统计直方图特征值，最后将所有部分的子块特征串联起来，得到人脸敏感区域的OD-LBP 特征向量为（15＋3＋3）×3×256＝16128。

1.2 HOG 特征

HOG 特征是由Dalai 等人提出的，该特征提取算法因能够准确地提取图像的轮廓信息，而被广泛应用在面部表情识别领域中。这里，将对HOG 特征提取算法的步骤给出详述如下。

（1）计算图像中每个像素点的梯度幅值和梯度方向。通过计算每个像素点的梯度值能够获得图像的边缘信息，像素点(，) 的梯度为：

其中，(，) 是像素点(，) 的像素值；G(，) 是像素点(，) 的垂直方向梯度值；G(，) 是像素点(，) 的水平方向梯度值。

图像中任一像素点(，) 的梯度幅值和梯度方向为：

（2）计算单元细胞（cell）内的梯度直方图。将图像划分为大小相同的单元细胞，计算单元细胞中每个像素点的梯度方向和梯度幅值，划分不同方向的直方图通道，将单元细胞中每个像素点的梯度幅值依据不同的梯度方向投给不同直方图通道。

（3）计算归一化重叠块的梯度直方图。将几个邻近的单元细胞拼接成一个更大的块（block），将每个块内的所有单元细胞梯度直方图按顺序串联构成新的梯度直方图，并使用-norm 对新的梯度直方图进行归一化处理，最终构成归一化重叠块的梯度直方图。研究中给出的-norm 的计算公式可写为：

（4）构造整幅图像的HOG 特征向量。将图像中所有计算得出的块梯度直方图按照顺序串联，得出整幅图像的HOG 特征向量。

1.3 改进的空间频率值

改进的空间频率是Zheng 等人在用空间频率对图像中像素的活跃度进行度量时，对空间频率提出的一种改进。改进的空间频率反映了图像中像素的活跃程度。当图像中像素活跃程度越高，改进的空间频率值越大，反之活跃度越低，该值就越小。因此，该值能够很好地突出面部不同部分对表情识别的贡献程度。改进的空间频率从4 个方向反映空间域内图像的总体活跃程度，具体计算公式如下：

其中，是图像的改进频率值，、、、分别是图像的行频率、列频率、左对角频率、右对角频率，具体计算公式如下：

1.4 加权HOG 特征

考虑到人脸不同部分对表情识别效果的贡献程度是不同的，不能简单地将HOG 特征应用到人脸全局特征中。因此，提出了一种改进频率值加权的HOG 特征提取方法。该方法将人脸图像进行均匀分块，根据不同分块对表情识别贡献率添加不同的权重，加强人脸重要部位对识别效果的影响。对此可通过如下步骤来计算实现。

（1）图像分块并提取HOG 特征。将人脸图像分为块，对每块提取HOG 特征。则整幅图像提取的HOG 特征向量为：

其中，h（1 ≤≤）表示第子块的HOG 特征向量。

（2）计算每个分块的加权系数。将人脸图像分为块，对每个子块提取改进的空间频率值，则第块的改进频率值为：

其中，1 ≤≤。子块的像素活跃度越高，赋予子块的权重就越大，则第子块的权重系数为：

（3）将不同子块的权重系数赋予相应子块的HOG 特征向量，得到加权后的HOG 特征。

实验中预处理后的人脸图像像素大小为126×126，按照3×3 将人脸图像均匀分块。首先按照1.2节的流程提取每个子块的HOG 特征，其中cell 大小为6×6，然后在0°～180°上均匀划分9 个区间，将cell 中每个像素点的梯度幅值依据不同的梯度方向投给不同直方图区间；再将2×2 个cell 构成block，一个图像子块有5×5 个block，最后整幅图像提取出的HOG 特征向量为9×4×25×9＝8100；按照1.3 节流程提取每个子块的改进频率值；至此，则按照1.4节流程得到最终的加权HOG 特征向量。

2 算法步骤

本文算法的研发步骤具体如下：

（1）针对人脸表情数据集，将其划分为训练数据集和测试数据集。

（2）图像预处理。先将划分后人脸表情数据集中的图像进行灰度化、直方图均衡化处理，而后利用Haar＋Adaboost 人脸识别系统定位图像中的人脸部分并裁剪，再利用双线性插值对裁剪后的图像进行尺度归一化。

（3）利用Haar＋Adaboost 人脸识别系统定位经过预处理的图像中面部表情敏感区，对面部表情敏感区提取OD-LBP 特征。

（4）针对预处理后的图像，将图像均匀分块，分别提取每个子块的HOG 特征和计算每个子块的改进空间频率值，将改进的空间频率值作为权重系数赋予每个子块的HOG 特征，得到子块的加权HOG特征值，同时将子块的HOG 特征值按照一定的顺序串联得到整幅图像的加权HOG 特征值。

（5）融合OD-LBP 特征和加权HOG 特征。

（6）利用PCA对融合特征进行降维。

（7）采用SVM 分类器分别对训练数据集和测试数据集进行识别分类。

3 实验结果与分析

3.1 实验说明

实验是通过Pycharm 工具平台进行实验，实验运行环境为InterCore I7 处理器，16 GB 运行内存，Windows10 操作系统。本文实验在JAFFE 和CK 人脸表情数据集上进行，JAFFE 数据集选取7 种表情：惊奇、悲伤、中性、高兴、害怕、厌恶、愤怒，共213 张图片。对数据集进行划分，筛选出144 张图片作为训练数据集，69 张图片作为测试数据集。CK 数据集选择愤怒、蔑视、厌恶、害怕、高兴、悲伤、惊奇7 种表情、共327 张图片，其中220 张作为训练数据集，107 张作为测试数据集，考虑到本实验可以广泛应用，具有更强的鲁棒性，CK 表情所选取的实验图片中同一类表情中的志愿者各不相同。

为了保证实验的识别效果只取决于提取特征的优劣，这里对用于表情分类的SVM 分类器选取适用性广的、性能较佳的RBF 核作为SVM 的核函数。

3.2 实验结果

在将OD-LBP 特征和加权HOG 特征融合之前，首先需要对单个特征进行实验，故选择最优的OD-LBP 特征和加权HOG 的最优参数。为了让加权HOG 特征更能体现出面部不同区域对表情识别的贡献程度、从而提高对表情的识别率，需要从2 个角度进行考虑：分块方式和加权因子。不同加权因子的HOG 在JAFFE、CK 数据集的识别率如图3 所示。

图3 不同加权因子的HOG 在JAFFE、CK 数据集的识别率Fig.3 Recognition rate of HOG with different weighting factors on JAFFE and CK

由图3 可知，在JAFFE 和CK 表情数据集中分别进行实验，通过对比能够表征区域表情贡献程度的权值：像素平均值、信息熵、方差、改进的空间频率和不同分块下的识别率后可知，在对图像进行3×3的分块下，选择改进的空间频率作为加权因子，加权HOG 在JAFFE 和CK 数据集上取得最佳的识别率，分别是90.2%和91.6%。

为了进一步验证本文提出的多特征融合提取方法的有效性，与单一特征提取方法和其他特征融合方法进行了对比实验，结果见表1。

表1 各特征在JAFFE、CK 数据集的识别率Tab.1 Recognition rate of different features on JAFFE and CK%

从表1 的实验结果可知，本文的特征提取方法在JAFFE 和CK 数据集上的表情识别率达到了95.4%和96.9%，较单一特征提取方法：OD-LBP、加权HOG 相比，本文的特征提取方法让表情识别率提高了5%以上。此外，加权HOG 与全局HOG 相比，加权HOG 对表情的识别率提高了10%以上。与未考虑面部不同部分对表情识别贡献程度不同的特征融合提取方法相比，在JAFFE 数据集上的识别率提高了2.2%，在CK 数据集上的识别率提高了2.1%。实验结果表明了本文的OD-LBP＋加权HOG 特征提取方法的有效性。

4 结束语

本文从面部不同部分对表情识别贡献程度不同的角度出发，提出了使用改进空间频率值加权HOG特征以及对面部表情敏感区提取OD-LBP 特征，二者的融合充分考虑了人脸各部位信息对于识别效果的影响，降低了人脸不重要部位信息对于识别效果的干扰，进一步丰富了面部的全局和局部特征信息表达。在JAFFE 和CK 数据集上的实验结果表明，多特征融合的识别率优于单一特征的识别率，本文提出的多特征融合提取方法较未考虑区域重要性的特征融合提取方法的识别率在JAFFE 和CK 数据集上提高了2.2%和2.1%，进一步验证了本文算法的有效性。