基于旋转主方向梯度直方图特征的判别稀疏图映射算法*

2019-10-22 02:01童莹沈越泓魏以民

物理学报 2019年19期

童莹沈越泓魏以民

1) (中国人民解放军陆军工程大学, 通信工程学院, 南京 210007)

2) (南京工程学院, 信息与通信工程学院, 南京 211167)

非约束环境下采集的人脸图像复杂多变, 将其直接作为字典原子用于稀疏表示分类(sparse representation based classification, SRC), 识别效果不理想.针对该问题, 本文提出一种基于旋转主方向梯度直方图特征的判别稀疏图映射 (discriminative sparse graph embedding based on histogram of rotated principal orientation gradients, DSGE-HRPOG)算法, 用于构建类内紧凑、类间分离的低维判别特征字典, 提高稀疏表示分类准确性.首先, 采用旋转主方向梯度直方图 (histogram of rotated principal orientation gradients,HRPOG)特征算子提取非约束人脸图像的多尺度多方向梯度特征, 有效去除外界干扰和像素间冗余信息, 构建稳定、鉴别的 HRPOG 特征字典; 其次, 引入判别稀疏图映射 (discriminative sparse graph embedding,DSGE)算法, 以类内重构散度最小、类间重构散度最大为目标计算特征字典的最佳低维投影矩阵, 进一步增强低维特征字典的判别性、紧致性; 最后, 提出投影矩阵和稀疏重构关系交替迭代优化算法, 将维数约简过程伴随在稀疏图构建过程中, 使分类效果更理想.在 AR, Extended Yale B, LFW 和 PubFig 这 4 个数据库上进行大量实验, 验证了本文算法在实验环境数据库和真实环境数据库上的有效性.

1 引言

随着互联网技术和人工智能技术的飞速发展,实时采集人脸图像进行身份认证、安全监控和信息提取已成为机器视觉领域最热门的研究课题之一[1,2].然而, 非控环境中采集的人脸图像受光照、姿态、表情、遮挡、年龄等多种因素影响, 导致人脸图像复杂多变, 严重抑制了非约束人脸识别的准确性.

2009年, Wright等[3]受生物视觉稀疏性启发,首次提出稀疏表示分类模型(sparse representation based classification, SRC), 并将其成功应用于非约束人脸识别中, 很好地解决了人脸图像中光照、遮挡、噪声等因素的影响.分析其原因, 关键在于稀疏表示分类中并不需要精确的特征表达, 只需遵循“简约性”原则, 从字典中选择“有限”原子对待测样本进行线性表示, 并期望达到所选“原子”仅与待测样本同类.由此可见, 构建学习紧致、判别的字典在稀疏表示分类中具有极其重要的作用.Yang等[4]提出 Fisher判别字典学习 (fisher discrimination dictionary learning, FDDL)方法,将Fisher判别准则引入结构字典学习中, 使得同类字典原子具有相似性而异类字典原子具有差异性.Vu等[5]在此基础上引入低秩共享字典(lowrank shared dictionary, LRSD)用于表示人脸本质特征, 与表示人脸差异性的类特定字典(classspecific dictionary, CSD)相结合, 进一步提高了字典空间的判别性.为使学习得到的字典具有更丰富的语义信息, Babaee等[6]摒弃了二值标签信息而采用相对属性信息, 提出相对属性引导字典学习 (relative attribute guided dictionary learning,RAGDL)算法.同时, 文献 [7−10]在字典学习方面也进行了深入研究.

分析发现, 字典学习 (dictionary learning,DL)方法虽然在构建学习紧致、判别字典空间上取得一定效果, 但仍受2个方面限制:1)稀疏表示分类[3]要求字典原子的维度远远小于字典原子个数,从而保证解空间存在最优稀疏解, 然而, 以M×N像素大小的样本图像作为字典原子构建字典空间,其维度远大于样本个数, 容易导致出现“小样本”问题; 2)字典学习方法通过增加各种约束条件优化字典满足类内紧凑和类间分离, 然而, 由于原始样本图像的高维性、复杂性和冗余性, 使得优化效果大打折扣, 严重抑制了待测样本稀疏表示分类的准确性.

鉴于此, 大量学者提出采用降维(dimensionality reduction, DR)方法克服上述不足, 一方面通过降低字典空间维度可以避免“小样本”问题, 减少稀疏编码计算复杂度, 加速搜寻最优解; 另一方面增加投影约束条件, 使高维样本字典在低维子空间更具紧致性、判别性, 稀疏表示更准确, 这已成为稀疏表示分类中必不可少的步骤.

以主成分分析 (principle components analysis,PCA)[11]、线性鉴别分析 (linear discriminant analysis, LDA)[12]为代表的经典降维方法被首先用于稀疏表示分类模型中[3,4,13], 但受数据全局线性分布条件的限制, 当处理复杂扭曲的非线性分布的真实数据时, 这类方法效果不佳.鉴于此, 广大学者提出采用基于核的方法[7,14−16]和流形学习方法[17−21]进行数据非线性降维.核方法的本质是利用核函数映射样本到高维空间进行线性划分, 但起关键作用的核函数的选择机制和意义并不明确.因此, 以等距映射 (isometric mapping, ISOMAP)[17]、局部线性嵌入 (locally lineare mbedding, LLE)[18]、拉普拉斯特征映射 (Laplacian eigenmaps, LE)[19]、平行向量场嵌入 (parallel vector field embedding,PFE)[20]、测地线距离学习 (geodesic distance function learning, GDL)[21]等为代表的非线性流形学习方法更受青睐.这类方法符合人眼视觉感知机制, 可以有效挖掘出隐藏在错综复杂的高维数据中的低维流形本质结构.He等[22,23]针对LE和LLE的隐式映射问题进行改进, 在不改变原有目标函数的基础上增加线性约束, 提出具有显式映射函数的局部保持投影(locality preserving projections, LPP)和近邻保持嵌入(neighborhood preserving embedding, NPE)算法, 有效克服了样本外扩展问题(out-of-sample extension problem)[24],使得流形学习方法在图像、视频、文本等高维、海量、真实数据中的应用成为可能.随后, 大量改进算法被陆续提出, 例如, 指数判别局部保持投影(exponential discriminant locality preserving projection, EDLPP)[25]、二维判别局部保持投影(two-dimensional discriminant LPP, 2DDLPP)[26]、双向二维近邻保持判别嵌入 (bilateral twodimensional neighborhood preserving discriminant embedding, B2DNPDE)[27]、快速正交局部保持投影 (fast and orthogonal LPP, FOLPP)[28]、监督近邻保持嵌入 (supervised NPE, SNPE)[29]等.

Yan等[30]对LPP, NPE及改进算法的实现原理进行分析, 将它们归纳到图映射框架(graph embedding framework, GEF)中.分析发现, GEF的核心思想是通过构建高维样本近邻分布图, 寻找使低维子空间数据仍保持高维样本分布特性的最优投影矩阵.因此, 在GEF中如何构建一个准确的高维样本近邻分布图是这类方法的关键.近邻图的构建包含2个关键步骤:图顶点选择和图边权分配.传统方法多采用 k-nearest[31]或 e-ball[23]方法搜索样本近邻点, 并用热核函数[31]或逆欧式距离[32]计算近邻点之间的权值.然而, 实际应用中真实数据的分布是未知的、复杂的, 选择合适的近邻点非常困难, 并且样本之间距离测度的可区分性也会随着样本维数的增加而减弱, 这在一定程度上抑制了基于GEF的降维方法的广泛应用.

2010年, Qiao等[33]受信号稀疏表示 (sparse representation, SR)[3−5]的启发, 首次将稀疏技术引入图映射框架中, 提出稀疏保持投影(sparsity preserving projections, SPP)算法.这是一种不以距离测度为区分, 而以保持样本间稀疏重构关系为目标的全新降维方法.它通过优化求解每一个样本在全局超完备字典下的线性稀疏表示, 自适应得到与该样本近邻的少量重构样本以及样本之间的重构权值, 有效克服了传统图映射方法中预定义近邻图的弊端.这种以SPP为代表的自适应稀疏图映射 (sparse graph embedding, SGE)方法极大提高了真实复杂数据低维投影的准确性, 受到广大学者们的高度关注.

Lai等[34]将稀疏表示技术引入LLE框架中,提出稀疏线性映射 (sparse linear embedding, SLE)算法, 并扩展到核空间, 在3个人脸库和2个目标库上验证了其降维有效性, 尤其是在小样本情况下表现更突出.Yin等[35]将稀疏表示与LPP相结合,提出局部稀疏保持投影 (local sparsity preserving projection, LSPP) 算法, 并成功应用于生物大数据的降维与识别中.Zhang等[36]结合近邻图和稀疏图优点, 提出稀疏邻域保持投影(sparsity and neighborhood preserving projections, SNPP)算法.分析发现, 基于全局样本的稀疏关系约束会破坏样本局部结构, 导致样本间的近邻关系描述并不准确.Lu等[37]在SPP基础上引入类别标签, 提出鉴别稀疏邻域保持嵌入(discriminant sparsity neighborhood preserving embedding, DSNPE)算法, 分别考虑待测样本与同类样本的重构关系, 以及异类样本对待测样本的重构影响, 有效提高了待测样本稀疏近邻图的准确性, 相比SPP算法识别性能大大提升.同样地, Wei等[38]提出加权判别稀疏保持映射 (weighted discriminative sparsity preserving embedding, WDSPE)算法, Lou 等[39]则将稀疏表示技术引入LPP框架中, 提出正则图稀疏判别分析(graph regularized sparsity discriminant analysis, GRSDA)算法.鉴于传统方法中多将降维和分类作为2个独立步骤分别建模,存在降维效果与分类器不匹配的问题, Yang等[40]提出稀疏表示分类引导判别投影(sparse representation classifier steered discriminative projection, SRC-DP)算法, 以同类重构残差最小、异类重构残差最大为目标, 联合优化投影矩阵以及稀疏表示分类系数, 使SRC分类器在投影子空间获得最佳性能.类似地, Zheng等[41]提出特征加权组稀疏判别投影 (feature weighted group sparse classification steered discriminative projection,FWGSDP)算法, 并采用迭代重约束稀疏编码优化方法对该模型进行高效求解.Gao等[42]基于Fisher判别准则引导数据降维和分类.Zhang等[43]将SRC-DP进一步扩展到核空间, 从多个不同角度验证算法有效性.可见, 由于稀疏表示技术的引入, 以SPP为代表的稀疏图映射方法具有非常好的图自适应性和噪声鲁棒性, 将其与SRC分类器相结合, 用于构建低维、紧致、判别字典可以显著提高分类器的精度和速度, 是近年来值得研究和探索的热点方向之一.

受基于统计局部特征的鲁棒核表示(robust kernel representation with statistical local features,RKR-SLF)[44]以及基于Gabor特征的鲁棒表示分类[45](gabor feature based robust representation and classification, RRC-GF)等算法的启发, 我们发现, 采用LBP, Gabor等鉴别力和鲁棒性较强的局部特征代替传统的冗余数据样本构建特征字典,可以显著提高稀疏表示分类的准确性.因此, 本文考虑将局部特征算子与降维方法相结合, 提出一种基于旋转主方向梯度直方图特征的判别稀疏图映射 (discriminative sparse graph embedding based on histogram of rotated principal orientation gradients, DSGE-HRPOG)算法, 实现流程如图1所示.首先, 从特征描述角度设计一种旋转主方向梯度直方图 (histogram of rotated principal orientation gradients, HRPOG)特征算子, 相比传统方向梯度直方图(histogram of oriented gradients,HOG)特征算子, 它从多个尺度、多个方向捕捉人脸纹理的梯度变化信息, 可以更准确提取出人脸本质特征, 显著提高了特征字典的鉴别性和鲁棒性.其次, 从降维角度提出判别稀疏图映射(discriminative sparse graph embedding, DSGE)算法, 在 DSNPE算法[37]的基础上, 通过引入类内、类间紧凑度约束, 有效增强了待测样本与同类非近邻样本的重构关系, 并削弱了异类伪近邻样本的重构影响; 同时,在低维投影阶段又增加了全局约束因子, 利用样本全局分布中隐含的鉴别信息使HRPOG特征字典在低维子空间更判别、更紧致.最后, 受SRC-DP[40]的启发, 提出一种投影矩阵和稀疏重构关系交替的迭代优化算法, 将维数约简过程伴随在稀疏图构建过程中, 使分类效果更理想.经实验环境下采集的人脸数据库(AR和Extended Yale B)和真实环境下采集的人脸数据库(LFW和PubFig)验证,DSGE-HRPOG算法可以有效提取这些高度扭曲的人脸数据的低维流形本质结构, 大大增强特征字典的紧致性、判别性和鲁棒性, 使SRC分类性能更突出.

图1 本文算法的实现流程Fig.1.Flow chart of the proposed algorithm.

2 HRPOG特征算子

2.1 方向梯度直方图(histogram of oriented gradients, HOG)

2005年, Dalal和 Triggs[46]提出方向梯度直方图 (histogram of oriented gradients, HOG)用于行人检测, 其基本原理是统计图像中各个像素点的梯度幅值和梯度方向, 用于表征目标形态、轮廓变化等信息.相比LBP, Gabor等局部纹理特征算子, HOG算子提取的方向梯度变化信息更符合人眼视觉感知特性, 受光照、旋转、噪声等外界干扰影响更小, 提取目标特征效果更佳、更鲁棒[47,48].实现步骤如下:

1)将图像f(x,y) 划分成大小相同的无重叠单元格(cell);

2)将 0 —180◦分为 9 个区间, 平均每 2 0◦为一个区间, 统计每个单元格中所有像素的梯度幅值和梯度方向, 将属于同一梯度方向区间的像素点的梯度幅值按照权重累加, 组成该单元格的9维方向梯度直方图;

3)将4个相邻的无重叠的单元格组合成一个块(block), 级联块中单元格的方向梯度直方图构成该块的方向梯度直方图特征;

4)级联所有块的方向梯度直方图, 得到整幅图像的HOG特征.

2.2 HRPOG特征算子

分析发现, 在HOG算子实现过程中, 图像f(x,y)中任意像素的梯度是一个具有大小和方向的矢量, 由顺序表示:

这里,hx和hy为梯度卷积模板, 记为hx=[−1 0 1] ,hy=[−1 0 1]T.

可以看出, 依据(2)式计算图像梯度受2个方面限制:1)仅考虑了中心像素点周围 2 个像素点的灰度变化情况, 提取的图像标量场的微观信息并不丰富, 也不准确; 2)仅描述了图像在水平方向和垂直方向上的灰度变化程度, 其他方向上的灰度变化并未考虑.鉴于此, 本文提出一种HRPOG特征算子, 一方面, 增加梯度卷积模板hx和hy的计算范围, 充分考虑中心像素点周围邻域像素点的灰度变化情况; 另一方面, 旋转模板hx和hy, 使HRPOG算子可以提取图像在不同方向上的梯度特征, 具有旋转不变性.具体设计细节如下:

首先, 将梯度卷积模板hx和hy设计为 3×3 大小(图2).模板中, 主方向(箭头指向)上的卷积权值设为3, 其余卷积权值设为1或–1, 使模板中所有卷积权值的和为零.可以看出, 相比传统HOG算子, HRPOG算子的梯度卷积模板既充分考虑了中心像素点周围邻域像素点的灰度变化情况, 同时, 卷积权值设置也可以有效增强图像在主方向(箭头指向)上的梯度变化信息.这里, 为了区分HRPOG算子中设置不同尺度的梯度卷积模板的情况, 定义 3 × 3尺度下的 HRPOG 算子为3-HRPOG.依据图2得到3-HRPOG算子的梯度矢量计算公式如下:

图2 3-HRPOG 算子的梯度卷积模板示意图 (a) hx 模板; (b) h y 模板Fig.2.Gradient convolution masks of 3-HRPOG feature descriptor:(a) hx mask; (b) hy mask.

其次, 在图2的基础上, 依据梯度卷积模板的主方向(箭头指向), 将hx和hy分别沿逆时针以45◦为间隔旋转一周, 依次得到8组旋转梯度卷积模板, 记为 3 −Group(i) (i=1,2,...8), 如图3 所示.采用(5)式分别计算图像在每组旋转梯度卷积模板主方向上的梯度矢量, 统计得到对应的主方向梯度直方图.将8组主方向梯度直方图依次累加, 得到最终的3-HRPOG特征向量.

图4进一步说明了3-HRPOG算子的旋转不变性.图4(a)是一幅二值图像(紫色表示0, 绿色表示1), 将其沿逆时针方向旋转 4 5◦, 得到图4(b),分别采用传统HOG算子以及3-HRPOG算子计算2种情况下的梯度矢量.分析发现, 传统HOG算子受图像旋转影响, 梯度矢量由 [ 1,0]T变为 [ 1,−1]T,而3-HRPOG算子的8组梯度矢量值不变, 仅出现顺序发生变化, 可见, 3-HRPOG算子可以提取图像在各个不同方向上的梯度变化信息, 不受图像旋转影响.

2.3 多尺度旋转主方向梯度直方图(multiscale histogram of rotated principal orientation gradients, Ms-HRPOG)特征算子

研究表明, 人眼视觉系统具有多尺度分析能力, 通过调节视网膜细胞感受野范围可以提取不同尺度下的目标信息, 从而更加全面准确地“认识”目标[49,50].受此启发, 本文在 2.2 节 3×3 尺度的 3-HRPOG算子基础上(图3), 将卷积模板尺寸扩展为5×5大小, 且卷积权值设置方法不变, 进一步设计出 5×5尺度的 5-HRPOG算子 (图5), 并将2种算子相互结合, 提出一种Ms-HRPOG特征算子, 特征提取流程如图6 所示, 其中, 5-HRPOG 特征提取步骤与3-HRPOG特征提取一致, 将二者级联得到最终的Ms-HRPOG特征向量.

3 稀疏表示和稀疏保持投影

稀疏表示 (sparse representation, SR)[3]是继小波变换、多尺度几何分析后, 又一新的信号表示方法, 基本思想是用超完备字典D中少量 (稀疏)原子线性组合来近似表示待测样本y:

图3 3-HRPOG 算子的旋转梯度卷积模板Fig.3.Rotated gradient convolution masks of 3-HRPOG feature descriptor.

图4 旋转不变性分析 (a) 原图及 HOG 和 3-HRPOG 的梯度矢量值; (b) 旋转 4 5◦ 图像及 HOG 和 3-HRPOG 的梯度矢量值Fig.4.Rotation invariance analysis:(a) Original binary image and gradient vectors of HOG and 3-HRPOG; (b) rotated 4 5◦ binary image and gradient vectors of HOG and 3-HRPOG.

这里采用l1范数约束向量α中非零编码个数,使其最少(最稀疏).乔立山等[33]受SR启发, 提出了稀疏保持投影 (sparsity preserving projections,SPP)算法, 通过在低维子空间保持高维样本之间的稀疏重构关系, 寻找最佳低维投影, 目标函数如下:

其中,Xi=[x1,...,xi−1,0,xi+1,...,xN]∈Rmn×N是样本集X中去除样本xi的超完备字典, 约束式松弛了重构条件, 1Tsi=1 使样本xi的稀疏重构权值si归一化, 这里1=[1,1,...,1]T∈RN×1.可见, SPP 中si描述了高维空间中样本xi与剩余样本的稀疏重构关系, 通过在低维空间中约束保持该局部属性, 由(8)式优化得到最佳低维投影矩阵P∈Rmn×d.

图6 Ms-HRPOG 特征提取示意图Fig.6.The sketch of Ms-HRPOG feature descriptor.

以LFW数据库为例, 图7给出了根据(7)式计算得到的某一样本图像的稀疏重构权值.图中,前10个为同类样本的重构权值, 后90个为异类样本的重构权值.由图7可以看出, 图中仅同类的第4个样本和第8个样本参与了重构(有权值), 而剩余的同类样本均未参与重构(权值为0); 相反, 某些异类样本在重构中具有较大权值, 如第29, 39,48, 65 个样本等.造成这种结果的原因是, 真实采集的人脸图像复杂多变, 同类样本受光照、遮挡、表情、年龄、姿态等影响, 彼此之间存在差异, 导致部分同类非近邻样本重构权值为0, 而不同类样本间又具有人脸结构相似特征, 造成部分异类伪近邻样本参与重构.可见, SPP算法在非约束人脸识别中仍有局限性, 不能准确描述样本的近邻重构关系.

图7 LFW数据库中某一图像的SPP稀疏重构权值Fig.7.Sparsity reconstruction weights of one sample with SPP algorithm on the LFW database.

4 判别稀疏图映射算法

鉴于SPP的局限性, 本文提出DSGE算法,从2个方面进行改进.一方面, 在稀疏图构建阶段,利用类别标签分别构建类内、类间重构关系矩阵,并且引入类内、类间紧凑度约束因子, 用以增强待测样本与同类非近邻样本的重构关系, 以及削弱异类伪近邻样本的重构影响; 另一方面, 在低维投影阶段, 增加全局约束因子, 利用样本全局分布中隐含的鉴别信息, 以类间重构散度最大、类内重构散度最小为目标计算最佳投影矩阵, 使低维子空间更紧致、更判别.

4.1 类内、类间重构关系矩阵

首先, 分析待测样本与同类样本之间的重构关系.设训练样本集X由C类样本子集X1,X2,...,XC组成, 表示为

其中,nk表示为第k类样本子集个数, 满足引入类别标签, 优化求解待测样本xij的类内稀疏重构权值, 目标函数如下:

这里,l(xij) 表示待测样本xij的类别, 取l(xij)=i,定义类内超完备字典

表示为除xij外的剩余同类样本子集.定义Γl(xij)为类内紧凑度约束因子, 记为与xij同类的所有样本的类内稀疏重构权值的平均向量, 最小化可以使同类样本的稀疏重构权值接近中心值, 增强待测样本与同类非近邻样本的重构关系.

依据(10)式分别计算样本子集Xi(i=1,2,...C)中同类样本的类内稀疏重构权值从而得到样本子集Xi的类内重构权值矩阵由此构建样本集X的类内重构关系矩阵Λw∈RN×N:

分析发现, (11)式保证了待测样本与同类样本的重构关系, 然而大量研究表明, 异类样本在样本集中的空间分布对低维投影的准确性也有很大影响, 因此, 有必要进一步考虑待测样本与异类样本的重构关系.定义目标函数如下:

为了便于描述样本集X的类间重构关系, 将扩展为N维列向量, 即

则样本子集Xi的类间重构权值矩阵表示为

由此得到样本集X的类间重构关系矩阵Bb∈RN×N:

4.2 DSGE低维投影

首先, 为了使低维子空间中同类样本尽可能聚合,在最小化类内重构误差基础下, 增加全局类内约束条件, 使得低维子空间数据既保留了样本间局部类内稀疏重构关系, 又考虑了同类样本子集的全局紧凑度分布特性.最小化类内重构散度目标函数如下:

这里为了描述方便, 不考虑样本类别, 定义xi为样本集X中的第i个样本,xj为第j个样本,对应类内重构关系矩阵Λw中相应元素, 描述了样本xi与xj的类内重构关系.定义全局类内约束因子是第i类样本子集,则是第i类样本子集的均值矩阵, 约束最小, 可以使得各类样本子集类内更紧凑.推导目标函数(14)得到

取Lw=I−Λw−(Λw)T+(Λw)TΛw, 则目标函数(14)转换为

同理, 为了使低维子空间中异类样本尽可能分离, 在最大化类间重构误差基础下, 又增加全局类间约束条件, 得到最大化类间重构散度目标函数如下:

结合(16)式和(18)式, 基于最大边界准则(maximum margin criterion, MMC)得到 DSGE 低维投影目标函数:

由拉格朗日乘子法, 在PTP=I约束条件下,(19)式转换为如下特征方程:

求取前d个最大特征值对应的特征向量, 构成最佳低维映射矩阵P∗=[p1,p2...,pd]∈Rmn×d.

5 基于DSGE-HPROG的算法

综上所述, 稀疏表示可以理解为函数逼近问题, 选择一个好的基函数对SRC分类器非常重要,因此, 本文将HRPOG和DSGE相结合, 提出一种DSGE-HPROG算法, 用以增强低维特征字典的鉴别性、紧致性和稳定性, 使SRC分类效果更理想.同时, 考虑DSGE算法中稀疏重构关系与SRC分类器的稀疏表示系数具有相同物理意义,本文又借鉴SRC-DP[40]思想, 将低维投影和稀疏图构建联合优化, 使SRC分类器在低维投影子空间获得最佳识别效果, 具体实现步骤如算法1所示.

算法1 DSGE-HRPOG算法

步骤1.采用HRPOG算子(单尺度或多尺度)提取训练样本X的特征, 并采用 PCA对HRPOG特征向量进行预处理降维, 构建特征字典DHRPOG

步骤2.初始化投影矩阵P0, 取迭代次数k=1 ;

步骤3.将特征字典DHRPOG投影到变换空间

步骤4.依据 (10–13)式计算变换空间Z=[Z1,Z2,...Zc]中任一样本zij与同类样本的重构关系矩阵Λw, 以及与异类样本的重构关系矩阵Bb;

步骤5.计算L(w=)I−(Λw)−(Λw)T+(Λw)TΛw和Lb=I−Bb−BbT+BbTBb, 代入特征方程(20)中, 取前d个最大特征值对应的特征向量构成投影矩阵Pk;

步骤6.取k=k+1 , 计算收敛条件|J(Pk)−J(Pk−1)|/|J(Pk)|;

步骤 7.若或迭代次数k大于设定值kmax, 则最佳投影矩阵P∗=Pk, 反之, 重复步骤3—步骤7.

6 实验结果

为了验证DSGE-HRPOG算法的有效性, 分别在 AR, Extended Yale B, LFW 和 PubFig 这4个人脸数据库上进行实验仿真.实验主要参数设置为λ1=λ3=0.5 ,λ2=λ4=1 ,kmax=20.所有实验均采用PCA进行数据预处理(取PCA Ratio=0.98), 在 Win10 64位操作系统、8 GB 内存和MATLAB R2017a仿真环境下完成.

6.1 AR数据库

AR数据库是在严格控制实验环境条件下采集的具有不同面部表情、照明条件和遮挡(包括太阳镜和围巾)的人脸正视图, 图像尺寸为50×40像素大小.本文选取120类人(65男55女)在2个阶段拍摄的图像, 其中每人每个阶段包含7张无遮挡图像(包含表情、光照影响)和6张遮挡图像(3张墨镜遮挡, 3张围脖遮挡), 样本如图8所示.HRPOG算子的参数设置为 1个 cell= 2×2 pixels, 1 个 block= 2×2 cells, bin= 9.

6.1.1 表情、光照、时间的影响

本实验主要分析表情、光照、时间等非遮挡因素对人脸识别的影响.取AR数据库中每类人在Session1中7张无遮挡图像作为训练样本,Session2中7张无遮挡图像作为测试样本进行实验仿真(表1).由表1可以看出, 在本文提出的DSGE-HRPOG算法框架下, 无论采用单尺度特征算子(3-HRPOG和5-HRPOG), 还是多尺度特征算子(Ms-HRPOG)构建特征字典, DSGE-HRPOG的识别率均高于其他算法, 与 DSNPE[37], DPNFL[51]和 SRC-DP[40]相比, 识别率最大提升了12.74%, 17.01% 和 13.61%.这说明, 本文提出的DSGE-HRPOG算法在降低人脸识别中表情、光照、时间等非遮挡影响时, 具有绝对的优势.同时,本实验又基于原始图像构建样本字典, 并采用DSGE算法进行字典降维, 得到DSGE-pixels的识别率为 76.79%, 相比 SPP[33], DSNPE[37], DP-NFL[51]和SRC-DP[40], 识别率分别提升了8.58%,0.72%, 4.99%和1.59%.这也从另一个角度说明,摒弃特征字典的作用, 本文提出的DSGE算法在去除数据冗余、构建低维判别字典方面也具有一定优势, 但将DSGE与HRPOG特征字典相结合,识别效果更佳, 如表1中所示, DSGE-HRPOG算法的识别率比DSGE-pixels最大提升了12.02%.

图8 AR 数据库部分样本图像Fig.8.Samples of one person in the AR database.

表1 AR数据库在表情、光照和时间干扰因素下的实验结果Table 1.Experimental results on the AR database with the interference factors of expression, illumination and time.

6.1.2 遮挡的影响

本实验主要分析遮挡因素对人脸识别的影响,包括眼镜遮挡、围巾遮挡以及混合遮挡3个方面.下面有针对性地设计3个实验, 依次进行实验仿真(表2).

表2 AR数据库在遮挡干扰因素下的实验结果Table 2.Experimental results of AR database with the occlusion interference.

实验1:取AR数据库中每类人在Session1中7张无遮挡图像和任意1张眼镜遮挡图像作为训练样本, 而Session2中7张无遮挡图像和3张眼镜遮挡图像, 以及Session1中剩余的2眼镜遮挡图像作为测试样本.

实验2:取AR数据库中每类人在Session1中7张无遮挡图像和任意1张围巾遮挡图像作为训练样本, 而Session2中7张无遮挡图像和3张围巾遮挡图像, 以及Session1中剩余的2围巾遮挡图像作为测试样本.

实验3:取AR数据库中每类人在Session1中7张无遮挡图像和任意1张眼镜遮挡图像以及任意1张围巾遮挡图像作为训练样本, 而Session2中7张无遮挡图像、3张眼镜遮挡图像、3张围巾遮挡, 以及Session1中剩余的眼镜和围巾遮挡图像作为测试样本.

分析表2中3个实验结果, 可以看出, 本文提出的DSGE-HRPOG算法在眼镜遮挡、围巾遮挡以及混合遮挡3种真实遮挡情况下, 均具有最佳识别效果, 其中, 基于Ms-HRPOG特征字典的识别率最高, 分别为 89.31%, 90.00% 和 91.06%, 比次优算法 SRC-FDC[42, 52]高 8.41%, 10.1% 和 10.76%.这说明, DSGE-HRPOG算法通过结合HRPOG特征字典以及DSGE低维投影的优势, 可以有效消除人脸识别中各种遮挡因素的影响, 具有较强的遮挡鲁棒性.同时, 从表2中也可以看出, 基于多尺度特征字典(Ms-HRPOG)的DSGE-HRPOG的识别率均高于基于单尺度特征字典(3-HRPOG和5-HRPOG)的情况, 这也说明, 采用多尺度特征融合策略有助于进一步提升特征字典的鉴别能力,增强系统的稳定性.

6.1.3 混合影响

前2个实验分别分析了遮挡因素以及非遮挡因素对人脸识别的影响, 本实验将遮挡因素和非遮挡因素综合考虑, 分析混合因素(遮挡、表情、光照、时间)对人脸识别的影响.随机取每类人26张(2个Session)图像中的13张图像作为训练样本,剩余图像作为测试样本进行实验仿真, 交叉验证10次(表3).分析发现, 当样本中随机包含各种不同干扰因素时, 本文提出的DSGE-HRPOG算法在消除人脸识别中遮挡、表情、光照、时间等混合影响时, 仍具有一定优势.相比文献[53]和[54]中提出的2个先进算法, 基于Ms-HRPOG特征字典的DSGE-HRPOG算法的平均识别率提升最多,分别提升了0.96%和1.7%.同时, 文献[53]和[54]算法的标准差分别为 0.53和 0.93, 而 DSGEHRPOG的标准差最大为0.17, 远远小于文献值,这也进一步说明了本文提出的DSGE-HRPOG算法不受样本选择和干扰因素变化的影响, 具有分类稳定性.

表3 AR数据库在混合干扰因素下的实验结果Table 3.Experimental results on the AR database with the mix interference factors.

6.2 Extended Yale B数据库

Extended Yale B数据库包含38类人在不同光照条件下拍摄的人脸正视图, 每类人约64张图像, 共 2414 张, 图像尺寸为 32×32 像素大小, 部分样本图像如图9所示.这里, HRPOG算子的参数设置与AR数据库一致.

图9 Extended Yale B 数据库部分样本图像Fig.9.Samples of one person in the Extended Yale B database.

在 Extended Yale B 数据库上, 首先分析不同强度光照对人脸识别的影响.随机选取每类人的10张图像作为训练样本, 剩余图像作为测试样本进行实验仿真(表4).由表4可以看出, 在多尺度特征字典情况下(Ms-HRPOG), DSGE-HRPOG算法可以达到92.48%的识别率, 相比近年来提出的先进算法GRSDA[39]和RCDA[52], 分别提升了9.78%和0.48%, 识别效果最佳.而在单尺度特征字典 (3-HRPOG和 5-HRPOG)情况下, DSGEHRPOG的识别率分别为91.35%和89.77%, 略低于 RCDA[52].可见, 在少量训练样本条件下, 多尺度特征更有助于消除人脸识别中不同强度的光照影响.

其次, 进一步验证 DSGE-HRPOG算法在Extended Yale B 数据库上的遮挡鲁棒性.本文又随机选取每类人14张图像, 在上面分别添加大小随机、位置随机的黑白点噪声块, 得到部分遮挡样本图像(图10).这里, 噪声块大小与图像大小比例在0.05—0.15任意取值.

下面设计2个实验, 用以讨论遮挡样本数量不同时, DSGE-HRPOG 算法的性能.实验 1:随机选取每类人32张图像作为训练样本, 其中包含14张遮挡图像, 剩余图像作为测试样本, 交叉验证10次; 实验2:随机选取每类人32张图像作为训练样本, 其中包含7张遮挡图像, 剩余图像作为测试样本, 交叉验证10次, 实验仿真结果如表5所示.从表5中可看出, 在光照和遮挡混合干扰情况下, DSGE-HRPOG算法仍具有最佳性能.当遮挡样本数为7张时, 基于Ms-HRPOG特征字典的平均识别率为98.10%, 当遮挡样本数增大到14张时, 识别率仍有 97.98%, 二者仅相差 0.12%.同样地, 基于3-HRPOG和5-HRPOG特征字典的平均识别率也高于其他算法, 并且在不同遮挡样本数量条件下, 实验结果仅相差0.43%和0.08%, 而其余算法则有近1%左右的差值.这充分说明, 无论是基于单尺度特征字典还是多尺度特征字典,DSGE-HRPOG算法不受遮挡样本数量和质量的影响, 系统性能稳定.

6.3 LFW和PubFig数据库

前面讨论是基于实验环境下采集的人脸数据库 (AR和 Extended Yale B)进行实验仿真和分析的, 实验结果具有一定的局限性, 本节将进一步对真实环境中采集的LFW和PubFig数据库上进行实验仿真, 使实验结果更具有说服力.

LFW(labeled faces in the Wild database)数据库[55−57]是从Internet上采集的真实人脸数据库, 共有13233张5749类人脸图像, 包含了光照、表情、姿态、遮挡、年龄、种族等多种混合干扰, 对于人脸识别来说非常具有挑战性.部分样本如图11(a)所示, 图像尺寸为 128×128 pixels.本文从中选取包含10张以上图像的人进行辨识, 得到158类人,共4324张图像, 随机选取每类人的5张图像作为训练样本, 5张图像作为测试样本进行实验(表6).HRPOG特征算子的参数设置为一个cell= 4×4 pixels, 一个 block= 2×2 cells, bin= 9.

表4 Extended Yale B 数据库在光照干扰因素下的实验结果Table 4.Experimental results of Extended Yale B database with the illumination interference.

图10 Extended Yale B 数据库部分遮挡样本图像Fig.10.Occlusion samples of one person in the Extended Yale B database.

表5 Extended Yale B 数据库在遮挡干扰因素下的实验结果Table 5.Experimental results of Extended Yale B database with the occlusion interference.

图11 部分样本图像 (a) LFW 数据库部分样本; (b)PubFig数据库部分样本Fig.11.Samples of one person:(a) LFW database; (b) Pub-Fig database.

表6 LFW 和 PubFig 数据库的实验结果Table 6.Experimental results on the LFW database and PubFig database.

PubFig(public figures face database) 数据库[56]与LFW数据库类似, 包括从互联网上采集到的200类知名人物的58797张图像.数据库中的人脸都是真实环境下拍摄的, 包含部分遮挡(眼镜、帽子等饰物)、极端光照、较大的姿势变换 (> 45°)、不同种族、年龄等干扰因素.部分样本如图11(b)所示, 图像尺寸为 100×100 pixels.本文从 PubFig数据库中随机选取100类人, 每类人20张图像进行实验仿真, 其中每类人的10张图像作为训练样本, 剩余图像作为测试样本(表6).HRPOG特征算子的参数设置为一个 cell= 10×10 pixels, 一个block= 2×2 cells, bin= 9.

从表6中可以看出, DSGE-HRPOG算法在LFW和PubFig这2个数据库上的识别率均高于其他算法, 其中, 基于3-HRPOG特征字典的识别率最高, 达到76.71%和 54.20%, 比文献 [41]提出的IRGSC算法提升了20.41%和5.7%, 比文献[57]提出的RRC算法提升了23.51%和12%, 比其他算法则提升更多.然而, 表中DSGE-pixels的识别效果并不理想, 在LFW数据库上识别率仅为51.52%, 低于 IRGSC[41]和 RRC[57], 在 PubFig 数据库上识别率为 38.6%, 低于 IRGSC[41], RRC[57]和 RSRC[3].可见, 在 LFW和 PubFig这 2个具有挑战性的非约束人脸数据库上, DSGE算法容易受样本影响, 近邻图构建不准确, 而 DSGEHRPOG算法通过结合HRPOG特征字典以及DSGE低维投影两方面的优势, 能够更准确挖掘出嵌入在真实复杂数据中的低维流形本质结构, 显著提高了系统的判别能力.

值得注意的是, 本文也采用传统HOG特征算子构建特征字典, 再与DSGE算法相结合, 得到DSGE-HOG的识别率为69.62%和49.00%, 分类效果仅次于DSGE-HRPOG算法, 并优于其他非特征字典算法.这进一步说明了, 在稀疏表示分类中, 首先采用特征算子提取图像特征用以构建特征字典, 对准确区分受不同因素干扰的真实环境采集的非约束人脸图像十分有效.同时, 这也从另一角度验证了, 相比传统HOG特征算子, 本文提出的HRPOG特征算子从多个尺度、多个方向捕捉人脸纹理的梯度变化信息, 可以更准确提取出人脸本质特征, 从而显著提高特征字典的鉴别性和鲁棒性.

6.4 参数性能分析

本节主要讨论DSGE-HRPOG算法中最优参数选择, 包括初始投影矩阵P0的选择、最大迭代次数kmax的选择, 以及有联合优化和无联合优化条件下的分类结果比较.以PubFig数据库为例, 图12为P0取随机矩阵、单位矩阵以及LDA投影矩阵作为初始值时, 在不同特征字典条件下的识别结果.从图12中可以看出, 无论采用单尺度特征字典(3-HRPOG或 5-HRPOG), 还是多尺度特征字典(Ms-HRPOG), 取初始投影矩阵P0为随机矩阵时,联合优化得到的P∗最佳, 分类效果最好.

图12 不同初始投影矩阵 P0 的识别率Fig.12.Recognition rates based on different initial matrix P 0.

图13为迭代次数与目标函数差值的曲线图,从图13中可以看出, 随着迭代次数k的增加, 目标函数J(Pk) 与J(Pk−1) 的差值越来与小, 当k⩾20后, 逐渐趋于稳定, 目标函数收敛.因此, 本文选取最大迭代次数kmax=20 作为算法1的截止条件之一.

图13 目标函数收敛曲线Fig.13.Convergence curve of the objective function.

最后, 表7给出有联合优化和无联合优化条件下, DSGE-HRPOG算法在PubFig数据库上的识别结果及对应最佳投影维度.这里取初始投影矩阵P0为随机矩阵, 最大迭代次数kmax=20.从表7中可以看出, 将维数约简过程伴随在稀疏图构建过程中, 可以使低维子空间数据逐渐逼近最佳判别分布, DSGE-HRPOG分类效果更理想.

表7 PubFig 数据库上有联合优化和无联合优化的实验结果Table 7.Experimental results with joint optimization and without joint optimization on the PubFig database.

7 结论

鉴于SRC分类器的局限性, 本文从字典构建、低维投影以及联合优化3个方面进行改进, 提出一种基于DSGE-HRPOG的算法.首先, 利用鉴别力和鲁棒性更强的HRPOG特征算子提取样本本质特征, 去除非约束人脸图像中包含的各种干扰因素, 增强同类字典原子间的相关性和异类原子间的差异性; 然后, 再与 DSGE 算法相结合, 进一步提升了特征字典的紧致性、判别性和稳定性; 最后,将稀疏图构建与低维投影联合优化, 在AR,Extended Yale B, LFW 以及 PubFig 这 4 个人脸数据库上进行实验仿真, 实验结果均表明, DSGEHRPOG算法相比传统流形学习算法以及现有先进算法, 均表现出卓越性能.需要强调的是,DSGE-HRPOG算法提供了一种稀疏图映射与局部特征提取相结合的研究思路, 为非约束人脸识别的实用化提供了有效解决方案.

近年来, 有许多学者[59,60]将图像、视频等数据组织为张量形式进行稀疏图映射降维, 避免了将多维数据强制表示为向量形式而引发的一系列问题.下一步, 我们将研究基于张量特征字典的稀疏重构技巧及优化算法, 对流形学习与字典学习进行改进和推广, 力争进一步提高非约束人脸识别准确率.