基于离散余弦变换基函数迭代的人脸图像识别

2020-03-19 04:39于万波王香香王大庆

图学学报 2020年1期

关键词：傅里叶图像识别识别率

于万波，王香香，王大庆

(大连大学信息工程学院，辽宁大连 116622)

在图像识别、图像追踪、视频检索等领域，图像特征提取、表示与操作是关键技术。目前图像特征包括颜色、纹理、形状特征及空间关系特征等，从不同的角度反映图像的特性与共性等[1-6]。

使用神经网络提取图像特征，如文献[7]给出的深度学习(deep learning)方法具有较好的识别效果。神经网络方法已经逐渐成为一种新的图像特征表示方式。

基于混沌理论的图像识别及理解也有相关文献刊载，不过目前仍处于探索阶段[8-11]。

文献[12-13]发现一个正弦函数与一个随机多项式函数构成动力系统，在一定的参数区间内，混沌的概率接近 90%；在文献[14]中，使用三角函数作为辅助函数，迭代得到图像的近似混沌吸引子，应用于 Yalefaces数据库，识别率达到 80%。之所以三角函数具有较好的混沌特性，是由于其振荡且多数位置的导数绝对值较大。考虑到三角函数的这种特性，在大脑皮层柱状结构的启发下，尝试用离散余弦变换基函数代替正弦函数作为辅助函数，构造动力系统进行研究。

离散余弦变换(discrete cosine transform，DCT)基函数在信号处理、图像压缩等领域中有着重要的应用，这其中可能存在着尚未发现的机理。

1 DCT基函数矩阵与图像构成动力系统

1.1 DCT基函数矩阵

DCT是由基函数组合而成的。其图像在空间中呈现出一种形似封闭的凸凹形体，且值域在[-1，1]之间，如图1所示。

1.2 DCT基函数与图像构成动力系统

DCT基函数记为E(u,v)，图像函数记为G(u,v)，给定初始值，然后使用式u=z1,v=z2进行迭代，得到动力系统，即

一般当p，q与M，N约数较少，或者当p，q较大时，动力系统的混沌特性较强，序列不愿意陷入到周期点，图 2(a)是迭代用的灰度图像(即式(1)中的G(u,v))，图2(b)是式(2)迭代后的轨迹(序列)点集，其中p=192，q=128；图2(c)是当p=192，q=193时迭代后的轨迹(序列)点集；当p=192，q=128时，E(u,v)只有4个值，也就是说，最后u的值只有 4个，也只能在图像上4条横线上进行迭代；图2(d)是当p=255，q=255时的序列点集。

图1 离散余弦函数图像

图2 人脸图像与不同DCT基函数的迭代吸引子

1.3 DCT基函数作用下的图像吸引子

取Yalefaces数据库中的N组(即N个人的)图像，令p=253，q=251，随机生成256个迭代初始值(点)，每个初始值迭代20次，将大于5的记载下来，得到吸引子。通过初步观察可以发现，同组图像的吸引子从形状上是相似的。下节将给出具体生成吸引子以及图像识别方法。

2 图像迭代识别方法

2.1 图像迭代识别方法

DCT基函数作为辅助函数的迭代识别方法：

(1) 清空内存中存储的变量。

(2) 生成DCT基函数矩阵：①给定M，N，p，q值，计算DCT基函数矩阵E，对于常用的人脸库，令M=256，N=256；②将矩阵E的元素调整为1到256。将E的每个元素加1然后除以2，再乘以256，取整。

(3) 读入每组图像并计算平均特征：①读入 1幅图像(适当裁剪边缘效果较好)，用插值方法调整到256×256大小，存储在数组G中，计算G与E迭代得到的吸引子点阵；②计算每一个图像的吸引子点阵的二维傅里叶变换，变换后的矩阵称为特征阵，特征存储在数组Y(j,i, : ,:)中，表示第j组的第i幅图像特征。计算每一组图像的各个特征和平均值，即把每组图像特征阵相加然后除以该组图像个数。将特征存储在数组Fea(jj, : ,:)中，jj表示第几组，后面两维表示特征。

(4) 计算要识别图像的特征：与(3)中第一步计算每组图像的特征相同，(重新)随机生成k个初始值，对于每个初始值均迭代d次，将每次迭代后的(u,v)位置记载下来，存储在数组R(:,:)中，即将R(u,v)的值设置为1，直至每个初始值都计算存储完毕。计算R的二维傅里叶变换，存储在数组Rfft中，这就是该图像的特征。

(5) 计算Rfft与Fea(jj,:,:)中的每一组的特征的相关系数，相关系数最大的就认为是该组图像，即是这个人。例如当jj=5时，相关系数最大，那么就认为该图像是第5个人。

(6) 输出结果：对于0≤p≤255，0≤q≤255，都能识别出160个以上，一半以上的p，q识别出165个(识别率100%)，总体识别率超过0.969 7。识别率超过了文献[15]中的 87.21%和文献[16]中的91.83% (使用了深度学习方法)。

实验中每一组的所有图像均参加训练。另计算傅里叶变换使用Matlab中的fft2函数；计算相关系数使用Matlab中的corrcoef函数。

2.2 未参加训练的图像识别效果

在实验中，待识别的每幅图像(每组 11幅)都参加了训练，对每组的前10幅图像进行训练，最多可以识别出163幅，此时p=255，q=255。若以前 5幅图像进行训练，那么对于165幅图像，最多可以识别出 142幅(此时p=255，q=255)。识别率为0.860 6，只有23幅图像没有识别出来，平均每组有1.533幅图像没有识别出来。

该方法对训练过的图像敏感，即对于参加过训练的图像，识别出的概率大于没有参加训练的图像。这有待于进一步分析研究。

2.3 机理分析

该方法具有较高识别率的主要原因有2个，一个是每幅图像的吸引子是稳定的，即对于不同的初始值，当离散余弦基函数矩阵一定时，吸引子的形状，特别是频域特性非常稳定。例如，每组的第 7幅图像因为比较暗，所以吸引子比较小，但是将吸引子进行傅里叶变换后，每组第7幅图的识别效率明显提高。尽管吸引子图形大小不同，点集之间有微小的错位(即混沌的初值敏感性)，但是形状相似的图像吸引子的频域特性极其相似。之所以该方法对每幅图像的记忆辨析能力极强，是因为每幅图像特征均存储在一个稀疏矩阵中，个性表达能力极强。

以上方法是将吸引子矩阵进行二维傅里叶变换，实际上，将吸引子矩阵投影到一维，计算一维傅里叶变换，然后计算相关系数，效果也较好。

3 CMU PIE人脸库的识别效果

为验证该方法的有效性，再利用人脸库 CMU PIE进行实验。

3.1 对于原低分辨率图像识别

利用2.1节的方法，使用式(2)对离散余弦矩阵进行调整，即先计算其最大值、最小值，然后将矩阵调整到[0，1]之间，再乘以图像的宽或高N(一般将图像的宽高调整为一样大小)。

其中，max和min分别为原DCT基函数矩阵A的最大值和最小值；B为调整后得到的新矩阵。

每张图像进行调整，将其灰度值(利用插值方法)调整到1与N之间，有利于迭代产生质量较好的吸引子。

Pose05_64×64图像库内有68个人，每人49幅图像，共3 332幅图像。每幅图像均为64×64大小，现使用64×64图像直接进行识别，离散余弦基函数的M，N均取值为64。随机生成36个初始值(点)，每个初始值迭代50次，大于40次时记录(u,v)。对于多数p，q，识别率大于80%，每幅识别时间小于0.1 s。一半以上的p，q识别率超过83%。

统计结果见表1。

使用文献[14]中的正弦函数作为辅助函数，用于Pose05_64×64图像，识别率不超过0.8，说明DCT方法优于文献[14]中的正弦函数方法。并且DCT方法更易于调整参数，可根据图像等特点给出参数。

表1 Pose05_64×64图像识别效果

因为特征矩阵是稀疏的，并且要进行傅里叶变换，所以计算特征时，可以求和后除以小于49的数。另外，从统计结果看，p，q是奇素数时效果好。

当p=63，q=57时，最多可识别出 1 505幅图像，识别率达到1505/1632×100%=92.22%。

因为识别是利用动力系统的周期点分布，所以在此实验中，当迭代次数较少时(大于2小于15)，体现的是个性，当迭代次数多于 15次时，主要记载的是图像的共性。

3.2 插值调整到128×128大小

当把 Pose05_64×64数据库中的人脸图像调整到128×128时，识别效果有所提高。

表2中每组用时20 min，平均每幅用时0.073 5 s。

表2 调整分辨率后识别效果统计

未识别出的图像如图 3所示。其原因包括灰度、表情等，还有混沌的偶然因素，因此可用多个p，q值综合起来进行识别。不同的p，q提取图像特征的部位是有差别的。

图3 未识别出的人脸图像

人脸图像灰度过亮或过暗时，影响迭代操作，搜索过亮平滑区域与过暗区域，以区域平均值为基础从中间到外围辐射状修正灰度值，调整灰度后，识别率有较大提高。

3.3 插值调整到256×256大小

事实上，将CMU PIE数据库中的图像调整到256×256时，效果最好。

对离散余弦矩阵调整，再对每幅图像进行调整，调整到[256，256，256]内。

对于Pose05_64×64数据库，多数p，q的识别率均超过了 90%，对于 Pose09_64×64图像库，多数p，q均超过了95%。

在实验中，所有图像均参加了训练。图 4是Pose05_64×64数据库的前3组图像与1，2，3组图像的组特征的相关系数比较图。由于图像数量所限，只取前3组(每组50个)为例展示。

实验中也发现，如果不使用傅里叶变换，直接计算相关系数，那么识别率极差。说明傅里叶变换的重要性，也说明图像的吸引子是轮廓形状相似，但是大小以及位置并不相同。

图4 当p=253，q=249时的相关系数比较

4 结束语

本文利用 DCT基函数作为辅助函数与图像函数构成动力系统，迭代产生的混沌吸引子可以作为图像特征用于图像识别。这是一种新的图像特征提取方法，该方法主要是进行迭代运算，简单、运行速度快。利用这种特征在Yelefaces数据库以及其他人脸数据库上进行实验，在经过训练的情形下，15组 165幅的Yalefaces数据库识别率能够达到100%，68人3 332幅图像的数据库识别率能够超过99%。该结果再一次预示利用混沌描述表达复杂信息的可能性，同时这种构造混沌的方法也是混沌理论研究的一个实例。图像混沌吸引子更大的意义可能不在于对人脸的识别，而是在于显示了用点集(或者说利用混沌迭代)表达概念的可能性。该方法本质上与Hopfield反馈网络相似，每次迭代得到的是不同位置上的 0，1数据，可以作为深度学习的一个阶段性方法，与卷积网络等深度学习方法结合在一起使用。