基于离散余弦变换基函数迭代的人脸图像识别

2020-03-19 04:39于万波王香香王大庆
图学学报 2020年1期
关键词:傅里叶图像识别识别率

于万波, 王香香, 王大庆

(大连大学信息工程学院,辽宁 大连 116622)

在图像识别、图像追踪、视频检索等领域,图像特征提取、表示与操作是关键技术。目前图像特征包括颜色、纹理、形状特征及空间关系特征等,从不同的角度反映图像的特性与共性等[1-6]。

使用神经网络提取图像特征,如文献[7]给出的深度学习(deep learning)方法具有较好的识别效果。神经网络方法已经逐渐成为一种新的图像特征表示方式。

基于混沌理论的图像识别及理解也有相关文献刊载,不过目前仍处于探索阶段[8-11]。

文献[12-13]发现一个正弦函数与一个随机多项式函数构成动力系统,在一定的参数区间内, 混沌的概率接近 90%;在文献[14]中,使用三角函数作为辅助函数,迭代得到图像的近似混沌吸引子,应用于 Yalefaces数据库,识别率达到 80%。之所以三角函数具有较好的混沌特性,是由于其振荡且多数位置的导数绝对值较大。考虑到三角函数的这种特性,在大脑皮层柱状结构的启发下,尝试用离散余弦变换基函数代替正弦函数作为辅助函数,构造动力系统进行研究。

离散余弦变换(discrete cosine transform,DCT)基函数在信号处理、图像压缩等领域中有着重要的应用,这其中可能存在着尚未发现的机理。

1 DCT基函数矩阵与图像构成动力系统

1.1 DCT基函数矩阵

DCT是由基函数组合而成的。其图像在空间中呈现出一种形似封闭的凸凹形体,且值域在[-1,1]之间,如图1所示。

1.2 DCT基函数与图像构成动力系统

DCT基函数记为E(u,v),图像函数记为G(u,v),给定初始值,然后使用式u=z1,v=z2进行迭代,得到动力系统,即

一般当p,q与M,N约数较少,或者当p,q较大时,动力系统的混沌特性较强,序列不愿意陷入到周期点,图 2(a)是迭代用的灰度图像(即式(1)中的G(u,v)),图2(b)是式(2)迭代后的轨迹(序列)点集,其中p=192,q=128;图2(c)是当p=192,q=193时迭代后的轨迹(序列)点集;当p=192,q=128时,E(u,v)只有4个值,也就是说,最后u的值只有 4个,也只能在图像上4条横线上进行迭代;图2(d)是当p=255,q=255时的序列点集。

图1 离散余弦函数图像

图2 人脸图像与不同DCT基函数的迭代吸引子

1.3 DCT基函数作用下的图像吸引子

取Yalefaces数据库中的N组(即N个人的)图像,令p=253,q=251,随机生成256个迭代初始值(点),每个初始值迭代20次,将大于5的记载下来,得到吸引子。通过初步观察可以发现,同组图像的吸引子从形状上是相似的。下节将给出具体生成吸引子以及图像识别方法。

2 图像迭代识别方法

2.1 图像迭代识别方法

DCT基函数作为辅助函数的迭代识别方法:

(1) 清空内存中存储的变量。

(2) 生成DCT基函数矩阵:①给定M,N,p,q值,计算DCT基函数矩阵E,对于常用的人脸库,令M=256,N=256;②将矩阵E的元素调整为1到256。将E的每个元素加1然后除以2,再乘以256,取整。

(3) 读入每组图像并计算平均特征:①读入 1幅图像(适当裁剪边缘效果较好),用插值方法调整到256×256大小,存储在数组G中,计算G与E迭代得到的吸引子点阵;②计算每一个图像的吸引子点阵的二维傅里叶变换,变换后的矩阵称为特征阵,特征存储在数组Y(j,i, : ,:)中,表示第j组的第i幅图像特征。计算每一组图像的各个特征和平均值,即把每组图像特征阵相加然后除以该组图像个数。将特征存储在数组Fea(jj, : ,:)中,jj表示第几组,后面两维表示特征。

(4) 计算要识别图像的特征:与(3)中第一步计算每组图像的特征相同,(重新)随机生成k个初始值,对于每个初始值均迭代d次,将每次迭代后的(u,v)位置记载下来,存储在数组R(:,:)中,即将R(u,v)的值设置为1,直至每个初始值都计算存储完毕。计算R的二维傅里叶变换,存储在数组Rfft中,这就是该图像的特征。

(5) 计算Rfft与Fea(jj,:,:)中的每一组的特征的相关系数,相关系数最大的就认为是该组图像,即是这个人。例如当jj=5时,相关系数最大,那么就认为该图像是第5个人。

(6) 输出结果:对于0≤p≤255,0≤q≤255,都能识别出160个以上,一半以上的p,q识别出165个(识别率100%),总体识别率超过0.969 7。识别率超过了文献[15]中的 87.21%和文献[16]中的91.83% (使用了深度学习方法)。

实验中每一组的所有图像均参加训练。另计算傅里叶变换使用Matlab中的fft2函数;计算相关系数使用Matlab中的corrcoef函数。

2.2 未参加训练的图像识别效果

在实验中,待识别的每幅图像(每组 11幅)都参加了训练,对每组的前10幅图像进行训练,最多可以识别出163幅,此时p=255,q=255。若以前 5幅图像进行训练,那么对于165幅图像,最多可以识别出 142幅(此时p=255,q=255)。识别率为0.860 6,只有23幅图像没有识别出来,平均每组有1.533幅图像没有识别出来。

该方法对训练过的图像敏感,即对于参加过训练的图像,识别出的概率大于没有参加训练的图像。这有待于进一步分析研究。

2.3 机理分析

该方法具有较高识别率的主要原因有2个,一个是每幅图像的吸引子是稳定的,即对于不同的初始值,当离散余弦基函数矩阵一定时,吸引子的形状,特别是频域特性非常稳定。例如,每组的第 7幅图像因为比较暗,所以吸引子比较小,但是将吸引子进行傅里叶变换后,每组第7幅图的识别效率明显提高。尽管吸引子图形大小不同,点集之间有微小的错位(即混沌的初值敏感性),但是形状相似的图像吸引子的频域特性极其相似。之所以该方法对每幅图像的记忆辨析能力极强,是因为每幅图像特征均存储在一个稀疏矩阵中,个性表达能力极强。

以上方法是将吸引子矩阵进行二维傅里叶变换,实际上,将吸引子矩阵投影到一维,计算一维傅里叶变换,然后计算相关系数,效果也较好。

3 CMU PIE人脸库的识别效果

为验证该方法的有效性,再利用人脸库 CMU PIE进行实验。

3.1 对于原低分辨率图像识别

利用2.1节的方法,使用式(2)对离散余弦矩阵进行调整,即先计算其最大值、最小值,然后将矩阵调整到[0,1]之间,再乘以图像的宽或高N(一般将图像的宽高调整为一样大小)。

其中,max和min分别为原DCT基函数矩阵A的最大值和最小值;B为调整后得到的新矩阵。

每张图像进行调整,将其灰度值(利用插值方法)调整到1与N之间,有利于迭代产生质量较好的吸引子。

Pose05_64×64图像库内有68个人,每人49幅图像,共3 332幅图像。每幅图像均为64×64大小,现使用64×64图像直接进行识别,离散余弦基函数的M,N均取值为64。随机生成36个初始值(点),每个初始值迭代50次,大于40次时记录(u,v)。对于多数p,q,识别率大于80%,每幅识别时间小于0.1 s。一半以上的p,q识别率超过83%。

统计结果见表1。

使用文献[14]中的正弦函数作为辅助函数,用于Pose05_64×64图像,识别率不超过0.8,说明DCT方法优于文献[14]中的正弦函数方法。并且DCT方法更易于调整参数,可根据图像等特点给出参数。

表1 Pose05_64×64图像识别效果

因为特征矩阵是稀疏的,并且要进行傅里叶变换,所以计算特征时,可以求和后除以小于49的数。另外,从统计结果看,p,q是奇素数时效果好。

当p=63,q=57时,最多可识别出 1 505幅图像,识别率达到1505/1632×100%=92.22%。

因为识别是利用动力系统的周期点分布,所以在此实验中,当迭代次数较少时(大于2小于15),体现的是个性,当迭代次数多于 15次时,主要记载的是图像的共性。

3.2 插值调整到128×128大小

当把 Pose05_64×64数据库中的人脸图像调整到128×128时,识别效果有所提高。

表2中每组用时20 min,平均每幅用时0.073 5 s。

表2 调整分辨率后识别效果统计

未识别出的图像如图 3所示。其原因包括灰度、表情等,还有混沌的偶然因素,因此可用多个p,q值综合起来进行识别。不同的p,q提取图像特征的部位是有差别的。

图3 未识别出的人脸图像

人脸图像灰度过亮或过暗时,影响迭代操作,搜索过亮平滑区域与过暗区域,以区域平均值为基础从中间到外围辐射状修正灰度值,调整灰度后,识别率有较大提高。

3.3 插值调整到256×256大小

事实上,将CMU PIE数据库中的图像调整到256×256时,效果最好。

对离散余弦矩阵调整,再对每幅图像进行调整,调整到[256,256,256]内。

对于Pose05_64×64数据库,多数p,q的识别率均超过了 90%,对于 Pose09_64×64图像库,多数p,q均超过了95%。

在实验中,所有图像均参加了训练。图 4是Pose05_64×64数据库的前3组图像与1,2,3组图像的组特征的相关系数比较图。由于图像数量所限,只取前3组(每组50个)为例展示。

实验中也发现,如果不使用傅里叶变换,直接计算相关系数,那么识别率极差。说明傅里叶变换的重要性,也说明图像的吸引子是轮廓形状相似,但是大小以及位置并不相同。

图4 当p=253,q=249时的相关系数比较

4 结 束 语

本文利用 DCT基函数作为辅助函数与图像函数构成动力系统,迭代产生的混沌吸引子可以作为图像特征用于图像识别。这是一种新的图像特征提取方法,该方法主要是进行迭代运算,简单、运行速度快。利用这种特征在Yelefaces数据库以及其他人脸数据库上进行实验,在经过训练的情形下,15组 165幅的Yalefaces数据库识别率能够达到100%,68人3 332幅图像的数据库识别率能够超过99%。该结果再一次预示利用混沌描述表达复杂信息的可能性,同时这种构造混沌的方法也是混沌理论研究的一个实例。图像混沌吸引子更大的意义可能不在于对人脸的识别,而是在于显示了用点集(或者说利用混沌迭代)表达概念的可能性。该方法本质上与Hopfield反馈网络相似,每次迭代得到的是不同位置上的 0,1数据,可以作为深度学习的一个阶段性方法,与卷积网络等深度学习方法结合在一起使用。

猜你喜欢
傅里叶图像识别识别率
一种傅里叶域海量数据高速谱聚类方法
法国数学家、物理学家傅里叶
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
图像识别在物联网上的应用
图像识别在水质检测中的应用
基于傅里叶域卷积表示的目标跟踪算法
档案数字化过程中OCR技术的应用分析
科技文档中数学表达式的结构分析与识别