结合PCA的TLD人脸跟踪

2015-07-21 06:07伍靓袁奕珊陈姝

科技与创新 2015年12期

伍靓++袁奕珊++陈姝

摘要：目标检测通过样本学习可以得到目标有效视觉先验表示，在简单的跟踪环境下能够取得较好的跟踪效果。目标跟踪利用目标的在线信息，在复杂的背景下可以很好地跟踪目标。结合目标检测与目标跟踪的优点，在TLD算法的基础上提出一种基于PCA的在线人脸跟踪算法。人脸图像在首帧中手动标注，其他帧中综合中值光流法跟踪结果及PCA检测结果进行人脸跟踪，并根据跟踪结果在线更新PCA。实验结果表明，本文算法可以在光照变化、遮挡、复杂背景下进行人脸长序列跟踪。

关键词：在线学习；人脸跟踪；目标检测；跟踪模块

中图分类号：TP391.41 文献标识码：A DOI：10.15913/j.cnki.kjycx.2015.12.006

人脸跟踪研究对计算机视觉、模式识别等领域的发展具有重大的促进作用，在智能监控、公共安全、虚拟现实、人机交互等各个领域也有着广泛的应用。

经过多年的发展，人脸检测技术已经取得了重大的突破。伴随智能监控、公共安全等应用领域的发展需求，基于视频的人脸识别已成为人脸识别领域热门研究方向。TLD将传统的跟踪算法和传统的检测算法相结合，通过P-N在线学习机制建立目标模型。但是由于其缺乏对人脸特征单独的训练方法，在人脸跟踪中会因为背景成簇、光照变化等因素影响跟踪的准确性。

针对TLD的固有不足，本文结合PCA及TLD对视频中的人脸进行跟踪。在TLD跟踪框架下加入PCA检测模块能够提高人脸跟踪的准确性，改进的TLD跟踪框架在人脸追踪的过程中更加精确。

本文提出的基于视频的人脸跟踪系统包括人脸检测模块、人脸跟踪模块、跟踪-检测综合三个部分，下面分别进行详细介绍。

1 人脸检测

PCA（Principle Component Analysis）在人脸识别领域得到了广泛的应用，但其需要离线训练样本，而不能满足基于视频的在线人脸跟踪。在TLD跟踪框架中，缺乏对人脸这一特定跟踪目标的单独检测方法，当目标人脸丢失视野后，在视点变化、光照变化强烈的情况下，则不能快速检测到目标人脸。本文在TLD跟踪框架中加入了PCA人脸检测模块，有效地提高了TLD在人脸跟踪过程中对人脸的检测能力。

检测器在ORL人脸数据库上进行离线训练初始化。在首帧对目标手工标注后，对目标人脸进行一系列仿射变化，然后加入到正样本训练集X={x1，x2…xn}，其中，X为表示人脸的特征向量。训练样本集的协方差矩阵定义为：

CA=（AAT）/n. （1）

式（1）中：A={φ1，φ2……φn}，，，

即平均人脸；n为训练样本数。协方差矩阵CA为N×n矩阵，N为xi的维数。

由K-L变换原理可知，我们所求的新坐标系由矩阵AAT的非零特征值所对应的特征向量组成。直接求解N×n维矩阵CA的特征值和特征向量存在一定困难。根据奇异值分解原理，可以通过求解ATA的特征值和特征向量来获得AAT的特征值和特征向量。在计算得到CA的所有非零特征值[λ1，λ2……λr]（从

———————————————————————————

大到小排序，1≤r≤N）及其对应的单位正交向量[u1，u2……

ur]后，取令累积贡献率达到90%的前k个特征值及

其对应的特征向量组成特征变换矩阵U=[u1，u2……uη]∈RN×η，则一张待检测图片X在新的特征空间下的投影系数为：

Y=UT×X. （2）

计算平均人脸与待检测图片X的投影系数的距离d=

，当其值小于阈值时，便判定为人脸。

2 人脸跟踪

光流是一种简单实用的图像运动的表达方式，其运动可以由光流法获得。本文采取基于L-K光流计算的中值光流法对目标进行跟踪。

图1为目标区域光流特征采样图。如图所示，在上一帧跟踪的目标区域内均匀采样10×10个特征点。采用光流法对t时刻图像It中的特征点xt跟踪到t+k时刻图像It+k中的位置xt+k，然后反向跟踪，即再采用光流法从xt+k特征点往回反向跟踪至时刻t图像It中的位置。定义反向跟踪误差为：

. （3）

计算每个特征点的FB-Error，得到所有特征点的FB-Error均值EFB-Error，并过滤掉大于EFB-Error的特征点。

在上述保留的特征点基础上，在每个特征点周围取大小为10×10个像素的图像块，将该图像块与该特征点在上一帧中所取的图像块进行模版匹配，计算相似度Sim。由所有特征点的相似度计算均值ESim，并过滤掉大于ESim的特征点。通过以上两步骤过滤法，最终得到了具有良好跟踪效果的特征点，并通过这些特征点，预测下一帧图片目标所在位置。

目标区域内均匀采样10×10个特征点（白色），通过计算FB-Error和Sim舍弃追踪效果差的点，保留效果好的特征点并预测下一帧图片该特征点的位置，如图1中绿点所示。

3 结合检测与跟踪

在跟踪模块下，假设目标在帧与帧之间的位移有限，并且目标没有消失，跟踪器根据中值光流法预计出目标在两帧之间的运动。在检测模块下，检测器认为每一帧图片是独立的，并通过检测窗口来定位目标。跟踪结果和检测结果通过P-N学习在线建立目标模型。

3.1 目标模型更新

利用P-N在线学习方法来构造目标模型，目标模型由经过归一化的图像块组成的集合表示，其中，为第一个被添加的目标图像块，为第一个被添加的背景图像块。定义两图像块pi和pj之间的相似度为：

S（pi，pj）=0.5[NCC（pi，pj）+1]. （4）

式（4）中：NCC为归一化互相关系数。

对于任意待检测图像p，我们定义其与目标模型L的相似度如下：

最邻近正样本相似度： .

最邻近负样本相似度： .

相关相似度： .（Sr值越大，表示图像块越有

可能为目标）

保守相似度： .

对于任意一个图像块p，如果Sr（p，L）>θNN，则被分类为正样例；否则被分为负样本。其中，θNN在实验中设置为0.6.

3.2 跟踪器更新

由于检测器检测到的目标较多，先根据重叠度对检测到的

目标图像块进行聚类，得到检测集合，其中

之间重叠度小于0.5（重叠度的值等于两图像块交集与并

集的比）。

比较跟踪器跟踪到的图像块pt与检测器检测到结果经过聚类后的图像块pd之间的重叠度，如果重叠度小于0.5且的相似度大于跟踪器的相关相似度，且满足条件的pd个数为1，则采用满足条件的pd去纠正跟踪器；如果满足条件的pd的个数大于1，则取与pt重叠度大于0.7的所有pd的并集去纠正跟踪器。如果没有满足条件的pd，则求pt重叠度最大的pd和pt的坐标和大小，其中，pt权重较大。如果跟踪器丢失目标，但是检测器检测到一些目标图像块p，则对其进行聚类，并以重新初始化跟踪器。

3.3 检测器更新

在上一帧成功检测到的目标人脸的基础上，我们在距离目标框最近的扫描窗口内选择10个检测窗口bounding box，在每个bounding box内部利用几何变换，进行±1%范围的偏移，±1%范围的尺度变化，±10°的平面内旋转操作。在偏移、尺度、旋转指定范围内随机取值变化20次。10个初始bounding box就生成了200个仿射变化的bounding box，将这些bounding box作为正样本训练检测器。

图2 目标模型构造示意图

如图2所示，系统框架采用跟踪与检测相结合的方式，通过P-N在线学习机制构造目标模型。积分器整合跟踪窗口与检测窗口，并输出保守相似度最大的窗口。

4 实验测试及效果分析

本文共在4个人脸视频序列与TLD、MIL、FT算法进行了比较实验，其包含了人脸跟踪中所要解决的光照变化、目标形变、遮挡、尺度变化等问题。

实验比较效果如图3所示，在视频序列David中光照变化很剧烈，目标外观改变较大（目标在第596帧摘下眼镜），MIT算法采取多样例的学习方法，能够提取目标模型的典型特征，因此其在该视频中表现最好。本文采用中值光流法结合经过离线训练的PCA人脸检测器的方法，在该视频跟踪过程中没有产生跟踪漂移，也能够稳定地对目标进行跟踪。在视频序列face中，目标遭遇遮挡，中值光流法中的特征点筛选跟踪策略有效地解决了目标部分遮挡问题，而FT算法通过对模型的碎片化处理，在遮挡情况下的表现最好。但是，FT算法受目标的形变影响最大，而本文采用的PCA检测器结合P-N在线学习方法建立的目标模型，有效适应了目标的外观变化，能够很好地解决视频序列ssm7、dudek目标形变、尺度变化问题。

（a）David（第163，499，730帧）

（b）dudek（第103，369，829帧）

（c）ssm7（第6，83，163帧）

（d）face（第22，91，291帧）

注：蓝色实线框为本文算法，红色虚线框为FT，绿色虚线框为TLD，黄色虚线框为MIL

图3 实验视频跟踪效果截图

参考文献

[1]Chellappa R，Wilson C，Sirohey S.Human and machine recognition of faces[J].A survey.Proceedings of the IEEE，1995（5）.

[2]D.Ross，J.Lim，R.Lin，et al.Incremental Learning for Robust Visual Tracking[J].International Journal of Computer Vision，2007（77）.

[3]D.Comaniciu，V.Ramesh，P.Meer.Kernel-Based Object Tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2003（5）.

[4]Z.denek Kalal，K Mikolajczyk，J Matas.P-N Learning：Bootstrapping Binary Classfiers by Structural Constraints[J].CVPR，2010（6）.

[5]Z.denek Kalal，K Mikolajczyk，J Matas.Tracking Learning Detection[J].PAMI，2010（1）.

[6]B.D.Lucas，T. Kanade.An iterative image registration technique with an application to stereo vision[J]. IJCAI，1981（81）.

〔编辑：王霞〕

文章编号：2095-6835（2015）12-0008-02