视频图像中基于特征匹配的人流量统计

2011-06-25 09:39高陈强余迪虎

电视技术 2011年15期

高陈强，余迪虎，李强，查力

（重庆邮电大学信号与信息处理重庆市重点实验室多媒体通信技术研究所，重庆 400065）

0 引言

传统的基于视频图像的人流量统计的一般过程是：首先采用合适的方法进行运动目标检测，然后通过形态学处理、区域分析、运动跟踪等过程统计出人流量。在这个过程中，最重要的步骤是前期的运动目标检测，常见的方法有帧差法、背景建模法、光流法等[3-5]。帧差法简单、易于实现，但容易形成“空洞”；背景建模法稳健性较强，但是当场景中运动目标占整个场景的比例较大且运动缓慢时，建模效果较差；光流法计算量最大，很难满足实时性要求。此外，把机器学习技术应用到人流量统计也得到了一些研究，如Boosting[6]、神经网络[7]方法。该方法的一般思路是：首先利用机器学习方法检测出行人，进而统计出人流量。为了达到较好的行人检测效果，需要采集大量的训练样本，同时往往要求图像的成像质量较好。该方法的难点之一是如何处理拥挤情况下的行人遮挡问题。

在实际应用中（如建筑物楼梯间人流量统计等），往往会遇到许多复杂场景，如检测场景较小；行人在场景中占较大比例；行人之间出现遮挡等情况；行人的运动会影响整个场景的光照变化等。因此，传统的方法以及基于机器学习的方法都很难取得较好的效果。本文提出了一种基于特征匹配的人流量统计方法。其核心思想是对行人穿过检测区域这一过程的视频提取特征，即用一个特征向量来描述这段视频。该方法分为两个阶段：第一阶段是采集少量有代表性的样本，每个样本由特征向量和对应的人数组成，并根据人数进行分类；第二阶段是人流量统计阶段，提取行人穿过检测区域这一过程的视频的特征向量，然后把该特征向量与样本库的每类样本进行匹配，得到最佳的人数估计，然后累加每个过程中最佳人数估计，得到总人数。实验结果表明，该方法具有较好的统计效果。

1 特征向量提取

1.1 特征向量提取区域及方法

把一段包含运动行人的视频序列相邻帧作差分，并将差分图像二值化为只含0和1的二值图像，则每帧二值化图像中为“1”的像素点数与视频帧数的对应关系如图1所示。其中，横轴表示视频帧数，纵轴表示为“1”的像素点的个数。图1中从第N1帧到第N2帧，即区间[N1，N2]为无运动目标通过的视频段；从第N2帧到第N3帧，即区间[N2，N3]为运动目标进入检测区到离开的视频段。在下文中，称区间[N2，N3]这样的视频段为“运动视频段”。从图1中可以清晰地看到有3段运动视频段，从而可以提取3个特征向量分别对应这3个运动视频段。

本文通过如下的方法从视频序列中提取运动视频段：首先判断当前帧对应的差分图像的二值化图像中为“1”的像素点的个数，像素点个数大于阈值Nth时，认为该帧图像中有运动目标，反之则无运动目标；然后提取连续出现运动目标的帧对应的帧数，得到这些连续帧对应的区间[a,b]，计算区间的长度length=b-a。对于运动目标在场景中没有停留的情况，运动视频段对应一个区间，对于运动目标在场景中有停留，运动视频段对应连续几个区间。最后设定阈值α和β(α＜β)：当length＞β时，该区间对应的视频段为一段运动过程，提取该区间对应的视频段可以得到一个运动视频段；当α＜length＜β时，连续的几段区间对应的视频为一段运动视频段，提取这几段区间对应的视频可以得到一个运动视频段；当length＜α时，可以理解为该段视频中的“运动目标”可能是噪声等引起的，对应的视频段不是所需要的运动视频段。通过上述步骤可以有效地从视频中提取运动视频段。下文中，样本库的建立以及人流量统计阶段的运动视频段的提取都是根据上述方法实现的。

1.2 提取特征向量

特征向量的提取是本文的重点之一，不仅在第一阶段的样本库的建立需要提取特征向量，而且在第二阶段对人流量进行统计、提取特征向量也是必须的。通过如下方法可以提取一个描述运动视频段时域和空域信息的特征向量。特征向量提取包括图像处理、特征图像提取以及特征向量提取。

1）图像处理

为了较方便地提取特征向量以及减少计算量，本文采用灰度图像。若视频为彩色，首先将每帧视频图像转化成灰度图像，然后提取特征图像。反之，直接提取特征图像。

国际上有关环境管理和绿色生产的标准有很多，企业可以通过ISO14000的标准认证机制在内部建立起低碳生产和绿色管理的新体系，将企业生产、产品设计、工艺技术控制、包装运输、销售服务等环节进行系统调整和重新建设，发挥出各方面、各部门在绿色生产和低碳发展上的优势和积极性，真正建立起企业生产、供应、管理的绿色链条，在企业内部将低碳经济转化为可以执行、操作和实施的操作和行为。

2）特征图像提取

首先，提取第k-1帧和第k帧灰度图像的差分图像Dk，k∈(2,3,…)。并根据差分图像提取行人区域，从而提取出视频运动段的时域信息。然后，利用Sobel算子求出第k帧X方向的梯度图像和Y方向的梯度图像，提取视频运动段的频域信息，得到fxk(x,y)和 fyk(x,y)，其中fxk(x,y)和fyk(x,y)分别为第k帧图像X，Y方向的梯度图像像素值。最后根据差分图像、X方向、Y方向梯度图像，通过公式（1），求出当前帧的特征图像fk(x,y)3）特征向量提取

在特征图像提取阶段，根据差分图像可以得到行人在当前帧中的大致区域，以及该帧对应的特征图像。特征图像中存在大量的背景信息，而这些信息不是所需要的，甚至严重影响了有用的行人信息，使特征向量不能有效描述运动视频段。为了提取更有效的行人信息，根据各个差分图像行人区域，统计其对应的特征图像中该区域的特征直方图向量Xk=(x1,x2,…,xn)T，以及该区域总像素点的个数sumk。其中n表示划分特征值域bin的个数。然后，累加所有特征图像的Xk以及sumk，得到运动视频段总的直方图向量Xsum和总像素点个数Sum，其中

然后归一化Xsum，得到特征向量X∈Rn。其中

2 基于特征匹配的人流量统计

常用的分类判别都是基于欧式空间，由于欧式空间受到量纲的限制，影响了系统性能。马氏距离考虑模式特征参数的大小以及特征间的相关性，克服了欧氏距离受量纲影响的缺点。在此基础上本文提出了基于马氏距离特征匹配的人流量统计算法。

2.1 马氏距离

马氏距离[8-9]是由印度统计学家马哈拉诺比斯（P.C.Mahalanobis）提出的，表示数据的协方差距离。马氏距离常用平方形式表示。设Z为测试向量，M为样本集(X1,X2,…,XK)的均值向量，C为该样本总体的协方差矩阵，则向量Z到这个样本均值的马氏距离定义为

其中，均值向量M及协方差矩阵C分别为

向量Z到均值向量为M的类的马氏距离表示的是Z与该模式类的相似性的大小，马氏距离越小，说明模式Z与该模式类的相似程度越大；反之，说明相似程度越小。

2.2 基于马氏距离特征匹配的人流量估计

为了估计运动视频段中包含的人数，首先需要建立样本库，其流程图如图2所示。首先，根据特征向量的求取过程求出每个样本运动视频段的描述特征向量Zi∈Rn，表示第i个样本特征向量。然后，加入标签，即样本序列中包含的人数Ni，从而得到带标签的特征向量Xi=(Zi,Ni)∈Rn＋1，Ni∈(1,2,…)。本文提取了60个带标签的特征向量，形成一个数据库。最后，根据数据库中的特征向量的标签，将样本分为不同的类，并根据式（6）和式（7），得到一个包含不同类的均值向量MNi和协方差矩阵CNi的样本库。

基于马氏距离特征匹配的人流量统计算法的核心是第二阶段的人流量统计。其算法流程图如图3所示。具体思路为：检测视频序列首次出现的运动视频段，提取该运动视频段的特征向量。然后根据式（5），计算该特征向量到样本库中各个类的马氏距离。因为马氏距离表示的是向量与模式类的相似性的大小，如果马氏距离越小，其相似程度越大。因此，可以通过最小的马氏距离得到当前运动视频段最佳的人数估计。然后提取下一个运动视频段的特征向量，得到该阶段的最佳人数估计。通过累加各个运动视频段的最佳人数估计，实现人流量的统计。

3 实验结果分析

本文算法采用标准C/C＋＋语言实现，开发软件平台为VS2008和OpenCV，算法运行环境为CPU P42.2 GHz、内存1 Gbyte、Windows XP操作系统的PC机。摄像头采集的视频帧大小为320×240、帧速20 f/s（帧/秒）、AVI视频格式。

利用大厦中楼梯间的人流量统计来验证本文算法的有效性，图4是几帧代表图像。通过式（1）可以得到图4b和图4d的特征图像，分别对应图5a和图5b。其中图5a是拥有1个运动目标的场景，而图5b是拥有2个运动目标的场景。图5a和图5b运动区域分别为图5c和图5d虚线框区域，通过统计该区域的直方图，得到特征向量。从图5可以看出，人的特征主要由人的外轮廓决定，这在一定程度上减少了行人服装、配饰等物品带来的影响。

为了进一步显示本文算法的稳健性，与传统的帧差法和背景建模法进行对比实验，实验结果如图6所示。图6a和图6b为2张用帧差法求出的图片，与图5相比，帧差法求解的运动目标的轮廓不清晰，而且还出现了一些“空洞”。图6c为使用高斯背景建模法仿真出来的一幅背景图像，可以看出背景中还有人运动留下的痕迹，图6d为对应的差分图像。通过图6中的4幅图像，可以比较直观地说明帧差法和背景建模法不适合楼梯间这种场景下的人流量统计。

表1是3种算法对2组视频图像的统计结果。从表1可以看出本文算法可以准确地统计人流量。对于单个行人通过的情况，检测的误检率基本为零，多个行人同时通行的情况下，其误检率也不超过5%，低于背景减法和帧差法的误检率。

表1 3种算法的实验结果

表2为本文算法在不同视频下的运行的时间，可以看出本文的算法平均每秒可以检测16～17帧图像，运行速度基本等于输入视频播放速度，基本能够保证实时性的要求。

表2 实时性分析

4 小结

针对楼梯间人流量统计这类复杂环境的应用，提出了一种基于马氏距离特征匹配的人流量估计方法。实验结果表明，对于单个行人的检测，本文算法基本不会发生误检的情况，对于多个行人的情况，误检率也不超过5%。而且本文算法运算速度较快，能够同时满足实时性和精度的要求。但是该算法还有许多地方需要改进，当场景中人数较多时，其检测精度会下降。这个问题的解决需要依赖于样本训练的精度，这也是本文下一步的研究重点。

[1]何小映，何红.人流量统计系统设计[J].中国科技信息，2007（14）：97-98.

[2]侯俊，程燕.人流量统计视频监控系统[J].电视技术，2009，33（2）：63-65.

[3]董文明，吴乐华，姜德雷.基于背景重构的运动目标检测算法[J].重庆邮电大学学报：自然科学版，2008，20（6）：754-757.

[4]ROSSI M，BOZZOLI A.Tracking and counting moving people[EB/OL].[2010-09-20].http：//ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=413857.

[5]PICCARDI M.Background subtraction techniques∶a review[EB/OL].[2010-09-20].http：//www-staff.it.uts.edu.au/～massimo/Background SubtractionReview-Piccardi.pdf.

[6]吴渝，向浩宇，刘群.一种基于网格的最近邻SVM新算法[J].重庆邮电大学学报：自然科学版，2008，20（6）：706-709.

[7]方卫宁，胡青梅，李娜，等.基于RBF神经网络的复杂场景人群目标的识别[J].北京交通大学学报：自然科学版，2009（4）：29-33.

[8]李玉榕，项国波.一种基于马氏距离的线性判别分析分类算法[J].计算机仿真，2006，23（8）：86-88.

[9]齐敏，李大健，郝重阳.模式识别导论[M].北京：清华大学出版社，2009.