融合像素与纹理特征的人群人数统计方法研究

2015-02-21 08:10徐麦平张二虎陈亚军
西安理工大学学报 2015年3期
关键词:纹理前景像素

徐麦平,张二虎,陈亚军

(西安理工大学 印刷包装与数字媒体学院,陕西 西安 710048)

融合像素与纹理特征的人群人数统计方法研究

徐麦平,张二虎,陈亚军

(西安理工大学 印刷包装与数字媒体学院,陕西 西安 710048)

公共场景监控下的人群人数统计是公共安全管理中的一个重要内容。针对复杂场景监控的情况,本文提出一种融合像素与纹理特征的人群人数统计方法。首先,通过改进的视觉背景提取方法得到高精度的前景目标;然后,提取ROI区域前景像素统计特征与纹理特征并引入阈值判别机制;最后,对阈值上下的图像分别采用基于纹理特征的回归算法和基于像素统计特征的线性拟合算法来得到人群人数。实验结果表明,本文方法相较于传统算法,可以适应于不同密度场景下的人群人数统计,且计算简单,统计精度高。

人群人数统计; 背景建模; 像素统计特征; 纹理特征; SVR回归模型

经济的快速发展和人们社会活动的不断增加,使得像交通枢纽、大型活动现场、大型商场及广场等公共场所的人流量越来越大,伴随而来的是人群灾难性事件的频发。近年来,许多国家和地区相继启动了基于视频分析的群体安全态势问题研究,其中人群人数统计是一个关键问题,已经成为目前计算机视觉领域研究的热点问题[1-2]。通过人群人数的动态变化反推出异常事件,对公共安全及事件预警有着非常重要的意义。

近年来对人群人数统计的研究重点集中于区域式场景下的人数统计[3-6]。目前有代表性的方法可以分为两类:一类是基于目标检测跟踪或提取目标特征点的方式,例如文献[7]基于形状特性检测人体;文献[8]利用骨架图来检测人的头部,从而得出人数;文献[9]采用基于跟踪并对轨迹线进行聚类的方法进行人数统计,最终的聚类数即为人数。由于这类方法都依赖于对前景运动目标的准确检测、分割和跟踪,对于人群人数较多、遮挡比较严重的情况下,统计会出现较大偏差。另一类是找到视频图像序列中某些特征与人群人数之间的关系,采用提取分割特征或纹理特征回归的方式对人群进行计数。例如文献[10]利用边缘方向和前景面积作为分割特征,并采用神经网络回归的方法进行人数统计;文献[11]首先采用三帧差分检测出前景人群目标,然后使用SURF方法提取特征点并构造特征向量,通过SVR方法回归出人群人数。这类方式对于非简单场景下的处理通常要比基于检测的方式效果好,但是仍然不能满足复杂场景下进行精确人数统计的要求。

针对复杂场景精确提取前景目标,进而利用统计像素特征与纹理特征回归出人群人数的问题,本文提出一种融合像素与纹理特征的人群人数统计方法。首先,通过ViBe(Visual Background Extractor,ViBe)视觉背景提取方法得到高精度的人群前景目标;然后,提取前景分割特征并引入阈值判别机制;最后,对阈值上下的图像分别采用基于纹理特征的支持向量回归方法和基于分割特征的线性回归方法来得到人群人数。通过实验比较,所提方法相对于传统方法,具有较高的统计精度。图1是本文方法的流程图。

1 基于ViBe的人群前景目标提取

背景减法是目前视频检测算法中最常用的一种前景目标检测方法。背景减法的关键是对背景模型的建模和更新,一般的背景建模方法对突发运动和光照突变比较敏感且需要多帧进行学习,且实时性普遍不高。针对人群场景下背景复杂、光照变化大、要求检测速度快的特点,本文引入ViBe算法。

ViBe算法[12]是近年来提出的一种快速背景提取和运动目标检测算法,该算法的核心包括背景模型初始化、前景检测以及背景模型更新三个部分。该算法的实时性和鲁棒性较高,且易于实现,但其缺点是在光照方面处理不足,针对此缺陷,本文使用空域和时域相结合的背景模型更新策略来解决光照变化的影响。

1.1 背景模型初始化

ViBe是基于概率统计的一种背景建模方法,首先假设像素点及其邻域像素服从等同的时域分布,以等概率的方式随机地抽取若干邻域像素点来建立背景模型。

ViBe使用第一帧进行背景模型的初始化。对于第一帧中的每个像素点x,从其m邻域中等概率地随机多次选取N个像素灰度值vi(i=1,2,…,N),作为该像素点的背景模型,如式(1)所示。

(1)

一般m≪N,在文献[12]中取m=8,N=20。

1.2 前景检测

背景模型初始化完毕之后,就可以从视频序列第二帧开始进行前景检测并对背景模型进行更新。判断新来一帧某x位置像素值v(x)是否为前景目标的准则是:设定阈值R,计算{v(x)-R,v(x)+R}区间与x的背景模型M(x)相交的样本值的个数,如式(2)所示。

(2)

若计算出的相交的样本值个数大于某一阈值,则当前像素x被判为背景像素,否则为前景像素。

1.3 背景模型更新

ViBe算法采用保守的方法进行背景模型的更新,只有当前像素被判为背景像素时才对当前像素的背景模型进行更新。由于ViBe采用第一帧进行背景模型的初始化,第一帧中很可能含有前景目标,这样背景模型中也就可能含有前景目标值,从而造成后续的误检。同时,如果某一位置的像素多次被检测为前景目标,则很可能是出现了误判。为了应对这些情况,文中引入纠错机制,即如果某一位置像素连续20次被检测为前景像素,则也将其引入到背景模型更新当中。

对于需要更新背景模型的像素x,以1/φ的概率来更新x的背景模型M(x),即从M(x)的N个样本值中随机地选择一个用v(x)来代替。为了保持像素邻域空间的一致性,ViBe算法也采用1/φ的概率对其邻域像素的背景模型进行更新,随机地选择其中一个邻域像素的背景模型,从该模型中再随机地选择一个样本值用v(x)来代替。

在背景模型的更新过程中,如果光照发生了较大的变化或者场景出现大范围的转换,背景模型将有较大的变化,需要及时进行快速地更新,现有的ViBe算法的背景更新方法不能够适应这一要求。为此,文中引入判断机制对这一情况进行判断,如果背景发生了较大的变换,则重新对背景模型进行初始化,以此来快速解决如场景光线突变、场景大范围转换等全局变化。

在背景没有太大变化的情况下,每次背景模型更新像素点的个数nold应该是相近的。所以可以根据每次背景更新像素点的个数, 用第一帧更新像素

点的个数作为参考值,与下一帧更新的个数nup作比较,见式(3):

(3)

如果差值满足式(3),表明背景发生了较大的变化,则重新对背景模型进行初始化。由于ViBe算法的背景模型初始化非常简单和快速,所以重新初始化不会降低系统的实时性,这比混合高斯提取前景目标效果较好。

1.4 形态学后处理

对ViBe前景检测的结果进行形态学处理,即进行形态学开运算和闭运算操作,去除细小目标和空洞填充,得到更为精确的前景目标。

图2(a)给出了一幅人群图像,图2(b)是采用本文方法提取的结果,图2(c)是采用典型的混合高斯模型GMM提取的结果,可以看出采用本文算法提取的结果更为准确。

2 阈值判别机制

现有研究结果[13-14]表明:在低密度人群情况下,人群人数与前景像素数存在递增关系,通过简单的线性拟合即可得到人群人数;在高密度人群情况下,采用纹理特征对人群人数进行表征更加有效,并可通过回归的方法计算出人群人数。为了将这两种情况融为一体,采用文献[13]的方法引入阈值判别机制,以人群前景边缘像素数作为设定阈值T的依据,当前景像素数小于阈值T时,采用线性拟合方法得到人群人数,大于T时采用纹理特征的回归方法计算。

3 基于像素统计的低密度人群人数拟合方法

对于前景像素的提取,在相机固定的场景下直接提取感兴趣区域ROI的像素,进一步采用Canny边缘提取的方法提取边缘,将边缘像素数作为人群人数估计时拟合用的统计特征。为了消除场景远近效应的影响,在得到边缘像素后采用基于内插权重的透视矫正方法[15]对边缘像素个数进行加权求和。

训练阶段,建立边缘像素数与人群人数之间的线性模型,如式(4)所示,并采用最小二乘法对模型参数进行求解。

y=ax+b

(4)

式中x为加权后的边缘像素数,y为拟合后得到的人群人数。

4 融合LBP与GLCM高密度人群人数回归方法

高密度人群呈现较细的纹理模式,因此可以通过提取纹理特征,并用回归的方式估计人群人数。本文采用融合局部二值模式LBP(Local Binary Pattern,LBP)特征与灰度共生矩阵GLCM的方法来提取高密度人群的纹理特征,并用支持向量机回归方法建立高密度人群人数回归模型。

4.1 融合LBP与GLCM的人群纹理特征提取

LBP是一种描述图像局部纹理特征的无参数算子,且对均匀光照变化不敏感,算子计算复杂度低等。但对于8邻域的LBP算子计算出的纹理特征最大可以达到256维,这将给后续特征回归运算带来很大不便。针对这种问题,一般的解决方案是对其进行特征降维操作,这就不可避免造成纹理特征的损失。而用于分析灰度共生矩阵(Gray-level Co-occurrence Matrix,GLCM)的Haralick特征,其共有14个表现纹理的特征,而对比度、相关性、能量、逆差矩这4个特征相互独立,互不包含。所以本文采用融合LBP和GLCM的纹理特征提取方法。首先用基本的LBP算子即8邻域LBP算子对人群图像进行纹理运算,得到LBP图像;然后计算LBP图像的GLCM;最后采用GLCM的能量、对比度、熵和逆差矩描述图像的纹理特征。其具体计算步骤如下。

1) 选取基本的LBP算子,对图像的每个像素采用公式(5)计算LBP值,得到LBP图像。

(5)

式中取半径R=1,P=8,gc为当前待处理像素,gp为其邻域像素。

3) 计算各个方向灰度共生矩阵的能量、熵、对比度、逆差距,并将求得的各个方向的4个特征值级联起来作为图像的纹理特征。具体如下。

能量特征(Energy):

(6)

熵(Entropy):

(7)

对比度(Contrast):

(8)

逆差距(Homogeneity):

(9)

4.2 SVR回归模型的建立

支持向量回归机(Support Vector Regression,SVR)是一个功能强大的非线性回归模型,它建立在VC维理论基础上,采用结构风险最小化原则,具有结构简单、全局最优解泛化能力强的特点,因此用SVR作为回归模型,建立图像特征和人群人数之间的数学关系。

设训练集样本为:

T={(xi,yi),xi∈Rm,yi∈R,i=1,2,…,n}

SVR将输入向量通过非线性映射函数φ(x)映射到高维特征空间,建立如下的最优决策函数:

(10)

式中,w为权重向量,b为阈值。

引入不敏感损失函数ε,SVR回归分析可以表示为如下约束优化问题:

(11)

对于式(11),引入拉格朗日函数可以将其转换为对偶问题的凸二次规划的优化求解,从而获得该问题的最优解:

(12)

式中K(xi,x)为核函数,本文选择如下的高斯径向基核函数:

(13)

本文使用台湾大学林智仁博士等用C++实现的SVM库,它可以解决回归、分类及分布估计等问题。此软件包在windows下只提供DOS工具集,主要包括训练工具svm-train.exe、预测工具svm-predict.exe和数据缩放工具svm-scale.exe等,文中使用这三个工具集,其中参数寻优使用网格寻优方法,在python中找到最优参数。

5 实验结果与分析

5.1 实验数据集及评价指标

实验所用人群数据集有两个:一个来自文献[16],视频是圣地亚哥加州大学(University of California,San Diego,简称UCSD)一个人行道上的静止摄像头拍摄的;另一个来自于文献[17],视频拍摄于某一商场店铺外(简称MALL)。

根据Polus[18]在1983年中的研究:一个人所占的面积小于0.5 m2或者1 m2以内有超过2人的则认为是人群高密度环境。本论文中所选用的UCSD与MALL数据库,mask所覆盖的区域面积分别为20 m2和10 m2,其中UCSD数据集的人群人数在7~31之间,MALL数据集的人群人数在0~17之间。从人群人数可以看出,每帧图像总的人数并没有达到高密度的要求,但是在其中的某一小块区域人群人数却超出了相对应的面积所能容纳的最多人数,且从不同视角看到人群遮挡的程度也不相同。

图3给出了这两个数据集上各一幅图像,可以看出其中红色区域所标示的部分具有较高的人群密度。在UCSD数据集上,可以看出遮挡基本达到了个人的1/3。而在MALL数据集上,遮挡状况达到了个人的2/3甚至是全部。

实验结果用平均绝对误差(MeanAbsoluteError)指标来度量。假设人群的真实人数为p(i),i=1,2,…,n,估计数据是y(i),i=1,2,…,n,则平均绝对误差MAE的计算公式为:

(14)

5.2 实验结果及分析

实验比较了采用高斯混合GMM建模方法和ViBe背景建模下的效果,同时比较了采用传统的GLCM与本文的融合LBP与GLCM的特征提取方的结果比较。

对于MALL数据集,通过实验确定阈值T为5,从MALL集中选择了1 200幅图像,由人工标定出其真实人数,用其中的500幅图像进行建模,700幅图像进行测试。对于UCSD数据集,阈值T选为17,取500幅图像进行模型训练,另取500幅图像进行测试。实验结果如表1所示。从表1可以看出,采用ViBe的背景建模方法所得实验结果要好于经典的GMM方法,同时采用LBP+GLCM的纹理特征提取方法要好于只采用GLCM的方法。

图4、图5分别给出了测试用的MALL的700幅图像与UCSD的500幅图像中手工标定出的实际人数和估计出的人数的实验结果,其中红点代表实际人数,绿点代表估计人数。

从图4、5可以看出,本文算法估计的人数曲线在参考值上下小范围内波动,测试稀疏与中等密度人群的误差约为1~2人,测试中高密度人群的误差约为1~4之间。

另外,为了验证本文方法适用所提出的遮挡条件,从UCSD整个数据集中挑选出遮挡比较严重的视频序列共400帧做测试,测试的序列都属于中高密度人群环境,每帧的人数都在25以上,统计精度MAE可以达到0.143。从MALL整个数据集中挑选出遮挡比较严重的视频序列共100帧做测试,测试的序列属于中高密度人群环境,每帧的人数都在12以上,统计精度MAE可以达到0.126。图6给出了UCSD的400帧遮挡较严重的图像中标定出的实际人数和估计出的人数的实验结果,其中红点代表实际人数,绿点代表估计人数。从图中可以看出,估计的人数曲线在参考值上下小范围内波动,人数误差约为1~4之间。

从以上结果可以看出,本文算法在人群稀疏场景和人群密集场景均取得了较好的结果,因此是一种准确率高且适用性强的人群人数统计方法。在配置为Intel i7-3770 @3.4 GHz处理器的电脑上测试,对大小为320×240的图像,每帧的全过程处理用时为0.1 s,即每秒可处理10帧,具有较高的运算速度。由于本文在提取前景目标时使用ViBe算法,具有占用内存少、计算简单、性能优于GMM等优点,可以比较容易地移植到嵌入式平台,有望满足实时处理的要求。

6 结 论

本文提出了一种融合像素与纹理特征的人群人数统计方法。该方法能够较为精准地提取到人群前景目标,统计精度高,计算速度快。实验结果表明,相对于传统方法,本方法在人群稀疏场景和人群密集场景情况下均有较好的统计结果,且本系统的实时性与鲁棒性较高,可以移植至嵌入式平台中降低软硬件系统的开发成本。由于实验中两个人群数据库中的人数较少,今后需要针对大规模的人群人数统计问题进行进一步的研究。

[1]David Ryan, Simon Denman, Clinton Fookes, et al. Scene invariant multi camera crowd counting [J]. Pattern Recognition Letters, 2014, 44: 98-112

[2]James Ferryman, Anna-Louise Ellis. Performance evaluation of crowd image analysis using the PETS2009 dataset [J]. Pattern Recognition Letters, 2014, 44: 3-15.

[3]覃勋辉, 王修飞, 周曦, 等. 多种人群密度场景下的人群计数 [J]. 中国图象图形学报, 2013,18(4): 392-398. Qin Xunhui, Wang Xiufei, Zhou Xi, et al. Counting people in various crowed density scenes using support vector regression [J]. Journal of Image and Graphics, 2013, 18(4): 392-398.

[4]薛陈. 复杂场景下的人数统计 [D]. 天津: 天津大学, 2012. Xue Chen. People counting system in complex scenario [D]. Tianjin: Tianjin University, 2012.

[5]Xiong Guogang, Cheng Jun, Wu Xinyu, et al. An energy model approach to people counting for abnormal crowd behavior detection [J]. Neurocomputing, 2012, 83:121-135.

[6]Ma Huadong, Zeng Chengbin,Ling Charles X. A reliable people counting system via mutiple cameras [J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(2):15-20.

[7]Lan Dong, Vasu Parameswaran, Visvanathan Ramesh, et al.Fast crowd segmentation using shape indexing [C]. IEEE 11th International Conference on Computer Vision, Princeton University,2007: 14-21.

[8]Djamel Merad, Kheir Eddine AzizNicolas Thome. Fast people counting using head detection from skeleton graph [C]. 2010 Seventh IEEE International Conference on Advan ced Video and Signal Based Surveillance, Springer,2010: 233-240.

[9]Gianluca Antonini, Jean Philippe Thiran. Counting pedestrians in video sequences using trajectory clustering [J]. IEEE Transaction on Circuits and System for Video Technology,2006,16(8): 1008-1020.

[10]Kong D, Gray D, Tao H.Counting pedestrians in crowds using viewpoint invariant training[C]. Proceedings of the British Machine Vision Conference 2005, Oxford, UK, 2005.

[11]Liang Ronghua, Zhu Yuge, Wang Haixia. Counting crowd flow based on feature points [J]. Neurocomputing, 2014, 13(10): 377-384.

[12]Barnich O, Van Droogenbroeck M. ViBe: A universal back ground subtraction algorithm for video sequences [J]. IEEE Transactions on Image Processing, 2011, 20(6):1709-1724.

[13]李寅, 王贵锦, 林行刚. 结合局部和全局特征的人群密度估计算法 [J]. 清华大学学报: 自然科学版,2013, 53(4): 542-545. Li Yin, Wang Guijin, Lin Xinggang. Crowd density estimation algorithm combining local and global features [J]. Journal of Tsinghua University(Science and Technology), 2013, 53(4): 542-545.

[14]李虎, 张二虎, 段敬红. 基于PCA和多元统计回归的人群人数统计方法 [J]. 计算机工程与应用, 2012, 50(11): 206-209. Li Hu, Zhang Erhu, Duan Jinghong. Crowd counting method based on PCA and multivariate statistical regression [J]. Computer Engineering and Applications, 2012, 50(11): 206-209.

[15]杨华, 苏杭, 郑世宝. 大规模群体密度估计算法 [D]. 上海: 上海交通大学, 2010. Yang Hua, Su Hang, Zheng Shibao. Large-scale crowd density estimation [D]. Shanghai: Shanghai Jiaotong University, 2010.

[16]Chan Antoni, Zhang-Sheng, Liang Nuno. Privacy preserving crowd monitoring: counting people without people models or tracking [C]. IEEE Conference on Computer Vision and Pattern Recognition, Anchorage, 2008.

[17]Chen K, Loy C C, Gong S, et al. Feature mining for localised crowd counting [C]. British Machine Vision Conference, Springer, 2012.

[18]Schofer J, Ushpiz A, Polus A. Pedestrian flow and level of service [J]. Journal of Transportation Engineering, 1983,109(1):46-56.

(责任编辑 王卫勋)

Fusion methods of pixels and texture feature for crowd counting

XU Maiping,ZHANG Erhu,CHEN Yajun

(Faculty of Printing, Packaging Engineering and Digital Media Technology, Xi’an University of Technology,Xi’an 710048, China)

The crowd counting under the public scene monitoring is an important part of public security management. For the case of complex scenes monitoring, this paper suggests a kind of fusion methods of pixels and texture feature for crowd counting. Firstly, the algorithm obtain a highly accurate foreground object by the improved visual background extraction; and then, it extracts the ROI foreground pixels statistical characteristics and texture features and introduces a threshold determination mechanism; finally, images of the upper and lower thresholds are based on texture features with regression algorithm and the statistical characteristics of the pixel fitting algorithm to get the number of the crowd. The experiment results show that the algorithm in this paper has the characteristic of a simple calculation and high statistical accuracy, which can be adapted to the people number statistics at different density scene compared with the traditional methods.

crowd counting; background modeling; statistical features of pixels; texture features; SVR regression model

1006-4710(2015)03-0340-07

2014-12-14

陕西省教育厅科研计划资助项目(14JK1524);西安市碑林区科技计划资助项目(GX1404);陕西省自然科学基金资助项目(2014JM2-6111)。

徐麦平,女,硕士生,研究方向为数字图像处理与模式识别。E-mail:1062810430@qq.com。

张二虎,男,教授,博导,研究方向为图像处理、模式识别与智能信息处理。E-mail:eh-zhang@xaut.edu.cn。

TP391.4

A

猜你喜欢
纹理前景像素
像素前线之“幻影”2000
我国旅游房地产开发前景的探讨
四种作物 北方种植有前景
基于BM3D的复杂纹理区域图像去噪
“像素”仙人掌
离岸央票:需求与前景
使用纹理叠加添加艺术画特效
ÉVOLUTIONDIGAE Style de vie tactile
TEXTURE ON TEXTURE质地上的纹理
量子纠缠的来历及应用前景