一种复杂背景下多尺度多视角的人体检测方法

2016-09-08 10:32黄晓峰
计算机应用与软件 2016年8期
关键词:直方图特征提取分类器

杨 颖 黄晓峰

(广东农工商职业技术学院计算机系 广东 广州 510507)



一种复杂背景下多尺度多视角的人体检测方法

杨颖黄晓峰

(广东农工商职业技术学院计算机系广东 广州 510507)

针对复杂背景下的人体检测技术所面临的噪声干扰、背景复杂、相互遮挡等问题,设计一种多尺度多视角人体检测算法。针对传统的梯度方向直方图目标特征提取方法特征维数大、有遮挡时检测率低等缺陷,分别使用扩展多尺度方向特征和经WTA hash编码的多尺度梯度方向直方图特征提取,并使用弱分类器和贪婪算法进行特征选择以获得图像的粗特征和精特征。然后使用线性平移合成多视角样本,使用多层级联的Adaboost算法和支持向量机作为分类器进行人体目标检测,结合复杂背景处理、特征重装等方法提高检测精度。使用INRIA公共测试集的实验结果表明,该算法可精确检测出复杂背景下相互遮挡情况下多视角、多姿态的人体目标,与传统的人体检测算法相比,具有更高的检测效率和检测精度。

复杂背景人体检测扩展多尺度方向多尺度梯度方向直方图多视角分类器

0 引 言

本文立足于提高基于HOG的人体检测方法的性能,并增强存在遮挡情况下的检测率,提出了一种基于多尺度方向直方图的特征提取方法提取图像的粗特征和精特征。在此基础上使用级联SVM模型和Adaboost算法进行检测,形成一种多尺度多分类器的人体检测模型,并对其效能进行测试。

人体检测作为计算机视觉研究应用领域的重要研究方向之一,有着巨大的市场应用潜力和研究意义,可广泛运用于人机交互、自动控制、视频检索和智能视频监控等方面[1]。这也进一步推动了学者对视频帧和图像中的人体目标检测,但迄今为止人体检测仍然存在着效率低下且易受遮挡、视角、光照等因素影响,这些方面的问题成为人体检测领域的难点亟待解决[2]。

在目前的研究成果中,主要有三类人体检测方法,分别是模板匹配、基于Haar特征的方法和基于梯度方向直方图HOG(Histograms of oriented gradients)的方法[3-5]。其中模板匹配是提取图像并与已有人体形状模板进行匹配检测是否是人体,较为典型的有头肩模型用于匹配检测[6],但人体形态的多样性导致这种方法效果较差,已较少使用;基于Haar特征的方法使用Haar特征和分类器材识别,由于人脸特征能与Haar特征较好契合从而在人脸检测中得到较好应用,但因背景颜色、衣服色泽等因素影响,在人体检测中的效果不如预期[7];基于HOG的方法经描述局部图像的方向分布情况和梯度获取该区域的HOG作为检测特征并结合训练的分类器进行识别,该方法精度较高因此得到了较多的重视和研究[8]。但基于HOG的也存在训练速度较慢、特征窗口提取单一等缺陷,因此许多研究对其进行改进,如多尺度HOG方法[9]、局部二值模式结合HOG方法[10]、加权块[11]等方法来增强局部特征的表达能力从而提高基于HOG方法的效率。但这类方法都是在固定尺度上计算,没有将人体的多尺度轮廓纳入特征提取中,而多尺度特征表达的提出通过使用Gabor小波、灰度协方差、组合块等方法提高了基于HOG方法的性能,进一步增强了基于HOG方法的应用价值。

1 本文人体检测方法

本文在已有研究的基础上,综合考虑复杂背景下相互遮挡且不易检测的难点,以背景区分、多视角检测、遮挡去除等方法用于人体目标检测。训练特征块以多尺度方法从训练样本中提取和选择,包含粗特征和精特征,其中粗特征使用扩展多尺度方向特征提取并使用粗分类器选择,精特征使用WTA hash编码的扩展多尺度方向直方图提取并使用贪婪算法选择,对特征集使用多层级联的Adaboost算法和SVM分类器进行多视角分类器进行分类训练。将训练好的分类器运用于待检测图像,并结合复杂背景处理、多视角样本生成和遮挡处理得到最后的检测结果,算法流程如图1所示。

图1 本文检测算法流程

2 特征提取

本文分别使用扩展多尺度方向特征提取和WTA hash编码的多尺度梯度方向直方图特征提取方法获得图像的粗特征和精特征。

2.1HOG原理

HOG是按照图像的外观、形状等特征的边缘方向和梯度来获取图像特征,这种特征并没有从图像整体去提取特征,而是将图像分割成许多个名为cell的小细胞单元,再计算所有cell中的梯度方向直方图。同时为了提高算法效率将多个cell融合成一个名为block的大单元并将其梯度进行归一化,计算梯度方向向量[12]。

在HOG特征计算过程中,首先使用一维离散微分模板从垂直和水平两个方向将180°分成N个方向计算内部各个cell的梯度,研究得出,当N为9时梯度精度最大[13]。然后取各cell单元中所有像素点的梯度幅值进行加权求得其比重,依照比重为直方图通道投票加权。由于图像背景的存在和影响,各cell的梯度变化幅度较大,分类器难以适应其变化,因此再进行归一化处理,使用L2范数为因子,计算如式(1)所示。

(1)

式中e为常数,V表示归一化前的梯度向量值。这样可求得图像的HOG特征。

2.2扩展多尺度方向特征提取

多尺度方向MSO(Multi-scale orientation)特征是从水平和垂直两个方向综合描述直立或者姿态变化小的人体轮廓信息,但却不能有效识别姿态变化明显的人体轮廓信息[14]。为此设计一种扩展多尺度方向特征EMSO(Extended MSO)提取方法,以扩展的Haar-like特征为基础,在MSO的基础上再提取两个特征块,使人体轮廓信息特征提取的姿态变化适应性更强,其原理如图2所示。

图2 EMSO原理

EMSO的方法是将图像分解为n个单元块,再将各单元块划分为4个子块并计算各子块颜色积分值,常规MSO已有垂直梯度Dd和左旋45°梯度Ddl,而水平梯度Dl和右旋45°梯度Ddr需计算得出,Dl计算方法为:

(2)

Ddr计算方法为:

(3)

式中I(·)是该点的像素值。计算4个子块的颜色积分值后,可得EMSO单元块方向He的值为:

(4)

在此基础上可得量化块方向Fi的值为:

Fi=Q(H)

(5)

即将180°以内方向的连续值进行8值离散化处理,将所有Fi进行连接后可得EMSO特征,该特征可用方块表征任何矩形,其方向计算可在方向上进行,可降低EMSO特征维数,且不易受光照、形变影响,因此可提高运算效率。

2.3扩展梯度方向直方图提取

图像上的X和Y两点相似性在某种程度上和对对应的特征维数排序类似,其pairwise-order量度计算方法为:

(6)

式中,xi、xj分别是X和Y对应的第i特征维数,T(·)是阈值函数,其公式为:

(7)

式(6)可变换为:

(8)

式中有:

Ri(X,Y)=|L(X,i)∩L(Y,i)|

(9)

L(X,i)={j|X(i)>X(j)}

(10)

WTA hash编码[16]如图3所示,图3(a)中L(X,0)={1,2,3,5}对应式(10)的低于0下标元素的元素下标集合,类似的L(Y,0)={3,4,5},代入式(9)可得R0(X,Y)=|{3,5}|=2,由于维数为6,因此K=4,θ={1,4,2,5,0,3},图3(a)和(b)的X不相关,编码结果分别为1和2,即不相等。而图3中的(c)、(d)是对(a)做线性运算而得,因此对应的输出结果也为1。通过实例可知,WTA hash编码可抗干扰,且具备线性稳定性,能将MHOG转换到对特征维数不敏感的空间中得到稀疏特征,避免原特征空间中的冗余度大的缺陷,提高运算速度和运算效率。

图3 WTA hash编码实例

WTA hash编码的步骤如图4所示,实际上是将向量X中的值随机排列,通过滑动窗口法扫描,将最大值保留,其他值设置为0,同时利用随机数组θ消除向量中元素的相关性,这就是本文所用的WMHOG特征提取方法。

图4 WTA hash编码的步骤

图5所示为图2的例图经MHOG和WMHOG两种特征提取方法后的效果对比,分析发现,WMHOG特征比MHOG特征更为稀疏,降低了约17%。

图5 WTA hash编码效果

3 特征选择

对EMSO提取的粗特征块的选择使用Adaboost算法[17],对WMHOG提取的精特征块使用贪婪算法[18]。

使用Adaboost算法选择粗特征先需构建弱分类器,由于人体的轮廓普遍存在一定的角度范围,对应的方向特征fn在人体轮廓的表征上具有较好的性能。因此对弱分类器的需求是在特征选择时将处于一定角度范围内的特征作为正例样本,这是选择Adaboost算法的主要原因。弱分类器的构建方法为:

(11)

式中,C(n)是粗特征经粗分类器分类之后的结果,fn是通过式(1)所得的EMSO方向特征。Tmin(n)、Tmax(n)为弱分类器的最小和最大角度阈值,阈值可使用贪婪算法获取。

WMHOG特征块选择使用贪婪算法,在其第t次求解过程中,由于局部最优解的优势,新加入的特征ft+1可进一步增大分类精度,整个求解过程是从待选特征集A中选出局部最优解的特征值加入到已选集S中,即:

(12)

式中,I(u;C)=∑Cp(C,f)log(p(C|f))为f的条件熵,p(C|f)为C样例正确的概率。这样经t次求解后,A、S的更新如下:

At+1=Atfk,St+1=St∪{ft+1}

(13)

即从集合A中去除ft+1加入到集合S中,持续这一过程直到分类精度不增长或增长幅度小于一定阈值时为止。

4 目标检测

4.1多视角检测

分类器训练使用级联Adaboost和线性SVM,共分四层,第一层全部视角样本共同训练单一模型,第二、三层分别使用3个、5个视角,前三层使用Adaboost,第四层使用SVM,其框架如图6所示。在人体目标检测时,对图像窗口进行逐一分类以判定图像中是否存在目标人体,并对其位置进行确定,当4层分类器都通过时判定存在目标人体,反之判定不存在目标人体。图6的分类器框架经过实验验证确定前三层只用3个级联就能实现较高的查全率和较快的检测速率,对第四层的SVM分类器,在超过128个精特征块可使SVM分类精度超过97%。

图6 多视角检测分类框架

但是这种多视角检测中存在一定的问题,即人体的正面(0°)和侧面(90°)的样本易获取,但是获得中间角度(30°、45°、60°)的样本较困难,对此采取特征块位置线性平移的方法合成中间角度样本。由于人体的对称性完成0°到90°的样本获取即可,设特征块n的视角样本度数为D,对应的位置为XD(n),则可得0°,90°内的样本线性合成为:

XD(n)=α(n)·X0(n)+(1.0-α(n))·X90(n)

(14)

式中α(n)为合成系数,由于不进行精确的姿态识别,因此可假定人体为圆柱体,可得α(n)为合成系数α(n)为:

α(n)=cos(D)/(sin(D)+cos(D))

(15)

类似地,块特征也可由式(16)获取:

FD(n)=α(n)·F0(n)+(1.0-α(n))·F90(n)

(16)

式中FD(n)表示特征块n在D°的特征值,这样可实现通过正面样本及侧面样本获取中间各视角的样本从而完成分类器训练。

4.2复杂背景处理

图像人体识别过程中复杂背景处理主要解决人体轮廓与背景图层灰度相似情况下检测目标出现空洞的问题[15]。因此在复杂背景存在的情况下,定义函数f(a,b):

(17)

式(17)中a(x,y)是当前帧在像素点(x,y)的像素值,b(x,y)是对应点的背景像素值,这样根据式(17)可知:当(x,y)是背景点时,f(a,b)=0,且f(a,b)分散分布;当(x,y)为人体目标区域内点时,f(a,b)≥0且f(a,b)集中分布。计算f(a,b)集中分布的范围即为目标人体区域范围。

4.3遮挡处理

(18)

(19)

5 实验及分析

为对本文的人体检测算法进行验证,使用法国国家信息与自动化研究所的公共测试集INRIA行人数据库进行实验。该数据库是目前最常用的静态行人检测数据库,提供了原始的图片和相应的标注文件。训练时采用了2000正例样本和1000反例样本,反例样本主要是建筑、树干等和人体轮廓相似的圆柱形物体,其中正面和侧面视角的样本由人工划分形成,中间视角(30°、45°、60°)的样本能过多视角样本合成算法生成。最后使用测试集INRIA数据库进行实验,部分人体检测结果如图7所示。可以看出本文算法可以检测出大部分人体,图7(a)-(g)包含了复杂背景、与类人形圆柱体较为贴近、非正面或侧面多视角人体、多姿态人体等多种情况,本文算法都能成功检测,这是由于使用了复杂背景处理和特征重装成功检测出了中间复杂背景中有遮挡的人像。但在图7(h)和图7(i)中漏检了后方复杂背景下的人体目标,分析发现是WTA hash编码导致部分有用信息被删除从而无法检测出复杂背景下较小像素的遮挡人体目标。

图7 人体检测结果

算法性能定量分析比较使用单位图片误检/图片FPPI(False Positive per Image)条件下的漏检率,分别与常规的HOG特征提取检测[9]、HOG和局部二值模式HOG+LBP(HOG + Local Binary Pattern)相结合的方法[10]及多尺度HOG(MHOG)特征方法[11]相比较,其结果如图8所示。从图8可知,在相同FPPI的条件下本文的多尺度多视角算法的漏检率低于HOG、HOG+LBP、MHOG等方法,但在FPPI接近1的时候,本文算法的漏检率与MHOG逐渐接近,经分析这是由于WTA hash编码后部分有用信息被滤除导致漏检率增加。

图8 算法检测结果比较

上述各种算法在复杂背景下的检测效率如表1所示。由表1可知,本文的多尺度多视检测算法的检测率比HOG等算法高,检测时间比HOG等算法少得多,这主要是因为使用WTA hash编码后滤除图像特征中的冗余信息使图像特征变得较为稀疏,从而使后续算法较为迅速,降低了检测时间。

表1 各种算法检测效率对比

6 结 语

本文针对人体检测面临的背景复杂、相互遮挡等难题,使用扩展多尺度方向和经WTA hash编码的多尺度梯度方向直方图两种特征提取方法来提取图像的粗特征和精特征,并使用多层多视角的级联分类器进行人体检测。其中扩展的多尺度方向特征能有效表征人体边缘特征,而WTA hash编码的多尺度梯度方向直方图能有效滤除精特征中的冗余信息从而提高算法的检测效率,多视角结合复杂背景处理和特征重装可以在一定程度上解决复杂背景下人群相互遮挡的问题。实验证明,多尺度多视角的检测方法在提高检测精度的同时检测效率也保持较高的水平,但WTA hash编码后造成复杂背景下像素较低的人体目标检测存在一定缺陷,这也需要在以后的研究中不断改进的重点问题。

[1] Aggarwal J, Ryoo M. Human activity analysis: a review [J]. ACM Computing Surveys, 2011, 43(3): 1-47.

[2] 欧阳毅,张三元,张引.基于窗口边缘梯度热能的人体遮挡多惊讶检测算法[J]. 电子与信息学报,2012,34(4): 858-864.

[3] 雷庆,陈锻生,李绍滋.复杂场景下的人体行为识别研究新进展[J].计算机科学, 2014,41(12):1-7.

[4] Ji Shuiwang , Xu Wei, Yang Ming, et al. 3D Convolutional Neural Networks for Human Action Recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

[5] 邵彧.基于局部图块匹配的行人跟踪算法[J].计算机工程与设计,2014,35(10):3518-3522.

[6] Ni E Z, Zhou C L, Jiang M J. A radical cascade classifier for handwritten Chinese character recognition [J]. Journal of Software, 2012, 7(10): 2294-2300.

[7] 黄炎,范赐恩,朱秋平,等.联合梯度直方图和局部二值模式特征的人体检测[J].光学精密工程,2013,21(4):1047-1053.

[8] 刘亚洲.基于时空分析和多粒度特征表示的人体检测方法研究[D].哈尔滨:哈尔滨工业大学,2009.

[9] Lin Zhe, Hua Gang, Davis L S. Multi-scale shared features for cascade object detection[C]//Proceeding of the IEEE International Conference on Image Processing, Orlando, FL, 2012: 1865-1868.

[10] Wang Xiaoyu, Han T X, Yan Shuicheng. An HOG-LBP human detector with partial occlusion handling[C]//Proceeding of IEEE International Conference on Computer Vision, Kyoto, 2009:32-39.

[11] 叶齐祥,焦建彬,蒋树强.基于多尺度方向特征的快速鲁棒人体检测算法[J]. 软件学报,2011,22(12):3004-3014.

[12] 李梦涵,熊淑华,熊文,等.多尺度级联行人检测算法的研究与实现[J].计算机技术与发展,2014,24(8):10-13.

[13] Wantanbe T, Ito S, Yokoi K. Co-occurrence histograms of oriented gradients for pedestrian detection [J]. LNCS, 2009, 52(14): 37-47.

[14] 孙宏国,李天然,蒲宝明,等.复杂背景下人体检测算法[J].计算机系统应用,2013,22(4):134-138.

[15] Poppe R. A survey on vision-based human action recognition[J]. Image and Vision Computing, Elsevier B.V. 2010, 28(6): 976-990.

[16] Kratz L, Nishino K. Tracking pedestrians using local spatiotemporal motion patterns in extremely crowded scenes [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(5): 987-1002.

[17] Li W T, Chang H S, Lien K C, et al. Exploring visual and motion saliency for automatic video object extraction [J]. IEEE Transactions on Image Processing, 2013, 22(7): 2600-2610.

[18] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: an evaluation of the state of the art [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 743-761.

A MULTI-SCALE AND MULTI-VIEW HUMAN BODY DETECTION METHOD UNDER COMPLEX BACKGROUND

Yang YingHuang Xiaofeng

(DepartmentofComputer,GuangdongAIBPolytechnic,Guangzhou510507,Guangdong,China)

Aiming at the problems such as noise interface, complex background and mutual occlusion encountered by human body detection technology under complex background, we designed a multi-scale and multi-view body detection algorithm. According to the shortcomings of traditional object feature extraction method of orientated gradient histogram including high feature-dimension and low detection rate while being occluded, in extraction we employed the extended multi-scale orientation feature and the multi-scale histogram of orientated gradient coded by WTA hash separately, and used weak classifier and greedy algorithm to select features so as to obtain the coarse features and fine features of the image. After that we then used linear shift to synthesise the multi-view samples. The multi-level cascade Adaboost algorithm and support vector machine were used as the classifiers to detect body objects, and the detection accuracy was improved in combination with complex background processing and characteristics reinstalling. Experimental results on INRIA public test set showed that the algorithm can make accurate detection on human body objects with multi-view and multi-pose under the conditions of complex background and mutual occlusion. Compared with traditional human body detection algorithm, it has higher detection efficiency and accuracy.

Complex backgroundHuman body detectionExtended multi-scale orientationMulti-scale histograms of oriented gradientsMulti-view classifier

2015-04-08。杨颖,讲师,主研领域:物联网,网络安全和人脸识别。黄晓峰,实验师。

TP391

A

10.3969/j.issn.1000-386x.2016.08.073

猜你喜欢
直方图特征提取分类器
符合差分隐私的流数据统计直方图发布
基于Gazebo仿真环境的ORB特征提取与比对的研究
用直方图控制画面影调
基于Daubechies(dbN)的飞行器音频特征提取
基于实例的强分类器快速集成方法
Bagging RCSP脑电特征提取算法
中考频数分布直方图题型展示
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于空间变换和直方图均衡的彩色图像增强方法