基于人脸与步态特征的室外作业场景身份核验方法

2021-12-28 07:49王刘旺郑礼洋叶晓桐郭雪强

河北科技大学学报 2021年6期

王刘旺郑礼洋叶晓桐郭雪强

摘要：在建筑、通信、電力等工程行业中，作业人员需要频繁执行室外作业。由于室外环境复杂，许多运维工作存在来自高压、高空、深坑等因素的高风险。安全事故一旦发生，将造成巨大的人员和财产损失。因此，需要在作业过程中对作业人员进行身份核验，以方便监督。然而，在传统的监督方式中，作业现场的人员管理和行为管控完全依靠人工核查，监控视频也依赖人工看守，无法做到人员身份实时核验以及对非作业人员入场的有效预警。针对室外作业场景中的作业人员身份识别，目前的研究方法大多基于人脸识别。人脸识别方法能够在作业人员脸部信息清晰且完整时准确识别出其身份信息。然而，当存在遮挡，以及受检测距离、检测角度等因素影响时，会造成脸部信息不完全或者模糊，导致采用人脸识别方法难以准确识别出作业人员的身份。

步态特征是一种描述行走方式的复杂行为特征，包括脚的触地时间、离地时间和人体高度、双手摆动幅值等。相比人脸识别，步态特征识别有以下优点：第一，步态识别适用的检测距离更远，而人脸特征随着检测距离的增加识别难度明显上升;第二，步态特征识别是非主动识别，现场作业人员几乎随时随地处于行走状态，而人脸识别需要识别对象正对检测装置;第三，步态特征具有较强的特异性，不像人脸特征较易被模仿、修改。不过，单独采用步态特征进行识别，虽然在作业人员运动时可以捕捉体态信息进而较为准确地对其进行身份核验，但是无法对静态的作业人员进行身份核验。

针对此问题，提出了一种多特征融合的身份核验方法，结合步态与人脸等多特征进行识别，不受衣着、环境等外在因素的干扰，可以有效提高身份核验的准确率。提出的融合人脸特征和步态特征的多特征身份核验方法包括身份注册阶段、训练阶段与测试验证阶段。身份注册阶段，人工标注人脸与步态信息，并录入人员信息库;训练阶段，首先利用相关网络提取视频中图像序列的步态轮廓图与人脸区域，然后利用深度学习网络模型提取相关特征，构建融合的特征向量与身份ID间的关系;测试阶段，首先判断图像中有无清晰人脸，如果有则使用多特征融合识别方法，否则仅通过步态特征进行特征匹配进而完成身份核验。结果表明，多特征融合方法在中科院自动化所的CASIA-A数据集上的分类准确率达到99.17%，数据集包含的3个视角下的分类准确率分别为98.75%，100%和98.75%。因此，所提方法可以有效提高单人场景中的身份识别准确率，是在室外作业场景中进行身份核验的一种有效方法。

关键词：模式识别;身份核验;多特征融合;室外作业场景;人脸识别;步态特征

中图分类号：TN958.98 文献标识码：A

doi：10.7535/hbkd.2021yx06011

Identity verification method based on face and gait features in outdoor operation scenes

WANG Liuwang1，ZHENG Liyang2，YE Xiaotong2，GUO Xueqiang2

（1.State Grid Zhejiang Electric Power Company Limited Research Institute，Hangzhou，Zhejiang 310014，China;2.College of Control Science and Engineering，Zhejiang University，Hangzhou，Zhejiang 310027，China）

Abstract：In construction，communications，power and other engineering industries，workers need to perform outdoor operations frequently.Due to the complex outdoor environment，there are high risks from factors like high voltage，high altitude，and deep pits in many operation and maintenance tasks.Once an accident happens，huge losses in personnel and property would be caused.Therefore，it is necessary to verify identities of operators during the operation process for supervision.However，in the traditional supervision method，the personnel management and behavior control in the operation scenes rely entirely on manual verification，and the surveillance video also relies on manual guards.It is impossible to achieve real-time verification of personnel identities and effective warning of the entry of non operators.For the identification of workers in outdoor work scenes，most of the current research methods are based on the face recognition.Face recognition method can accurately identify the identity information of a worker when his facial information is clear and complete.However，when the facial information is incomplete or fuzzy because of occlusion，long detection distance or the inclined detection angle，it will be difficult to accurately identify the operator's identity with the face recognition method.

Gait feature is a complex behavioral feature of a walking person，including the time the foot touch and leave the ground，the human height，and the swing amplitude of hands.Compared with face recognition，gait recognition has the following advantages.Firstly，the distance applicable to gait recognition is longer，while the recognition difficulty of facial features increases as the detection distance increases.Secondly，gait feature recognition is non-active，and workers on the operation scene are walking almost anytime and anywhere，but face recognition expects the recognition object to face the detection device.Thirdly，gait features have strong specificity and are difficult to be imitated and modified.Nevertheless，gait information cannot be used alone for identity verification of workers in static poses.

To solve the above problems，a multi-feature fusion identity verification method was proposed，which combined multiple features such as gait and face features for recognition without being interfered by external factors such as clothing and environment.This method effectively improved the accuracy of identity verification.This multi-feature identity verification method，combining face recognition and gait recognition，included identity registration phase，training phase and test phase.In the registration phase，the face and gait information were manually marked and recorded in the database.In the training phase，the correlated network was used to extract the gait contour map and face region of the image sequence in the video.Then the deep learning network model was used to extract relevant features in order to build the relationship between the fused feature vector and the identity ID.In the test phase，whether there is a clear face in the image was judged.If so，the multi-feature fusion recognition method was used.Otherwise，only the gait feature for feature matching was used to complete the identity verification.The results show that the proposed multi-feature fusion method achieves the classification accuracy of 99.17% on the CASIA-A data set of the Institute of Automation，Chinese Academy of Sciences.The classification accuracy is 98.75%，100% and 98.75% in the three views included in the dataset.Therefore，the proposed method can effectively improve the accuracy of identification in single-person scenes，thus providing an effective scheme for identity verification in outdoor work scenes.

Keywords：

pattern recognition;identity verification;multi feature fusion;outdoor operation scenes;face recognition;gait features

视频监控的普及和人工智能技术的发展，使得机器视觉技术在室外作业现场安全管控中的应用越来越广泛[1]，主要包括作业人员安全着装检测[2]、身份识别与验证[3]、目标检测与跟踪[4]、异常行为识别[5-7]等方面。其中，作业人员的身份识别与验证是安全管控中的重要一环。

出于安防与监管需求，室外作业场景中需要对人员进行身份核验。部分室外作业中因人员着装特殊且场景复杂，较难实现准确的身份识别。现有的识别方法大多基于人脸识别技术。人脸识别方法虽然发展成熟、准确率高，但是易受到服装遮挡、检测距离以及检测角度等因素的影响。相比于人脸特征，步态特征是一种更为稳定、可靠的生物特征。考虑到人脸和步态特征的特点，提出一种融合二者的多特征身份核验方法。

1 方法概述

1.1 多特征融合身份的识别框架

基于人脸与步态的多特征融合身份识别框架，主要分为数据采集与标注、算法模型训练、测试使用3个阶段。

1）数据采集与标注通过在应用场景下采集相应规模的视频监控数据构建数据集。标注时，首先使用目标检测算法YOLOv3[9]提取出包含行人的图像框，该算法由于具有高精度和高速度的优势，因而在室外作业现场中常用于实时计算机视觉检测[10]。本文使用YOLOv3算法对单帧图像中不同大小的行人目标进行检测，然后通过Mask R-CNN[11]算法进行前景分割，以像素级别精确分割出人像，提取每帧图像的二值化轮廓图。通过上述算法得到图片对应的轮廓图，用于构建步态识别的数据集，数据集中每个训练、测试样本为包含多帧的连续序列。采集步态数据的同时进行人臉检测，即获取行人图像框后进一步使用轻量级人脸检测模型ultra-light-fast-generic-face-detector[12]检测人脸，该模型是针对边缘计算设备设计的轻量人脸检测模型，具有检测速度快、精度较高的特点。

2）算法模型训练因人脸特征具有通用性，所以训练部分侧重于对步态特征的匹配建模。算法模型在GaitSet[13]步态识别网络的基础上加入特征压缩模块，可以更加有效地提取步态特征，并与人脸识别相结合。人脸识别采取InceptionResnetV1[14]网络在Vggface数据集[15]上的预训练模型，模型在训练过程中同时约束人脸和步态特征与身份表征信息的空间距离。

3）测试使用利用训练好的算法模型同时提取一段序列图片的步态与人脸特征（如无法检测人脸，人脸特征向量为空），而后将特征输入到所设计的身份分类器中，优先采用人脸特征的分类结果。测试时的多特征融合身份识别框架如图1所示。

1.2 数据集的创建

CASIA-A数据集创建于2001-12-10，包含20个人的室外行走数据，每个行人有12个图像序列、3个行走方向（与图像平面分别成0°，45°，90°），每个方向有4个图像序列。每个序列的长度随着行人行走的速度变化而变化，每个序列的帧数在37～127之间。整个数据库包含13 139副RGB图像，约2.2 GB。当图像中的测试者正向走来且人脸清晰时，可检测并提取人脸信息，CASIA-A数据集示例见图2。

1.3 人脸特征的提取

使用ultra-light-fast-generic-face-detector算法检测出图像中的人脸部分，提取包含人脸的区域后，使用InceptionResnetV1在Vggface上的预训练模型进行人脸特征提取。待比对的已知身份的人脸数据也采用相同的数据预处理方法，即将图像大小缩放至256×256，并裁剪至224×224像素大小，而后进行图形归一化处理。

1.4 步态特征的提取

步态识别是一种新兴的生物特征识别技术，通过人们走路的姿态进行身份识别，图3展示的是一个完整周期的步态轮廓图。与其他的生物识别技术相比，步态识别具有非接触、远距离、无需主动配合、不容易伪装等优点。在智能视频监控和安防领域，步态识别较其他生物识别（人脸识别、虹膜识别等）方法更具优势。

基于深度学习进行步态识别，是目前步态识别研究领域的趋势。利用深度学习卷积神经网络较强的学习能力，可以更为有效地提取身份特征信息，从而提高步态识别技术在处理跨视角、复杂状态（包含携带物品与穿着遮挡性衣物）下的识别精度。按照所处理数据的属性不同，步态识别方法可以分为基于时序轮廓图的方法和基于特征表征模板的方法。

基于步态特征的身份核验包含步态轮廓图提取、步态特征提取以及特征比较3个步骤。其中步态轮廓图提取过程如图4和图5所示。当步态轮廓提取完成后，就可以利用训练好的深度学习模型对轮廓序列图进行步态特征提取，与已注册的步态特征数据进行对比，完成身份核验。

为了更有效地从步态轮廓中提取信息，网络骨架采用业界较为认可的网络模型GaitSet。网络输入数据为一段固定序列数量的步态轮廓图，轮廓图经过GaitSet网络后生成初级的步态特征向量。由GaitSet输出的特征一方面利用三元损失函数Triplet Loss[16]约束样本空间距离，另一方面接入所设计的特征重映射网络，用于与人脸特征的联合匹配。

2 多特征识别网络

2.1 框架设计

基于人脸与步态的多特征识别的网络架构如图6所示。输入数据为一段场景下的视频流数据，利用人脸与步态检测分割方法提取步态轮廓图与人脸部分区域后，分别进行步态、人脸特征提取，而后进行特征融合与相关约束。

2.2 训练流程

对于一段待识别的行走序列，通过人脸检测算法ultra-light-fast-generic-face-detector提取出序列中包含的有效人脸信息图片，若无有效人脸信息则后续的人脸特征为空。然后，利用InceptionResnetV1模型对人脸图片进行人脸特征提取，将提取后的特征输入全连接层，将其映射到隐层特征空间，人脸特征向量的最终维度为256。同时，通过Mask R-CNN算法提取序列的步态轮廓图信息。步态模型训练伪代码如表1所示。

对于提取轮廓后的步态轮廓图，基于GaitSet提取初步步态特征并利用三元损失函数约束样本空间距离。其中三元损失函数为

Ltriplet=max（‖f（A）-f（P）‖2-‖f（A）-f（N）‖2+α， 0）。（1）

式中：A为锚点样本特征;P为与A相同类别的正样本特征;N为与A不同类别的负样本特征;α为调整正负样本对间距离的阈值系数;f为特征映射函数。步态特征重映射网络由批归一化层[17]、Dropout层[18]以及全连接层构成，将由GaitSet输出的62×256特征重映射为256维度大小的特征。

对于提取的人脸与步态特征，采取维度拼接构成最终融合的512维度联合特征表征向量，实现特征融合。通过分类网络后，利用交叉熵损失函数约束联合特征：

Lce=-1M∑Mi=1yilogy︿i。（2）

式中：yi为图片i的标签;y︿i为通过网络预测出的身份属性;M为一个训练批次的样本数量。

最终的损失函数为三元损失函数与交叉熵损失函数的加和，即

Ltotal=Ltriplet+Lce。（3）

3 参数设置及结果分析

3.1 参数设置

本文所有的实验均在配备了i5-3570处理器、NVDIA RTX 3060Ti显卡、16 G内存的计算机上进行。在 Python3.6环境下用Pytorch框架实现模型算法，部分实验参数设置见表2。

3.2 结果分析

将数据集按照4种图像序列分为4个交叉训练、验证集，每个子集包含60个步态序列，其中包含0°，45°和90°图像各20张。结果如表3所示，4个交叉验证集上的分类正确率大致相当，仅用步态特征的平均分类正确率为98.33%，加入人脸后的平均分类正确率为99.17%。

为了更好地体现本文所提方法的有效性，进行了单视角下与其他经典步态识别方法的对比实验，结果如表4所示。由表4可以看出，本文所提出的步态识别方法在3个角度上的分类正确率均超越现有的其他方法，其中GRHT[21]模型利用了霍夫变换和主成分分析等机器学习方法，在CASIA-A数据集上达到了98.33%的识别准确率。而本文结合人脸、步态的多特征融合方法在此水平上进一步提高了准确率，提升幅度为0.84%。

对于所使用的网络与损失函数，进行了如表5所示的对比研究，可见融合2种损失函数，可以使网络输出的步态特征与标签建立较好的映射关系，得到更高的识别准确度。

为了更好地体现训练后模型对于不同身份图片的区分能力，将模型在测试集图片上生成的高维特征通过t-SNE[22]方法进行非线性降维并可视化，如图7所示。不同颜色的点代表不同身份的个体，模型训练前步态特征分布如图7 a）所示，不同身份人员的步态特征无明显区分。模型训练后，相同身份的特征数据的类内距离减小而聚成一簇，不同身份的特征数据被分成多个簇，有较大的类间距，如图7 b）所示。

4 结语

1）多特征融合身份核验方法有效融合了人脸与步态信息，对于行走的包含人脸视频的单人场景可以实现较高的识别准确率，为室外作业场景中的身份核验提供了有效方法。

2）在中科院CASIA-A数据集上实现了99.17%的多分类准确率，超过了现有其他算法模型，证明了本文提出的步态识别网络模块与多特征融合身份识别框架的有效性。实际应用中可应用类似数据处理及特征提取方法，达到相近的身份核验准确率。

3）将步态特征与人脸特征结合应用于室外场景的身份识别，既打破了长期以来识别领域特征的单一性，又因使用双损失函数约束特征而保证了特征提取的有效性。

本研究方法虽有效提高了室外作业场景中人员身份核验的准确度，但仍存在一定待优化、改进之处。首先，当前用于进行身份核验的数据集场景大多为光照充足、行人姿态清晰的场景，但在夜间室外作业场景中，难以使用普通RGB摄像头拍摄行人姿态清晰可见的图像，可以考虑使用红外线摄像头拍摄红外图像，用于本文所提方法中;其次，当前识别任务适用于单个目标的身份识别，不能同时对多个目标进行身份识别。在多目标识别场景中，可以分别对不同的作业人员执行本文所提出的身份核验方法，利用排他性（同一个场景中不可能出现2个同样身份的人）和连续性（同一个人的身份不应跳变）比较每个行人的身份概率，进而得出身份核验结果。未来可将本文所提方法与现场安监设备结合，实现室外作业场景的实时身份核验。

参考文献/References：

[1] 王刘旺，周自强，林龙，等.人工智能在变电站运维管理中的应用综述[J].高电压技术，2020，46（1）：1-13.

WANG Liuwang，ZHOU Ziqiang，LIN Long，et al.Review on artificial intelligence in substation operation and maintenance management[J].High Voltage Engineering，2020，46（1）：1-13.

[2] 肖体刚，蔡乐才，高祥，等.改进YOLOv3的安全帽佩戴检测方法[J].计算机工程与应用，2021，57（12）：216-223.

XIAO Tigang，CAI Lecai，GAO Xiang，et al.Improved YOLOv3 helmet wearing detection method[J].Computer Engineering and Applications，2021，57（12）：216-223.

[3] 陳晓江，龙震岳，曾纪钧.基于人工智能算法的作业现场人员设备资质识别技术研究[J/OL].电测与仪表.[2021-06-22].http：//kns.cnki.net/kcms/detail/23.1202.TH.20210621.1803.002.html.

CHEN Xiaojiang，LONG Zhenyue，ZENG Jijun.Research on equipment qualification recognition technology of job site personnel based on artificial intelligence algorithm[J/OL].Electrical Measurement & Instrumentation.[2021-06-22].http：//kns.cnki.net/kcms/detail/23.1202.TH.20210621.1803.002.html.

[4] 林磊，錢平，董毅，等.基于深度学习的变电站环境下行人检测方法研究[J].浙江电力，2018，37（7）：68-73.

LIN Lei，QIAN Ping，DONG Yi，et al.Research on substation pedestrian detection method based on deep learning[J].Zhejiang Electric Power，2018，37（7）：68-73.

[5] 刘培贞，贾玉祥，夏时洪.一种面向电力运维作业的LSTM动作识别方法[J].系统仿真学报，2019，31（12）：2837-2844.

LIU Peizhen，JIA Yuxiang，XIA Shihong.An LSTM-based motion recognition method for power operation andmaintenance[J].Journal of System Simulation，2019，31（12）：2837-2844.

[6] 丘浩，张炜，彭博雅，等.基于YOLOv3的特定电力作业场景下的违规操作识别算法[J].电力科学与技术学报，2021，36（3）：195-202.

QIU Hao，ZHANG Wei，PENG Boya，et al.Illegaloperation recognition algorithm based on YOLOv3 in specific poweroperation scenario[J].Journal of Electric Power Science and Technology，2021，36（3）：195-202.

[7] 常政威，彭倩，陈缨.基于机器学习和图像识别的电力作业现场安全监督方法[J].中国电力，2020，53（4）：155-160.

CHANG Zhengwei，PENG Qian，CHEN Ying.Safety supervision method for power operation site based on machine learning and image recognition[J].Electric Power，2020，53（4）：155-160.

[8] WANG Y，YU S Q，WANG Y H，et al.GaitRecognition Based on Fusion of Multi-view Gait Sequences[M].Berlin：Springer-Verlag Berlin Heidelberg，2005.

[9] REDMON J，FARHADI A.YOLOv3：An Incremental Improvement[DB/OL].https：//arxiv.org/abs/1804.02767v1，2021-07-13.

[10]睢丙东，张湃，王晓君.一种改进YOLOv3的手势识别算法[J].河北科技大学学报，2021，42（1）：22-29

SUI Bingdong，ZHANG Pai，WANG Xiaojun.A gesture recognition algorithm based on improved YOLOv3[J].Journal of Hebei University of Science and Technology，2021，42（1）：22-29.

[11]HE K M，GKIOXARI G，DOLLR P，et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision（ICCV）.[S.l.]：IEEE，2017：2980-2988.

[12]LINZAE R.Ultra-light-fast-generic-face-detector-1MB[DB/OL].https：//github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB，2021-07-13.

[13]CHAOH Q，HE Y W，ZHANG J P，et al.GaitSet：Regarding gait as a set for cross-view gait recognition[J].Proceedings of the AAAI Conference on Artificial Intelligence，2019，33（1）：8126-8133.

[14]SZEGEDY C，IOFFE S，VANHOUCKE V，et al.Inception-v4，inception-ResNet and the impact of residual connections on learning[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.[S.l.]：AAAI Press，2017：4278-4284.

[15]HUANG G B，RAMESH M，BERG T，et al.Labeled Faces in the Wild：A Database for Studying Face Recognition in Unconstrained Environments[R/OL].https：//people.cs.umass.edu/～elm/papers/lfw.pdf，2021-07-13.

[16]HERMANS A，BEYER L，LEIBE B.In Defense of the Triplet Loss for Person Re-identification[DB/OL].https：//arxiv.org/abs/1703.07737v2，2021-07-13.

[17]IOFFE S，SZEGEDY C.Batch normalization：Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning.[S.l.]：JMLR，2015：448-456.

[18]SRIVASTAVA N，HINTON G，KRIZHEVSKY A，et al.Dropout：A simple way to prevent neural networks fromoverfitting[J].Journal of Machine Learning Research，2014，15（1）：1929-1958.

[19]HAN J，BHANU B.Statistical feature fusion for gait-based human recognition[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]：IEEE，2004：I-II.

[20]顾磊.基于图像序列的人体步态识别方法研究[D].南京：南京理工大学，2008.

GU Lei.Research on Human Gait Recognition Methods Based on Image Sequences[D].Nanjing：Nanjing University of Science and Technology，2008.

[21]LIU L F，JIA W，ZHU Y H.GaitRecognition using Hough Transform and Principal Component Analysis[M] Berlin：Springer-Verlag Berlin Heidelberg，2009：363-370.

[22]CIESLAK M C，CASTELFRANCO A M，RONCALLI V，et al.t-distributed stochastic neighbor embedding （t-SNE）：A tool for eco-physiological transcriptomic analysis[J].Marine Genomics，2020，51.doi：10.1016/j.margen.2019.100723.

收稿日期：2021-07-18;修回日期：2021-10-24;責任编辑：张士莹

基金项目：国网浙江省电力有限公司科技资助项目（5211DS19002K）;国家自然科学基金基础科学中心资助项目（62088101）

第一作者简介：王刘旺（1988—），男，安徽安庆人，高级工程师，博士，主要从事人工智能在电力系统应用方面的研究。

E-mail：mylovelysada@foxmail.com

王刘旺，郑礼洋，叶晓桐，等.

基于人脸与步态特征的室外作业场景身份核验方法

[J].河北科技大学学报，2021，42（6）：635-642.

WANG Liuwang，ZHENG Liyang，YE Xiaotong，et al.

Identity verification method based on face and gait features in outdoor operation scenes

[J].Journal of Hebei University of Science and Technology，2021，42（6）：635-642.