基于改进AlexNet的红外图像行人姿态识别

2024-04-18 09:43赵丹郭姗姗计尚冉谢雨晴方子睿单巍
关键词:深度学习

赵丹 郭姗姗 计尚冉 谢雨晴 方子睿 单巍

【摘   要】   针对传统红外图像行人姿态识别准确率低下的问题,在经典AlexNet网络的基础上,提出一种改进型AlexNet网络。该网络设定输入红外图像的尺寸为227×227×3,包含5个卷积层、3个池化层、3个全连接层和1个输出层。同时,减小卷积核提取更精细的特征,减少节点数防止过拟合,删除分组和随机失活神经元操作获得更快的提取和计算速度。实验结果表明,与流行的GA-CNN、CNN-SVM、CNN-MLP、CNN-RF算法对比,改进网络的Mean Precision、Mean Recall 和Mean F1等性能指标均优于对比算法。

【关键词】   改进型AlexNet;红外图像;姿态识别;深度学习

Human Pose Recognition in Infrared Images Based on Improved AlexNet

Zhao Dan, Guo Shanshan, Ji Shangran, Xie Yuqing, Fang Zirui, Shan Wei*

(Huaibei Normal University, Huaibei 235000, China)

【Abstract】    For the problem of low accuracy in pedestrian pose recognition of traditional infrared images, an improved AlexNet network is proposed based on the classic AlexNet network. The network sets the size of the input infrared image to 227 × 227 × 3. It includes 5 convolutional layers, 3 pooling layers, 3 fully connected layers, and 1 output layer. It reduces the number of convolutional kernels to extract finer features, and nodes to prevent overfitting. Meanwhile, it removes grouping and randomly inactivate neurons for faster extraction and computation speed. Experiments show that, compared with popular GA-CNN, CNN-SVM, CNN-MLP, and CNN-RF algorithms, our networks, such as Mean Precision, Mean Recall, and Mean F1 are superior in the performance indicators

【Key words】     improved AlexNet; infrared image; pose recognition; deep learning

〔中圖分类号〕  TP391                 〔文献标识码〕  A              〔文章编号〕 1674 - 3229(2024)01- 0023 - 06

0     引言

人体姿态识别(human pose recognition,HPR)在当今智能信息技术领域应用广泛,主要应用于病人实时健康监测、汽车辅助驾驶、治安防控等方面。早期HPR研究基于可见光采集图像,可见光图像具有采集分辨率高、目标细节丰富等特点,但是容易受到光照变化的影响,夜间无法正常工作;而红外图像具有抗干扰、不受光照影响等优点,在恶劣环境中能正常成像,因此,近几年基于计算机机器视觉的红外图像HRP成为重点研究领域。红外图像HPR主要有基于视频和基于单幅图像两种技术方法。基于视频的方法准确率较高,但其网络复杂,实时性低,对硬件要求较高。基于单幅图像的方法实时性高,对硬件的要求较低,系统鲁棒性高,实际应用较广泛[1]。

目前,红外图像的HPR包含传统特征提取法和深度学习法两大类。传统特征提取法通常需要提前设计识别模板,对图像进行多尺度遍历搜索提取特征,然后输入到分类器检测是否存在人体目标并进行行为判别,因而特征提取模板和分类器的设计对HPR结果影响重大。为了提高准确率,学者们在这方面做了很多研究,例如Nanda等[2]通过人体亮度分布概率提出一种亮度概率提取模板,在不同尺度下对多样性的人体姿态进行匹配,在低质量环境中证明了该方法可行。邵延华等[3]应用稠密轨迹表达图像序列特征,设计的提取模板核心特征点在每个尺度空间被追踪,取得了较好的识别效果。然而传统方法依赖人工设计提取模板和识别方法,对目标形态的多样性和随机性检测效果不佳,整体准确率低下。

近年来,学者们将研究重点偏向更高效的深度学习领域,利用卷积神经网络(Convolutional Neural Networks,CNN)提取图像更深层的特征信息,实现了高识别性能的分类。2016年Lee E J等[4]建立了红外图像人类行为数据集,采用轻量化CNN网络,成功实现了夜间移动拍摄红外图像识别行人不安全行为,证明CNN在低质量环境下HPR的高效性。唐明武等[5]将LeNet和ResNet两种深度学习神经网络进行识别训练,识别率达到80%以上,可见基于深度学习的红外图像HPR相比传统特征提取法具有很大优势。

本文的主要目的是增强神经网络对人体特征的提取能力,进一步提高红外图像HPR的精准率,在CNN的研究基础上提出了一种改进型AlexNet网络结构[6],对红外图像中的6类人体姿態识别进行了研究。网络主要通过减小卷积核提取更精细的特征、减少节点数以防止过拟合、删除分组和随机失活神经元操作以获得更快的提取和计算速度。与流行的GA-CNN、CNN-SVM、CNN-MLP、CNN-RF网络进行实验对比,本文网络的Mean Precision、Mean Recall和Mean F1等性能指标均优于其他算法,对红外图像HPR具有更优的识别能力。

1     经典AlexNet网络结构

经典AlexNet是由Alex Krizhevsky等于2012年提出的,是首个应用于图像分类的深层卷积神经网络,它以经典卷积神经网络LeNet[7]为基础,是一种更深层次的LeNet网络。经典AlexNet的具体结构如图1所示,主要包括13个结构层,其中有1个输入层Input、5个卷积层Conv、3个池化层Maxpool、 3个全连接层FC和1个输出层Output。卷积层采用分组操作的方式并行训练,每个卷积层又包含了卷积核、偏置项、ReLU激活函数和局部响应归一化等模块,池化层分别在第1、2、5个卷积层后,全连接层在第三个池化层后,前两个全连接层使用了dropout随机失活神经元操作,最终输出层为Output,使用了Softmax分类函数,将网络的输出转化为概率值,用于预测图像的类别[8]。输入层输入的图片大小为224×224×3。

Conv1的核大小为11×11,步长为4,输入层的图片经过该层的卷积、激活、归一化等一系列操作之后会输出96个55×55的特征图。

Maxpool(1)核大小为3×3,步长为2,Conv1输出的特征图经过该层操作之后会输出96个27×27的特征图。

Conv2的核大小为5×5,步长为1,Maxpool(1)输出的特征图经过该层的相关操作之后会输出256个27×27的特征图。

Maxpool(2)核大小为3×3,步长为2,Conv2输出的特征图经过该层操作之后会输出256个13×13的特征图。

Conv3、Conv4、Conv5的核大小均为3×3,步长均为2,Maxpool(2)输出的特征图经过这三层操作之后的输出均为384个13×13的特征图。

Maxpool(3)核大小为3×3,步长为2,Conv5输出的特征图经过该层操作之后会输出256个6×6的特征图。

FC是全连接层,前两个FC层的神经元节点数为4096个,使用了随机失活神经元操作,降低节点间的相互依赖性,实现神经网络的正则化,稳定网络模型,抑制过拟合。第3个FC层神经元节点数为1000,该层使用激活函数Softmax来计算每个类别的概率值,从而达到分类的目的[9]。最后一层是输出层,因为经典AlexNet 是一个1000分类的模型,所以该层共有1000个神经元节点。

经典AlexNet由于早期计算机的GPU算力有限,必须采用分组操作的方式并行训练,加上为了防止过拟合使用了随机失活神经元操作,训练速度十分缓慢。本文旨在通过减小卷积核和减少节点数来防止过拟合,删除分组和随机失活神经元操作来提高模型的训练速度和精度。

2     改进型AlexNet网络结构

本实验研究对象为红外图像中6类不同的人体姿态,将AlexNet应用到红外图像HPR中[10],经过多次实验结果对比分析,对经典网络的配置进行更改,以达到最佳的实验方案,具体如下。

(1)改变网络输入图片的尺寸。经典AlexNet输入图像为224×224×3,为了适应红外图像人体姿态,将所有图像大小归一化为227×227×3。

(2)改变部分卷积核大小。常见的卷积核大小有7×7、5×5和3×3、1×1等,卷积核的大小决定了它在输入图片上滑动时涵盖的感受野大小。人体姿态的分类需要更精细的特征提取,多文献表明,卷积核的选择应该遵循小而深的原则[11],只有堆叠很多小的卷积核,才会捕获更多的细节信息,模型的性能才会提升,然而过小的卷积核也会增加网络的计算量,容易产生过拟合,所以本实验适当地减小卷积核以提取更精细的特征。将Conv1层和Conv2层的卷积核分别从11×11缩小到9×9、从5×5缩小到3×3。

(3)删除随机失活神经元操作。经典AlexNet使用了随机失活神经元操作,其主要目的是抑制过拟合。然而加入该操作后,训练时间明显增加,因为引入 dropout 之后相当于每次只训练原先网络的一个子网络,为了达到同样的精度需要训练的次数就会增多,训练时间是没有dropout 网络的2~3倍。本文通过减小卷积核和减少节点数,抑制了过拟合,可以删除该操作来提高网络的训练速度。

(4)删除分组操作。经典AlexNet采用分组操作的方式并行训练。由于当时的单显卡性能不能满足精细网络的基本训练,卷积操作无法在同一个显卡中进行处理,只能将功能映射分配给多个独立显卡,最后融合成多显卡进行训练。但是多显卡之间在传输数据过程中可能存在数据的丢失和错误,导致精度下降,而且使用多显卡训练,速度也十分缓慢。现在随着计算机技术的发展,单显卡已经能满足训练的基本要求,本实验采用单显卡进行训练。

(5)减少全连接层的节点数。全连接层在整个卷积神经网络中起到一个“分类器”的作用。在训练过程的每个阶段,会随机选取一部分神经元参与到训练中。通过实验发现,在选取的部分中再适当减少神经元的节点个数,不会影响其网络训练的准确率,但减少节点个数使网络参数减少,可降低网络的计算复杂度,提高网络的训练速度,故本实验将前两个全连接层的节点数由4096缩小到2048。

(6)本实验是针对6类人体姿态进行分类识别,将最后一层的输出分类数由1000改成6。最终,改进后的AlexNet的网络结构如图2所示。

3     实验结果与分析

3.1   数据集预处理

本实验采用广泛使用的PUB数据集[12]作为样本的训练集和测试集,该数据集的所有样本均在夜间由车载红外相机采集,包含1200张训练图片和480张测试图片。如图3所示,数据集包括6类不同的姿态样本:Sitting、Running、Standing、Looking-back、Walking、Lying-down。所有图像均为8位灰度图像。由于深度卷积神经网络输入的是三通道图像,因此将数据集中的所有图像复制到其他两个通道中,以形成一个三通道图像。针对数据集中图像高度宽度不统一,将其归一化为227×227×3,如图4所示。

3.2   参数设置和网络训练

由于当前实验是验证图2网络结构的性能,因此不再使用更复杂的调整技术,但需要对参数进行设置,具体如下。

(1)初始学习率控制网络模型的训练进度,若设置为0.1,其训练速度过快,造成网络不能收敛,会导致训练失败;若设置为0.001,其训练速度过慢,网络收敛非常缓慢,周期过长,会导致训练失败。故本文的初始学习率设置为0.01。

(2)改进型AlexNet的第一个卷积层步长设为4,其余卷积层步长均设置为1,Conv2的填充由2减少到1。

(3)卷积神经网络处理数据是分批进行的,训练时将每批处理的样本个数设置为120。总共训练了100个时期,根据实验结果选择具有最佳性能的网络模型作为最终模型。

最终改进后的AlexNet每层网络设置如表1所示。由于样本数量类别为6,因此Softmax模块中的参数是长度为6的一维向量。实验训练在Windows 10系统上完成,该计算机的配置为:CPU @ 1.60GHz,1.80 GHz,机带RAM为8GB,实验编程均在MATLAB R2022b中进行。观察实验进程发现,实验刚开始时,模型训练准确率缓步上升,损失函数值缓步下降。当迭代约15次后,曲线趋于稳定,此时若继续进行实验有可能会出现过拟合现象,故此时停止实验,进行结果分析。

3.3   测试结果对比分析

本实验采用精确率(Precision,P)、召回率(Recall,R)和F1分数值 (F1-score,F1)共3个通用指标来进行性能评估[13]。令TP、FP、FN分别表示其实际正预测为正、实际负预测为正、实际正预测为负的样本的数量,则上述指标参数可表示如下:

[P=TPTP+FP]     (1)

[R=TPTP+FN]                             (2)

[F1=2PRP+R]  (3)

從公式(1)(2)(3)可以看出,精确率主要衡量系统的查准性能,召回率主要衡量系统的查全性能,而F1则是精确率和召回率的综合评价。改进型AlexNet实验的准确度和迭代损失如图5所示,混淆矩阵如图6所示。

为了更直观地反映本文算法的识别性能,将本文算法与流行的GA-CNN[14]、CNN-SVM[15]、CNN-MLP[16]、CNN-RF[17]算法进行实验对比。在表2、表3、表4中,分别给出了5种算法对6类行人姿态的性能指标。表2对各种算法的精确率指标进行了对比,在所有6类人体行为中有5种的最高精确率是由本文算法取得的,而且针对平均精确率而言,本文的算法比排名第2的GA-CNN算法高1.3个百分点。召回率指标由表3给出,由表3可知本文算法在6类人体行为中的5类上达到了最高召回率,平均召回率比排名第2的GA-CNN算法高1.2个百分点。由表2和表3可知,在准确率和召回率上,本文算法在5类行为中都达到了比其余算法更高的精度,只有Walking的精确率和Running的召回率略低。为进一步检验算法性能并全面衡量前两个指标,表4给出了各类算法在不同行为类别上的F1。由表4可知,本文算法在每种类型的行为中都取得了最高的F1,并且平均F1值超出其他算法0.012以上,说明本文算法整体上更加优异,并且相对其他算法具有更好的识别性能。

4     结论

本文对经典AlexNet网络进行了改进,减小卷积核,减少节点数,删除分组和随机失活神经元操作,根据处理数据特性选取最佳网络参数。在评估行人行为的数据集PUB上进行测试,结果表明,改进型AlexNet网络的Mean Precision、Mean Recall 和Mean F1等性能指标均优于传统方法,具有更好的识别性能。当然,该网络仍然存在部分不足,例如对Walking和Running精度相对略低,这反映了该网络对动态行为的姿态识别能力较低,网络在分类细化上学习能力有限,因此在未来的工作中需要继续对分类模型进行优化,改进网络的不足。

[参考文献]

[1] 周啸辉,余磊,何茜,等. 基于改进 ResNet-18 的红外图像人体行为识别方法研究[J]. 激光与红外,2021,51(9): 1178-1184.

[2] H Nanda,L Davis. Probabilistic template based pedestrian detection in infrared videos[A].Farrokh Rahimi. Proceedings of the 2002 intelligent vehicle symposium[C]. France: IEEE,2002:15-20.

[3] 邵延華,郭永彩,高潮.基于稠密轨迹特征的红外人体行为识别[J].光电子·激光,2015,26(4):758-763.

[4] Lee E J,Ko B C,Nam J Y. Recognizing pedestrian′s unsafe behaviors in far-infrared imagery at night[J]. Infrared Physics and Technology,2016,76:261-270.

[5] 唐明武,李果,刘盼龙,等.基于深度学习的红外图像人体参数识别研究[J].东北电力大学学报,2022,42(4):18-27.

[6] 徐雄. 采用改进型 AlexNet 的辐射源目标个体识别方法[J].电讯技术,2018,58(6):625-630.

[7] Al-Jawfi   R.  Handwriting  Arabic  character  recognition LeNet using neural network[J]. International Arab Journal of Information Technology,2009,6(3): 304-309.

[8] Yuan Z W,Zhang J. Feature extraction and image retrieval based on AlexNet[A]. CM Falco. Proceedings of the eighth international digital image[C].China: IEEE,2016: 65-69.

[9] 黄俊,张娜娜,章惠. 基于优化 LeNet-5 的近红外图像中的静默活体人脸检测[J]. 红外技术,2021,43(9): 845-851.

[10] 王文秀,傅雨田,董峰,等. 基于深度卷积神经网络的红外船只目标检测方法[J]. 光学学报,2018,38(7): 160-166.

[11] 李荟,王梅.用于大规模图像识别的特深卷积网络[J].计算机系统应用,2021,30(9):330-335.

[12] Lee E J,Ko B C,Nam J Y. Recognizing pedestrian′s unsafe behaviors in far-infrared imagery at night[J]. Infrared Physics and Technology,2016,76: 261-270.

[13] 姜红,何清,曾晓青,等. 基于随机森林和卷积神经网络的 FY- 4A 号卫星沙尘监测研究[J]. 高原气象,2021,40(3): 680-689.

[14] T N Fatyanosa,M Aritsugi. Effects of the number of hyperparameters on the performance of GA-CNN[A]. Pavanbalaji. Proceedings of international big data computing,applications and technologies[C]. UK:IEEE,2020: 144-153.

[15] Niu X X,Suen C Y. A novel hybrid CNN-SVM classifier for recognizing handwritten digits[J]. Pattern Recognition,2012,45(4): 1318-1325.

[16] Sharifzadeh F,Akbarizadeh G,Seifi Kavian Y. Ship classification in SAR images using a new hybrid CNN-MLP classifier[J]. Journal of the Indian Society of Remote Sensing,2019,47: 551-562.

[17] Cao G,Wang S,Wei B,et al. A hybrid CNN-RF method for electron microscopy images segmentation[J]. Journal of Biomimetics Biomaterials and Tissue Engineering,2013,18(2): 114-116.

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究