基于改进ResNet-18的红外图像人体行为识别方法研究

2021-11-05 03:01周啸辉欧巧凤熊邦书

激光与红外 2021年9期

周啸辉,余磊,何茜,陈涵,聂宏,欧巧凤,熊邦书

(1.南昌航空大学图像处理与模式识别江西省重点实验室,江西南昌 330063；2.北爱荷华大学技术系,美国爱荷华州 50614-0178)

1 引言

人体行为识别是计算机视觉和模式识别领域的核心课题之一,目标在于识别图像或视频中人的行为[1]。对人体行为进行有效且精准地识别是许多智能服务的基础,在智能监控、智能家居、虚拟现实等诸多领域中具有重要的研究意义和广泛的应用价值,备受国内外学者的关注[2]。

近年来,红外成像系统以其受光照影响小、保护隐私的独特优势受到越来越广泛的关注,众多优秀学者对红外行为识别领域展开深入研究。Zhu等人[3]提出了一种随机采样结构,并建立统计特征空间；Hilsenbeck等人[4]利用霍夫森林提取时空域的整体通道特征；Tan等人[5]提出一种基于运动偏差图象的相位特征描述符,在受试者个体差异较大的情况下仍具有较高的识别精度；Liang等人[6]提出一种分段架构,利用子动作间关系,并结合异构信息融合和类隐私保护协同表示,在多个数据集上取得了不错的表现。上述方法主要通过手动提取特征,并制定相应的判决标准进行人体行为识别。然而,这些方法提取的特征往往不能准确表征人体实际行为,从而导致识别准确率较低。深度学习方法能自动提取有效特征,成为解决该问题的一种有效途径。

深度学习[7]是机器学习的一个分支,在视觉识别和自然语言处理等领域取得了突破性进展,也给红外行为识别带来了前所未有的发展。目前,红外行为识别领域的深度学习方法主要分为两类:基于视频或基于图像。

基于红外视频,Gao等人[8]构建了一个红外行为识别数据集InfAR,并提出一种双流卷积神经网络,平均识别率为76.66 %；Liu等人[9]提出基于全局时间表示的三流卷积神经网络,整合局部、全局时间信息和时空信息,在数据集InfAR和NTU RGB+D上取得79.25 %和66.29 %的平均识别率；Yang等人提出3D卷积神经网络结合SVM分类器的方法,识别精度达到96.5 %。

基于红外视频的方法虽然取得了较高的识别精度,但它们的模型复杂,处理时间长,效率较低。相较而言,基于红外图像的人体行为识别方法模型简单,处理速度较快,逐渐受到研究者关注。Akula等人[10]提出将2D CNN网络用于识别行走、站立、静坐、在桌子前静坐、跌倒和倒在桌子上6种行为,其对跌倒的识别精度较低；Gochoo等人[11]利用三个传感器,从x、y和z轴捕获人体瑜伽姿态,其总体识别率较高。然而,基于红外图像的方法仅对静止行为有较好的识别效果；对于跌倒等包含一系列连续动作的行为,由于难以依据单帧图像进行识别,这些方法往往不能达到令人满意的效果。

针对上述问题,本文提出红外图像拼接方法:通过将连续多帧图像拼为一张大图,实现从三维视频到二维图像的转变。这样既保留了数据的时空联系,有利于后续识别工作；又可简化识别模型,减少处理时间。残差网络[12]便于训练,易于收敛,泛化能力强,性能优异,在图像识别方面得到了广泛应用。ResNet-18作为一种典型代表,识别精确率较高且模型参数较少；其在可见光图像识别上一直表现良好,但在红外图像识别中效果欠佳。本文在ResNet-18网络的基础上,根据红外图像的特性对其进行改进:首先,构建多分支同构结构,替换7×7卷积；然后,结合最大池化和平均池化对池化层进行优化；最后,引入非对称卷积块构成多重残差结构,并将改进ECA模块与CBAM的空间注意力模块结合,加入残差块中。此外,考虑到跌倒常对人,尤其对老年人造成较为严重的伤害[13],因此本文选择跌倒和易与跌倒相混淆的站到坐、坐到躺等行为,以及站立、静坐、平躺、行走等常见行为作为研究对象,构建红外人体行为识别系统,并对这7种行为进行识别,取得了良好的效果。

2 人体行为识别系统

本文所设计的人体行为识别系统如图1所示。首先,选择德国海曼器件公司制造的HTPA80x64dR1L5.0/1.0热成像阵列传感器采集红外信息,其分辨率为80×64像素。其次,为了尽可能减少视场盲区,将传感器安装于距离地面1.8 m的墙角处,与水平方向的夹角为88°,与垂直方向的夹角为70°。从图1可以看出,在1.8 m以下的区域中,除了阴影部分外,其余均在视场范围内。再次,将传感器采集的温度分布信息,通过I2C接口发送至树莓派,并进一步通过内置通信模块将其发送至PC端,从而获取红外图像。最后,对红外图像进行拼接,再经过改进ResNet-18卷积神经网络算法进行分类,完成人体行为识别。

图1 系统结构示意图Fig.1 System structure diagram

3 红外图像拼接

对于采集到的红外图像,考虑到帧与帧之间的关联性,基于视频流的深度学习方法是一个很好的选择。然而,传统基于视频的深度学习方法存在模型复杂,处理时间长等缺陷。基于图像的深度学习方法虽然具有模型相对简洁,运算处理快等优势；但人体行为往往包括一系列连续动作,难以仅依据单帧图像进行识别。为了充分利用数据的时空联系,方便后续识别,同时简化识别模型,提高处理效率,本文提出红外图像拼接方法:将连续多帧图像组合为一张大图,实现从三维视频到二维图像的转变。

由于跌倒,从站到坐,从坐到躺等人体姿态变化过程的持续时间不超过4秒,且HTPA80x64dR1L5.0/1.0热成像阵列传感器帧率约为5 f/s,因此为了在一张大图中包含完整的行为过程,本文选取25帧连续图像进行拼接,图2为拼接后的跌倒状态示意图。

图2 拼接图像示意图Fig.2 Schematic diagram of mosaic image

4 改进ResNet-18网络

近年来,由于在图像和语音识别方面的良好表现,卷积神经网络逐渐成为研究热点。残差网络是一种表现优异的卷积神经网络,在图像识别方面有着广泛的应用。ResNet-18网络作为一种典型代表,其性能优异且模型参数较少,在保持较高准确率的同时仅占用较少的内存空间[14]。

ResNet-18网络在可见光图像识别上一直表现良好,但在红外图像识别中表现欠佳。本文在ResNet-18网络结构的基础上,针对人体行为识别任务,并根据红外图像自身的特性,提出一种改进ResNet-18网络结构,该结构如图3所示。首先,构建多分支同构结构Conv_x,替换7×7卷积；然后,结合最大池化和平均池化,对池化层pool1、pool2进行改进；最后,引入非对称卷积块构成多重残差结构,并将改进ECA模块与CBAM的空间注意力模块结合,加入残差块Conv1_x、Conv2_x、Conv3_x和Conv4_x中。

对于Conv_x中的每个卷积层,图3中依次给出了输入通道数、卷积核大小及输出通道数。网络的输出将会给出图像的类别,即图像是跌倒,站立,静坐,平躺,行走,站到坐以及坐到躺中的哪一类。表1给出了该网络的相关参数,包括各层的名称,结构参数和输出大小,及相应卷积层的核大小、输出通道数,池化层的核大小、步长。

图3 改进ResNet-18网络结构Fig.3 Improve ResNet-18 network structure

表1 改进ResNet-18网络相关参数Tab.1 Improve ResNet-18 network related parameters

4.1 多分支同构结构

传统残差网络中第一层卷积为7×7的大卷积,目的是在不增加通道数的情况下,尽量保留原始图像的信息。然而红外图像对比度低、图像模糊[15],单一7×7卷积非线性表达能力不强,特征提取效果不佳,为了增强网络的表达能力,提升网络模型对红外图像的分类性能,本文设计了如图3所示的多分支同构结构。该结构由16组卷积构成,即16条独立路径的同构结构。每组第一层卷积的步长为2,填充为1,其余层卷积步长为1,无填充。

4.2 池化层改进

最大池化能够提取图像的主要特征,平均池化则能很好地保留图像的背景信息。传统残差网络使用单一的最大池化或平均池化,这样不可避免地丢失了部分有用信息。为了尽量避免有用信息的丢失,本文设计了如图3中pool1和pool2所示的池化结构,将最大池化和平均池化提取的特征进行融合,这样得到的特征将更丰富多元,其表达能力也更强。

4.3 残差块改进

4.3.1 多重残差结构

传统残差块由2个堆叠的3×3卷积及恒等映射连接构成,卷积结构单一,提取特征方式固定。为增加网络的多样性,使网络能够提取不同尺度的图像特征,本文设计了多重残差结构。如图4所示。

图4 改进残差块示意图Fig.4 Improved residual block diagram

多重残差结构，在原结构基础上增加两条并行的特征提取通路:一条通路由3×3卷积构成,另一条通路由3×3卷积和1×3卷积、3×1卷积构成的非对称卷积块堆叠而成。这种非对称卷积块抑制了模型的过拟合,增强了模型的非线性扩展性,不但能够提取更多空间特征,而且使提取的特征更加稳定与多元。

4.3.2 改进CBAM

在数据采集的过程中,不可避免会受到噪声的干扰,而且不同情况下,人体在红外图像中所处位置以及呈现的形态是不一样的。这就要求识别方法能够更多地关注人体形态特征信息,而忽略其他无价值的信息；注意力机制很好地解决了这个问题。

Wang等人[16]提出ECA模块,给定通过全局平均池化(GAP)获得的聚合特征,经过大小为k的快速1D卷积实现跨通道信息交互,接着使用Sigmoid函数生成通道注意力权重,再将该权重与输入特征相乘得到通道注意力特征。但是该模块忽略了目标特征的另一种重要表征形式——经过全局最大池化(GMP)获得的聚合特征。因此,本文同时使用GAP和GMP提取的特征对ECA模块进行改进,使网络能够更有效地增强有意义的特征通道。改进ECA模块如图5所示,其中1D卷积核大小k=3,σ表示Sigmoid函数。

图5 改进ECA模块示意图Fig.5 Improved ECA module diagram

ECA模块使网络能更有效地选择有意义的特征通道,CBAM[17]中的空间注意力模块则使网络能更多的关注有价值的区域信息。将改进ECA模块与空间注意力模块结合,形成改进CBAM模块,该模块如图6所示,并将其加入多重残差结构中,对残差块完成进一步的改进,示意图如图4所示。

图6 改进CBAM模块Fig.6 Improve CBAM module

5 实验结果与分析

5.1 实验数据

实验环境为室内普通办公房间,实验数据来自三位不同身高、体态的实验人员(两男一女)；考虑季节对实验结果的影响,我们选择最具代表性的夏季与冬季进行数据采集；跌倒、站立、静坐、平躺、行走、站到坐以及坐到躺等7种行为的示意图如图7所示。

图7 各种人体行为示意图Fig.7 Diagrams of various human behaviors

本文将拼接后得到的6930张红外图像按2:1的比例分成训练集与测试集,得到包含4620张图像的训练集和包含2310张图像的测试集。为了增加训练集的数量,减少模型的过拟合,采用水平翻转的方法将训练集扩充一倍,最终得到包含9240张图像的训练集和包含2310张图像的测试集。各个行为的实验次数、拼接后图像数、水平翻转前和水平翻转后训练集图像数、测试集图像数如表2所示。

表2 各行为相关图像数

5.2 环境与设置

实验运行环境:Debian操作系统,Intel Xeon E5-2640 v4处理器,16G内存,NVIDIA GTX1080Ti GPU。使用Pytorch深度学习框架搭建网络,网络的损失代价函数选择交叉熵损失函数；采用Adam优化方法,学习率设置为0.001。

5.3 实验结果与对比分析

为了使实验结果更加可靠,将改进ResNet-18网络训练三次,每次训练300轮,取最优参数进行测试,结果如表3所示。

表3 混淆矩阵Tab.3 Confusion matrix

从表3可以看出,在2310个行为中,正确识别2309次,错误识别1次,准确率高达99.96 %,且异常行为——跌倒——均能准确识别,表明本文所提改进ResNet-18网络的识别效果良好。此外,误判的图像如图8所示。

图8 误判图像Fig.8 Image of misjudgment

从图8可以看出,人体特征不明显,使得行走图像易与站立图像相混淆。当人体距离传感器较远,且环境温度较高时,可能出现图像中噪声过大导致网络未能准确提取人体特征的情况。然而,行走与站立均为正常行为,误判不会造成严重后果。

在基于红外图像的人体行为识别领域,文献[10]识别的人体行为与本文相近,且其构建的CNN网络取得了比传统LBP-KNN、HOG-KNN、LBP-SVM等方法更优的识别精度；文献[11]构建的CNN网络是目前人体行为识别效果最好的深度学习方法之一。为了进一步验证本文所提改进ResNet-18网络的性能,在本文构建的数据集下,与文献[10]、文献[11]构建的CNN网络以及ResNet-18网络进行对比,结果如表4所示。

表4 各网络实验结果对比Tab.4 Comparison of network experiment results

从表4可以看出,与原始ResNet-18网络相比,改进ResNet-18网络的识别率有所提升,这证明了本文所提方法的有效性；此外,改进ResNet-18网络的识别率明显优于文献[10]和[11]中构建的CNN网络,这证明了本文所提方法具有明显的优势。

6 结论

本文提出了一种基于改进ResNet-18网络的红外图像人体行为识别方法。首先,通过热成像阵列传感器采集跌倒、站立、静坐、平躺、行走、站到坐及坐到躺7种行为的红外图像,并对图像进行拼接处理。接着,通过对ResNet-18网络进行相应改进,增强了网络的表达能力,降低了有用信息的丢失率,增加了网络的多样性,提升了网路的特征提取能力。经实验表明,改进ResNet-18网络识别率达到99.96 %,不但高于传统的ResNet-18网络,而且明显优于基于红外图像的其他网络,取得了理想的识别效果。