改进的MoveNet轻量化单人姿态估计算法

2023-09-02 07:07史健婷詹怀远
黑龙江科技大学学报 2023年4期
关键词:关键点特征提取残差

史健婷, 詹怀远

(黑龙江科技大学 计算机与信息工程学院, 哈尔滨 150022)

0 引 言

人体关键点信息是人体行为检测、医疗诊断辅助和人机交互等多个计算机应用领域和交叉学科进行研究的基础性数据,是前沿领域的基础性研究[1]。

传统的姿态估计方式虽在特定的场合下有较高的准确性,但成本较高,方法也存在局限性[2]。深度学习的发展涌现出诸多优秀的姿态估计模型。其中,Sun等[3]提出的一种高分辨率网络HRNet可以使特征提取过程更关注关键点的位置信息,保证关键点位置学习的准确性。Cao等[4]提出的OpenPose网络模型分别预测关键的概率与关键点之间的亲和关联程度,通过匈牙利法聚类得到最终的姿态估计结果。基于深度神经网络的人体关键点检测模型虽拥有较高的检测精度但性能不尽人意[5]。随着对实时检测的需求日益增多,当前主流的网络模型结构复杂、参数多,无法运行在低端硬件上实现实时的检测能力[6]。

为实现实时检测能力,Landola等[7]提出了SqueezeNet轻量化网络模型,将传统的卷积方式利用深度卷积和行点卷积结合的方式大幅降低运算量和模型参数。Howard等[8]提出MobileNet系列轻量级模型,利用深度可分离卷积、倒残差模块和优化损失函数等方式大幅度提高轻量化模型的运算速度与准确率。MoveNet[9]模型可以快速、准确地检测人体的17个关键点信息,其轻量化的特征可以在低性能硬件以较高的速率进行推理,以达到实时的检测能力。

模型中使用注意力机制可以加强特征的表达,仅需少量参数便可对学习到的多通道特征进行权重的分配。Hu等[10]提出的是一种通道注意力机制,通过在残差模块中对卷积操作学习的特征使用全连接操作进一步获取通道之间的权重,加强特征的表达能力。Sh等[11]提出的CBAM是一种可以同时关注特征通道与特征空间信息的注意力机制。Wang等[12]提出的ECANet使用更少参数的卷积操作获取更好的通道注意力性能。

笔者使用的方法BCM3-Net(Based on CBAM and MobileNetV3 Net)以MoveNet模型作为基础,对其特征提取部分使用精度更高的MobileNetV3结构进行替换,运用空间通道注意力机制(CBAM)加强特征融合层对空间与通道信息的表达能力。对于V3网络中倒残差结构的SENet注意力机制,通过使用ECANet注意力机制来恢复由全连接操作造成的空间塌缩带来的特征丢失情况,有效提高倒残差结构中通道权重的学习能力,从而提高精度的目的。对于改进后的MoveNet网络,在MSCOCO2017数据集上的单人姿态估计实验证明该模型的有效性。

1 BCM3-Net网络模型

1.1 网络模型整体架构

BCM3-Net网络是由特征提取层和Header层组成,网络整体架构,如图 1所示。

图1 BCM3-Net 模型整体架构Fig.1 Overall architecture of BCM3-Net model

其中,特征提取层由改进的MobileNetV3主干网络与融合CBAM注意力机制的多尺度特征融合增强网络组成。Header层对融合后的特征通过不同分支对四个输出特征做相应的后处理作为最终的预测输出结果。

1.2 改进的特征提取网络

MobileNetV3主干结构首先减少了V2结构第一层卷积输出通道个数和对Last Stage阶段进行了裁剪。提高网络中倒残差结构膨胀后的通道数,提高空间与位置信息特征的学习能力[13]。其次,倒残差结构中引入注意力机制提高模型训练和推理速度,提高了精确度。最后,重新定义了非线性激活函数,交替使用ReLU6和Hard-Swish激活函数,其公式分别为

RL(x)=min(max(x,0),6),

式中,x——待激活特征值。

ReLU6激活函数可以缓解深层网络使用ReLU激活函数导致的权值相差过大的问题。对于主干中需要使用ReLU激活函数的部分,使用Hard-Swish激活函数以保证训练更平滑且易计算梯度,保证反向传播时某些小于零的神经元仍然会被激活。

1.3 改进的倒残差块

MobileNetV3网络中使用DW卷积(Depthwise,DW)和PW(Pointwise,PW)卷积,通过将PW卷积和DW卷积组成深度可分离卷积(Depthwise Separable ,DS),DS卷积使用更少的卷积核大幅度减少运算和参数数量。传统卷积与DS卷积的结构,如图 2所示。

图2 传统卷积与深度可分离卷积Fig.2 Traditional convolution and depth-separable convolution

假设传统卷积操作与DS卷积操作输入特征与卷积核宽高尺寸相同,卷积步幅为1,传统卷积与DS卷积计算量倍数如公式为

式中:T——降低的计算量倍数;

Fi——第i个输入特征的尺寸;

ki——第i个卷积核的尺寸;

Ci——输入特征的通道数;

Co——卷积输出的通道数。

改进后的倒残差结构Bneck,其结构如图 3所示。Bneck作为BCM3-Net特征提取网络的层次主干。

该结构先对特征进行升维,再利用DW卷积进行学习,解决了传统残差块先降维存在的信息缺失情况。该模型使用ECA注意力机制代替原结构中SE注意力机制。通过卷积代替了全连接对所有通道的提取以及维度的塌缩,保持了通道权重在空间结构上的信息,仅涉及少数参数就可以具有更好的跨通道信息获取能力,并满足对不同输入通道尺寸的自适应能力,ECA注意力机制卷积核大小k的自适应公式为

式中:k——自适应通道数的卷积核尺寸;

C——输入特征的通道数;

γ——常数为2;

b——常数为1。

ECA模块使用Hard-Sigmoid激活函数对全局平局池化和卷积操作结果进行激活。Hard-Sigmoid激活函数在图像性质上,如图 4所示。与Sigmoid相仿,并取消了幂运算大幅降低运算量,从而提高网络训练和推理速度。

图4 Hard-Sigmoid激活函数Fig.4 Hard-Sigmoid activation function

1.4 改进的特征融合结构

多尺度特征融合增强的网络结构参考增强特征的特征金字塔网络。对不同阶段融合的特征分别输出并进行预测。该方法使用的方式仅对最后一层融合特征进行使用。

Header层中对Center和Keypoint Heatmap所学习的特征是空间信息与通道信息敏感的,Header层中预测的空间位置与通道位置,对模型回归速度与预测精度起至关重要作用。因此,该模型在输出的多尺度融合特征追加CBAM注意力机制,加强融合后特征在空间和通道的特征权重分配,提高融合后特征的有效性。

1.5 BCM3-Net网络

BCM3-Net的特征提取网络结构,如图 5所示。主干网络中使用基于ECA注意力机制的倒残差结构Bneck进行串联。

图5 特征提取网络Fig.5 Feature extraction network

网络层次结构中,通过exp中定义的缩放尺度对特征进行学习,不同网络层次中通过ECA标记是否使用ECA注意力机制,并且通过定义R6、HS参数定义Bneck中使用激活函数是ReLU6还是Hard-Swish,s决定每个结构卷积操作的步距长度。

1.6 后处理阶段

BCM3-Net模型处理流程,如图 6所示。后处理过程将最终输出的四个特征图进行加工得到最终的关键点预测结果。

文中方法使用基于位置加权的方式,通过生成位置权重矩阵来抑制其他位置人体的信息,增强多人情况下,对近中心点人体关键点检测的精准性和鲁棒性。位置权重矩阵以参考点为中心,距离中心点距离越远权重越小,矩阵尺寸输出特征图尺寸相同,权重计算如公式为

Wi=(d(c,i)+λ)-1,

式中:Wi——居中第i个位置的权重矩阵;

d——第i个位置距离中心点的欧氏距离;

c——中心点位置;

λ——防止权重矩阵出现无穷的参数,λ∈(1,2]。

图6 BCM3-Net网络流程Fig.6 Flow of BCM3-Net

输入图像中存在多人情况下如何得到距中心最近人物的人体的关键点坐标,如图7所示。

图7 后处理定位最终关键点Fig.7 Post-processing locates final key point

2 实验与结果分析

2.1 数据集与数据增强

选择MSCOCO2017数据集中标记为单人的数据进行训练和验证,其中,大量特征均是人体日常动作。为了增强模型对于多人图片中,中心的人体关键点的检测能力,对数据集进行了扩展与数据增强。

(1)数据扩展:将靠中心点的人体关键点作为主要标记信息,其他人体信息进行按序整合;通过计算所有人的关键点最大外接矩阵获得每个人的人体中心点位置;为了保证标记信息的统一,重新对标记信息格式进行整理,对单人标记也做了格式化操作;

(2)数据增强:设置概率为0.3来激活是否启用半身操作,并设置0.5概率选择上身或下身的关键点内容;对原始图像与关键点信息进行仿射变换,并对变换后结果进行裁剪操作;对仿射变换后的图片与关键点信息随机进行水平翻转,概率为0.5。

2.2 评价指标

通过使用OKS(Object Keypoint Similarity)评价指标对模型训练输出的人体关键点信息与Ground True信息计算相似性。OKS计算如公式为

式中:i——当前人体第i个关键点;

di——预测与真实标签的欧氏距离;

s——当前人体区域尺度;

ki——第i个关键点位置的衰减因子;

σ——当前关键点在图像中的显示等级,0为不可见,1为遮挡,2为可见。

OKS的结果在[0,1]之间,数值越大表示预测值与真实值越接近,AP50代表全部预测关键点OKS在0.5时的准确率,mAP表示OKS在0.5至0.95,以0.05递增的全部预测结果的平均准确率。

2.3 实验结果

本模型在MSCOCO2017的验证数据集上进行单人姿态估计验证,验证结果,如表 1所示。

HRNet网络作为自顶向下两阶段的模型具有相当高的精度水准,但也体现了模型参数的庞大与大量的浮点运算量。MoveNet网络相较于HRNet仅在mAP上损失了1.9%。改进后的BCM3-Net仅增加了1.7×106次/s的参数后,在mAP提升了1.3%,相较于HRNet仅表现出0.6%的差距。由于优化主干网络结构和非线性激活函数,GFLOPS由MoveNet的3.433×108次/s下降至2.689×108次/s,使用CPU对模型进行推导,二者在运算时间上几乎没有差别但提高了精准率。实验结果表明改进后的BCM3-Net在单人姿态估计任务上有更优秀的表现。

表1 MSCOCO2017验证集对比

BCM3-Net消融实验结果,如表 2所示。比较了基本的MoveNet模型分别在更换基于ECA注意力机制的MobileNetV3特征提取网络和特征融合网络中引入CBAM注意力机制的性能差异。

表2 BCM3-Net消融实验

由表 2可见,主干网络的替换对于特征的学习和预测有明显1%的提升,特别是在对AP50的实验中拥有3.2%的提升,但对于AP75的提升仅有0.6%。增加CBAM注意力机制对网络整体提升有限,mAP仅提高了0.3%。

2.4 结果分析

首先,主干网络的替换加强了对关键点外围特征的学习能力,对位置和空间信息获取明显提高,改进ECA注意力机制也能更好的捕捉特征的空间权重,因此在OKS在0.5至0.75的阈值内有显著的提升。其次,CBAM注意力机制在特征通道层面提升有限,仅在融合特征时提高了空间权重。由于轻量级模型的限制,对真实点附近特征学习能力仍有一定的差距。

BCM3-Net对单人姿态估计的训练阶段,如图8所示。改进后人体关键点结果比较结果,如图9所示。由图 9可见,在多人的情况,模型能更好的回归中心人物关键点信息,有效屏蔽背景人物的影响。同时BCM3-Net模型对面部、手肘及膝盖等位置有更好的预测效果。

图9 人体关键点结果对比Fig.9 Comparison results of key points

图10 实时检测效果Fig.10 Real-time detection effect

图11 煤矿矿井下工人姿态估计Fig.11 Estimation of workers poses in coal mines

BCM3-Net模型实时检测效果,如图 10所示。由图 10可见,模型实际实时预测的能力,BCM3-Net拥有较高的预测推理速度,实时推理帧数可达到43 FPS左右。

为了验证模型的泛化能力,收集了煤矿矿井下工作人员作业时的相关图像进行姿态分析检测,效果如图 11所示。煤矿井下环境恶劣并且具有危险性,对井下工作人员姿态的规范性要求较高,通过分析可以看出在光线和粉尘环境较为良好的环境下,对作业工人人体关键点有较好的检测效果,为下一步开展矿井下工作人员不安全行为识别及提高井下人员姿态的规范性等相关研究提供了参考和思路。

3 结 论

(1)使用基于ECA注意力机制的MobileNetV3特征提取网络,并在多尺度特征融合网络结构中引入CBAM注意力机制加强通道和空间位置的学习能力。在COCO验证集中,相较原网络模型mAP精度整体提高 1.3%,达到75.5%。

(2)改进模型计算量从3.433×108次/s下降至2.689×108次/s,计算量降低21.7%,保证了模型在提升精度的同时维持了原模型的高效性。在实际测试过程中检测能力达到43 FPS。

(3)将模型应用到矿井下工作人员的姿态估计检测,证明所提模型具有很好的泛化能力,对于提高井下人员姿态的规范性,保障人身安全,提高井下作业的安全水平有实际意义。

猜你喜欢
关键点特征提取残差
基于双向GRU与残差拟合的车辆跟驰建模
聚焦金属关键点
肉兔育肥抓好七个关键点
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
平稳自相关过程的残差累积和控制图
基于MED和循环域解调的多故障特征提取
医联体要把握三个关键点