基于多模态特征及卷积神经网络的智慧教室人物行为识别方法

2023-12-21 05:18李梅琴

黑龙江工程学院学报 2023年6期

李梅琴

(闽西职业技术学院实训实验管理中心,福建龙岩 364021)

对智慧教室进行多类别人物识别时,识别是否准确至关重要。人物行为识别是将静态或动态图像中的人物信息与数据库中信息进行对比,达到身份识别的目的[1]。人物行为识别过程中,受视频背景、角度、光照、人物动作等因素影响,人物行为识别难度较高,导致准确率降低。

为提升智慧教室人物行为识别效果,覃俊等[2]通过超列注意力机制的卷积神经网络,对关键区域定位,将超列集根据像素点形式串联主干网络达到多层叠加特征效果,提高人物行为识别准确率。但该方法对复杂背景中人物动作分类易混淆,无法准确识别。赵静等[3]提出深度学习的多类别目标识别方法,输入目标图像数据集至神经网络,实现目标图像的分类和识别,识别准确率达96%。此方法降低了计算难度,但在实际应用中受各种因素影响,导致识别效果降低。江鹏飞等[4]为了识别低分辨率远红外监护视频中的人物身份,通过人物运动轨迹与跨模态多摄像头接力跟踪结果,引入人脸识别算法,利用可见光摄像头识别低分辨率远红外监护视频中的人物身份,并完成身份一致性认定。朱容辰等[5]针对流量收集与处理工作量较大的问题,构建融合显性、隐性、动态标识符的摄像头身份标识体系,基于自信息量与信息熵,通过替换或篡改监控摄像头这一重要的前端设备,提取摄像头静态信息与动态流量信息,构建了标识符贡献度评估方法,但是尚未分析方法独特性与针对性,不适用于多个场景。

多模态即多种异构模态数据协同推理,而多模态特征可以从视频图像不同特征角度出发,衡量人物的动作行为,因此,文中研究基于多模态特征及卷积神经网络的智慧教室人物行为识别方法,提升智慧教室人物行为识别效率,实现校园信息化建设,为师生提供更智能的服务。

1 智慧教室人物行为识别

1.1 基于多模态特征融合的多类别人物行为识别框架

基于多模态特征的智慧教室人物行为识别流程如图1所示。以智慧教室多类别人物视频为对象,通过均匀稀疏采样,得到智慧教室多类别人物的RGB图像及人物行为图像[6]。为了判断视频与图像是否属于多模态,需要利用卷积神经网络对其特性进行提取并训练提取后的特征图像,根据图像特征,判断其是否属于多模态。但由于所得RGB图像尺寸大小不等,为简化处理RGB图像尺寸,通过C3DP-LA网络完成智慧教室多类别人物RGB图像时空特征的提取。C3DP-LA网络由两部分构成,分别为改进的3D卷积网络(Convolutional Neural Network,CNN)和引入时空注意力机制的长短期记忆神经网络(Long Short-Term Memory,LSTM)。利用改进3D CNN可以快速卷积的特点,获得初始阶段时空特征。同时,为提取智慧教室多类别人物RGB图像不同时刻的信息,令其能够应用在后续信息中,可利用LSTM的记忆功能和时空注意力机制自行选择局部重要信息的特点[7],获取RGB图像的深层次时空特征,并提取人物行为图像的人物行为组合特征,该组合特征包括人物光流特征、人物重心特征以及人物三维SIFT特征。在完成智慧教室多类别人物时空特征和人物行为组合特征的提取后,确认特征图像属于多模态。应用卷积神经网络训练人物行为的时空特征模型,将教室人物音频转化结果(即教室人物行为特征图像)输入到训练好的模型中,对其进行多模态特征融合。选用softmax分类器对最后结果数据进行预估测算,并利用多模态的人物行为特征图像完成智慧教室人物行为识别。

图1 智慧教室多类别人物多模态行为识别流程

1.2 基于C3DP-LA网络的人物RGB图像时空特征提取

1.2.1 改进3D CNN初始阶段时空特征获取

3D CNN可在获得智慧教室多类别人物RGB图像运动信息的同时获得其外观信息,通过将包含多种通道信息的关键帧卷积整合为立方体,结合各通道的3D卷积行为,从多个图像帧中获取特征图[8-10],同时获取空间信息和时间信息以及多种类特征。

3D CNN由硬线层、卷积层、下采样层、全连接层共同组成。将获得的通道信息通过多种卷积层操作后,能够得到智慧教室多类别人物特征图数量。最后在全连接层实现智慧教室多类别人物特征初步提取。

3D CNN视频长度限制为7帧,输入7帧尺寸为60×40的智慧教室多类别人物RGB图像,通过硬线层获取灰度、光流x、光流y、横坐标梯度x、纵坐标梯度y共5种通道信息,得出33个特征图。

3D CNN网络在应用时需提前决定图像输入的尺寸以及视频帧的比例、大小和长度,若随意输入智慧教室多类别人物RGB图像,3D CNN网络的缩小、放大或者裁剪操作会导致图像信息丢失或变形,影响特征提取效果。为此,可将3D CNN中最后位置的池化层更改为金字塔池化层,通过智慧教室多类别人物特征向量的变换,令其长度大小一致。

通过在3D CNN卷积层中输入不同大小的智慧教室多类别人物RGB图像,获取与之对应的输出结果。设X表示池化立方体的时间,B,D分别表示帧的高度、宽度,得到映射特征为X×D×B的卷积层。时空金字塔池化(Spatio-Temporal Point Process,STPP)能够在特征数量固定的情况下,动态调整滑动窗口尺寸。

通过转化处理3D CNN中不同尺寸大小、比例的视频帧,能够对其进行缩放处理[11]。利用STPP改进3D CNN,映射特征为X×D×B,分别设fx,fy为时间、空间池化级,时空池化级为F(fx,fy),可以得到单一池化立方体的大小V,计算结果为

V=[X/fx]×[D/fy]×[B/fy].

(1)

当所有时空池化立方体的响应值达到最大池化时,可以得到维度不变的时空特征向量,最后将此时空特征向量输入全连接层实现智慧教室多类别人物时空特征提取。

1.2.2 引入时空注意力机制的LSTM模型

由于各智慧教室多类别人物视频的长度和动作时间长度存在差异,以时间为出发点,完整的人物行为活动或步趋过程无法用简单的一帧图像说明,而3D CNN仅可输入长度为7帧的视频,在智慧教室多类别人物行为识别过程中,持续的几帧图像所组合的个体也无法清楚完成智慧教室多类别人物行为识别,且输入其他长度视频会导致结果准确性降低。采用LSTM模型与改进3D CNN相结合的方式对智慧教室人物行为RGB图像时空特征进行深度提取[12-13]。

LSTM连接改进3D CNN后能够更准确地提取智慧教室多类别人物时空特征,有效避免3D CNN的短板问题。其不仅能够解决视频长度大小限制的问题,还能够对智慧教室多类别人物视频数据进行选择提取或刷新。此外,通过LSTM与时空注意力(Spatial-Temporal Attention, ST-Att)结合,能够获取人物特征的空间、动态时间相关性,有效完成动态智慧教室多类别人物时空特征提取。其具体结构如图2所示。其中,lt,et,kt表示基本LSTM单元的输入门、遗忘门和输出门。

图2 3D CNN-LSTM连接时空注意力机制的特征提取

(2)

1.3 智慧教室多类别人物行为图像组合特征提取

1.3.1 人物光流特征提取

光流特征是根据智慧教室多类别人物行为图像中所有像素点的灰度变化,确定其运动快慢和方向。t时刻的像素点L(x,y)的行动趋势为

L(x+qx,y+qy,t+qt)=

(3)

式中:q为趋势变化。

L(x,y)运动趋势为向量Q(ω,ο),x方向上的运动分量用ω表示,y方向则用ο表示。因记忆部分区域内Q亮度恒定[14],可得

(4)

式中:a,b,c为输入门、遗忘门和输出门的调节系数,通过光流计算获取最小‖EQ-F‖2,得到

EQ=F⟹ETEQ=ETF⟹Q=(ETE)-1ETF.

(5)

式中:Q为运动趋势向量;E和F为图像像素点;T为像素点运动时刻。

由此可知,光流场特征所呈现智慧教室多类别人物较为显著,不受焦距变化影响。

1.3.2 人物重心特征提取

智慧教室多类别人物行为图像中重心位置受人物行为动作影响处于不断变化状态,因此,重心特征的计算包括:

1)人物行为轮廓提取。采取Canny算法检测智慧教室多类别人物行为图像目标边缘,得到人物行为轮廓。

2)人物行为重心计算。设G为智慧教室多类别人物行为图像中像素总数,k为图像帧数,智慧教室多类别人物行为第k帧图像中人物重心位置(Ak,Bk)即肩线中点,人物重心的二维特征向量,通过对M(k∈M)帧图像的人物重心位置进行串联获取,表达式为

(6)

1.3.3 人物三维SIFT特征提取

已知3D SIFT特征可较好地应用在各种人物行为中,通过其表示人物行为特征及动作信息,描述人物行为变化特点。

在计算3D SIFT特征前,需先选择兴趣点位置。将兴趣点分为几个立方体(胞)。通过3D SIFT特征将关键点每个立方体(胞)转换为时空梯度直方图,并将全部立方体(胞)重新组合。如3D SIFT特征为22维多面体,将大小为10×10×10的立方体拆分为6个子立方体,可计算出总体为132维特征,如图3所示。

图3 3D SIFT特征的兴趣点位置选择

1.3.4 人物行为组合特征向量

为确保参变量计算结果达到最好,并使人物行为特征向量的维度相同,需将所有的特征归一最小化,则所有特征权重设成1。详细步骤如下:

1)图像大小设置为72×72;

2)将3×3个大小为4×4的子立方体(胞)组成立方体,单个立方体大小则为12×12,因此,计算出4 083维人物行为特征向量。

3)将所有特征结合在一起组成一个人物行为组合特征向量。

1.4 智慧教室多类别人物多模态特征融合

使用浮点乘加融合时,多模态特征在融合过程中会出现语义信息不稳定、模型塑造不准确的问题,特征向量也会包含一定的语义异常。为避免出现此类结果,根据全连接层的多模态特征融合网络结构[15],利用其能够使网络并行训练特征参数以及自适应调整的特点,一个算子产生4 096个结果,输出到下一个算子参与计算,将智慧教室多类别人物时空特征和人物行为组合特征映射到4 096维特征融合空间,获取最佳智慧教室多类别人物多模态特征融合结果。

1.5 智慧教室多类别人物行为识别

选取softmax分类器进行智慧教室多类别人物行为识别,避免人物行为的多变性对识别结果的影响。softmax分类器是以智慧教室多类别人物图像多模态融合特征为输入,通过将其转换成概率序列,充分保留智慧教室多类别人物图像多模态融合特征的原始信息,实现智慧教室多类别人物行为最佳识别结果的输出。

式(7)为按照softmax方法得到的输出类别数据zt的过程。

(7)

式中:αt表示多模态特征融合结果数值;m表示类别数;X表示zt隶属于类别m的概率;X(z(t)=m)为智慧教室多类别人物行为识别结果。

2 实验分析

本实验以某智慧教室课堂的视频信息为实验对象,利用文中方法对多类别人物进行自动识别,验证该方法的应用效果。

在The MNISTDatabase( http://yann.lecun.com/exdb/mnist/ )数据库中选取实验样本,对课堂上不同场景情况下智慧教室多类别人物的动作信息数据进行分析。此次数据涵盖S1、S2和S3场景中智慧教室多类别人物举手、睡觉和写字3种行为。将学生信息提前输入数据库中,然后输入实验所需的待识别行为。选取3种不同场景下智慧教室多类别人物相同行为图片,由简单至复杂的智慧教室多类别人物场景情况如表1所示。

表1 智慧教室不同场景视频数据

将不同场景下的样本数据进行混合,通过数据提取,将尺寸为60×40的智慧教室多类别人物RGB图像输入3D CNN中,所得特征图在卷积层中通过3种卷积核卷积。对所得特征图继续下采样操作,以特征图的数量以及空间分辨率减少为目的,进行2×2及3×3尺寸的滑动窗口运作。在卷积层中,选择尺寸大小为7×4的2D核,对所有特征图运作得到128个特征向量,对混合总样本反复训练,获取空间、时间维度共存的智慧教室多类别人物特征。进行人物行为识别结果分析,如表2～4所示。

表2 S1+S2智慧教室场景下人物行为识别结果

表3 S2+S3智慧教室场景下人物行为识别结果

表2～4为各场景分别混合后的智慧教室多类别人物行为识别结果。在进行场景混合后,人物行为识别的准确度相比于简单背景略有降低,但不同人物行为的动作分析结果一致。说明文中方法能够识别智慧教室不同环境中的动作,对人物行为识别结果准确,对不同场景中智慧教室多类别人物行为识别准确。

为了验证该方法在人物行为识别中的优越性,在表4数据的基础上,引入文献[4]方法与文中方法进行对比,S1+S2+S3场景融合下人物行为识别对比结果如图4所示。

表4 S1+S2+S3智慧教室场景下人物行为识别结果

图4 S1+S2+S3场景融合下人物行为识别对比结果

由图3可知,文中方法在 S1+S2+S3场景融合下可以有效识别课堂任务行为,其中,人物举手行为识别率为93%、人物睡觉行为识别率为97%、人物写字行为识别率为83%,行为识别效果均高于80%。而在文献[4]方法的识别结果中,仅对睡觉行为的识别率超过80%,对写字行为的识别率未超过50%。据此,与文献[4]方法相比较,文中方法的行为识别效果较好,可以有效识别智慧课堂中人物的行为,预测人物动作。

为验证3D CNN的特征提取效果,设置其参数并选取数据对3D CNN进行反复循环训练实验。本实验所设置的3D CNN配置参数如表5所示。

表5 3D CNN配置参数

图5记录了125×103个epoch过程中的3D CNN网络的损失函数变化情况。

图5 损失函数曲线

由图4可以看出,随着循环训练次数不断增加,3D CNN特征提取损失值不断降低,损失函数值逐渐趋于稳定。说明文中方法应用3D CNN进行特征智慧教室多类别人物特征提取的效果较好,网络损失较低。

根据上述分析可以得出,文中方法对于智慧教室多类别人物行为识别的精确性较高,在复杂的背景环境中能对学生多种行为进行有效识别,可以有效判断学生的课堂出勤率和课堂状态。

3 结束语

多模态特征的智慧教室多类别人物行为识别对校园信息化建设具有重要意义。多模态特征的智慧教室多类别人物行为识别方法能够准确分析目标人物课堂行为,提高不同场景中人物动作分类精度。实验表明,本方法能准确识别智慧教室多类别人物,提高了识别效率。通过智慧教室多类别人物行为识别的方法可实现智能考勤、课堂人物信息采集、教学可视化管理,为师生提供高效智能的服务。