基于AWS SageMaker和DeepLens的高校课堂学生问题行为检测方法研究

2022-03-11 12:39陆仟禧梁文耀李琳邓一星
电脑知识与技术 2022年1期
关键词:计算机视觉机器学习云计算

陆仟禧 梁文耀 李琳 邓一星

摘要:目前,高校课堂学生的问题行为正逐渐成为影响高等教育有效开展的主要因素之一。随着人工智能和深度学习的快速发展,行为识别技术为学生课堂行为观察提供了一种新的可能性[1]。该文实验运用云计算技术,使用由AWS云厂商提供的服务和AWSDeepLens智能摄像头相结合,对学生课堂问题行为进行自动检测。实验结果表明,运用云计算技术在计算机视觉应用中更具有成本效益、部署灵活的优点,突破传统计算机视觉与硬件结合在日常使用中的困难,能更好地将信息技术融合到高校课堂中。

关键词:机器学习;云计算;计算机视觉

中图分类号:TP393         文献标识码:A

文章编号:1009-3044(2022)01-0113-03

教育信息化进入了新的发展阶段,大数据、人工智能、物联网等新兴技术将驱动传统教学理念、模式、内容和方法的改革,推动智慧校园的建设,全面提升教育信息化水平[1-2]。在智慧校园的背景下,高校对原有的多媒体教室基础设施不断完善,使其具备应用信息化技术推动信息技术与教育教学融合的基础条件,应用人工智能技术创新学生课堂行为分析手段,有利于提升高校课堂教学质量管理水平[3]。

本文实验基于应用云服务的方案,将计算机视觉与人工智能相结合,实现对学生课堂问题行为自动分析,从而辅助教师或课堂管理员及时了解课堂教学的情况,提高课堂教学质量并促进信息化教育的发展。

1 系统架构设计

本文实验的系统架构设计是基于无服务器Serverless架构的思想。无服务器并不是不需要服务器,它是强调开发人员应该将大多数运维问题(如资源供应、监控、维护、 可扩展性和容错性)留给云提供商[3]。Serverless的运行方式是按需运行,仅在设定的触发器上有事件产生时才会运行[4]。在本文实验中,使用SageMaker服务可以让模型训练、测试、检验模块按需触发式执行,将训练好的模型部署到终端设备DeepLens上,DeepLens内部提供了代码运行的环境,开发人员只需要专注于函数内部的代码逻辑,最后模型推理结果的消息订阅、推送都是在AWSSNS服务上进行,不需要额外去构建用于消息收发的服务器。在机器学习平台中,模型训练,模型测试验证,参数调优这三个步骤往往是重复进行的,以提高最终模型的准确率,这个重复的阶段往往会消耗大量的计算资源。在传统的机器学习平台,这些计算资源会存在繁重的运维管理任务,而借助云厂商提供的云生态,能对计算资源进行更灵活地管理,轻松构建基于Servlerless架构的云原生机器学习平台。

1.1数据采集、标注和存储

本实验在前期收集了8000张高校课堂的实时照片,用于训练目标检测模型。照片拍摄来自各个不同课室、不同时间段学生在课堂上的问题行为,作为模型的训练集。使用LabelImg工具,采取人工打标签的方式对图片进行标签分类,学生玩手机归为play类、睡觉归为sleep类。

后期采用了另一种采集数据集的方式,通过拍摄学生在高校课堂的实时视频并进行抽帧处理。借助Premiere编辑软件,将拍摄的实时视频素材导入其中,通过编辑“间歇”的数值选择要保留的帧生成静态画面并保存,再对保存的数据集进行标签归类。实验中使用了基于Amazon S3的云存储方案,将标注好的数据集和对应的标签文件上传至S3存储桶中。

2 算法模型

2.1算法选择

根据本文研究目标,选择的算法是对学生异常行为进行检测定位并分类。在捕获视频流中的某一帧图像中会有多个学生,且高校课堂中学生的座位通常并不是固定的,而是具有流动性,首先需要定位出学生目标,再对每个目标个体进行分类。一般的图像分类算法中无法对目标进行精确的定位,基于此,首先考虑使用目标检测算法(object-detection)作为基础算法。同时,基于视频流的目标检测算法应在准确率和时效性之间进行权衡,在牺牲可接受范围内的准确率的情况下,提高模型的时效性,更符合课堂的实际应用场景。本文实验选择了几种目标检测算法在VOC 2007数据集下的训练结果进行对比(如表1)。

SageMaker中的目标检测算法使用的是基于SSD的目标检测模型,并且其使用的深度学习框架为apache的Mxnet框架。SSD网络是继YOLO之后的one-stage目标检测网络,是为了改善YOLO网络设置的anchor设计太过于粗糙而提出的,其设计思想主要是多尺度多长宽比的密集锚点设计和特征金字塔。本实验在选择SSD作为网络基础模型的同时,根据ResNet50-SSD算法的优点:运行速度可以和YOLO媲美,检测精度可以和Faster RCNN媲美,选择使用ResNet50作为主干网络。ResNet50能解决在深层网络中梯度弥散和精度下降的问题,在保证精度的同時,也能够很好地控制速度。同时根据实验中检测的目标大小主要由学生座位和摄像头之间的距离决定,基于ResNet50-SSD算法对不同尺寸目标的检测准确率都要比传统的基于VGG16-SSD算法更高的理论[5],使用ResNet50网络替换传统的VGG16网络在本实验中更为合理。

2.2算法优化

为了适应传统的阶梯形教室,并且提高对较远距离的目标检测准确度,实验对SSD模型进行了改良,为了克服传统SSD模型对小目标检测不够鲁棒,针对教室下的特定场景,选择了ResNet + Deconv为模型优化方案,也就是DSSD算法[6],来提高浅层特征图的表征能力。提升浅层特征图的表达能力是可以提高类似的目标检测器对小目标的检测能力的,以此为指导思想,对原有的SSD模型进行了改良。

DSSD的核心部分就是它对特征图进行了反卷积,通过反卷积将高特征和低特征进行融合,最终形成沙漏型的网络结构,充分使用特征图的特征信息。反卷积模块基本结构如图2所示。

其中Deconv为反卷积,而Eltw Product将浅层和深层的特征图在对应的信道上做乘法运算。实验按照DSSD的方式进行改良并在验证集下进行验证,最终实验在验证集上mAP精度到从0.872到0.905,虽然速度有所下降,但仍在可接受范围内,结果如表2:

2.3模型训练

实验中将数据集划分为训练集和验证集,并存储在AWS S3中供SageMaker训练使用。因为训练数据是分批到达的,训练模型的时候使用增量法进行训练,SageMaker允许在现有模型下进行增量训练。随着时间的推移,可能会发现模型生成的推理不如以前。而通过增量训练,可以使用来自现有模型的构件,并使用扩展的数据集来训练新模型。增量训练可以大幅度节省时间和资源。SageMaker的训练日志集成了Amazon CloudWatch。在本文实验中,使用了CloudWatch对训练日志进行清洗,并对多个增量训练任务的日志进行合并,分析其训练效果。图2为两个增量训练结果,第一次训练时,模型的验证集mAP指标呈现上升趋势,在第二批数据到达时,因为使用了增量训练,可以发现刚开始验证集的mAP指标不高,而在一次迭代中迅速上升。

2.4使用SageMaker进行超参优化

SageMaker提供了超参优化服务,使用超参数优化服务并结合增量训练,有助于快速寻找到最佳的机器学习模型。在传统机器学习模型训练中,调整模型超参数的工作主要交由经验丰富的研究员执行,并且调参时往往只能凭借研究员工作经验去调整,而模型的训练效果是充满不确定因素的,不利于高效进行模型的训练。SageMaker提供对机器学习模型的自动超参数优化服务,具有方便的操作,更加智能的调参服务。超参数优化的工作原理是在启动新的训练作业之前,预先设置好超参数的数值调整范围和模型训练指标,并根据用户指定的超参调节模式来对机器学习模型进行调优,在用户的数据集上运行多个训练作业来寻找模型的最佳参数组,从而避免人工操作的诸多问题。同时SageMaker内部也存在着自己“总结”的调参规律,对参数的选择进行优化处理。

SageMaker超参优化目前支持两大优化模式:随机搜索模式和贝叶斯搜索模式。本实验中采用了贝叶斯搜索模式,借助SageMaker超参优化对模型参数进行优化处理,进一步提高了模型的准确率。

2.5模型验证

在完成模型训练之后,将模型部署至DeepLens上,将实时视频流输出推送至网页,可以在短时间内为教师提供反馈。DeepLens内置算力模块(Lambda)将视频流逐帧推送到部署好模型进行推理处理,在项目输出中把相关的数据分析结果通过AWS SNS(一种完全托管于AWS用于发布/订阅机制的消息收发、SMS、电子邮件和移动推送通知的服务)发送至老师的邮箱,用于课后总结学生的课堂问题行为。

实验把训练好的模型部署至DeepLens摄像头中,通过实机演练去验证模型,选取了几名同学到真实的教室场景和实验室环境中去检验模型的效果,得到效果如图5。

3 结论

在使用传统摄像头进行计算机视觉视频图像处理时,需要搭建好相关硬件和软件的环境,该处理过程的实时性一般较差,且部署和管理难度较高,模型的训练效果也会因本地的硬件设备受限。本实验将课堂行为检测与识别应用在Serverless架构下,借助云原生的优势构建机器学习平台。实验中借助SageMaker不但突破了传统架构下的限制,同时借助其增量训练模式,能在未来为模型提供更好的场景泛化能力,让DeepLens拥有更广阔的应用场景。SageMaker与DeepLens结合会把未来计算机视觉推往新的高度,在云厂商提供的云生态下,应用机器学习的门槛将变得更低,从而让人们去专注于实际使用的场景,将机器学习与计算机视觉结合,解决真实生活中的问题。

参考文献:

[1] 柯斌,杨思林,曾睿,等.基于Inception V3的高校学生课堂行为识别研究[J].电脑知识与技术,2021,17(6):13-15,29.

[2] 雷朝滋.教育信息化:从1.0走向2.0——新时代我国教育信息化发展的走向与思路[J].华东师范大学学报(教育科学版),2018,36(1):98-103,164.

[3] 胡聪丛.无服务器计算的现状以及所面临的挑战[J].网络安全技术与应用,2019(12):84-85.

[4] 刘畅,毋涛,徐雷.基于无服务器架构的边缘AI计算平台[J].信息通信技术,2018,12(5):45-49.

[5] 岳詩琴,张乾,邵定琴,等.基于ResNet50-SSD的安全帽佩戴状态检测研究[J].长江信息通信,2021(3):86-89.

[6] Fu C Y, Liu W, Ranga A , et al. DSSD : Deconvolutional Single Shot Detector[EB/OL].[2021-03-10].https://arxiv.org/abs/1701.06659.

【通联编辑:唐一东】

收稿日期:2021-10-15

作者简介:陆仟禧(2000—),男,广东茂名人,本科,研究方向为云计算与大数据技术;梁文耀(1999—),男,广东肇庆人,本科,研究方向为云计算与大数据技术;李琳(1999—),女,广东潮州人,本科,研究方向为云计算与大数据技术;邓一星(1980—),男(壮族),广西南宁人,讲师,硕士,研究方向为云计算与大数据技术。

3709500338290

猜你喜欢
计算机视觉机器学习云计算
机器视觉技术发展及其工业应用
危险气体罐车液位计算机视觉监控识别报警系统设计
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于云计算的移动学习平台的设计
基于支持向量机的金融数据分析研究
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用