基于视频流媒体的人脸识别课堂监控系统

2021-12-07 07:45白茹

电子设计工程 2021年23期

白茹

（西安航空职业技术学院，陕西西安 710000）

课堂考勤与监控是课堂管理中重要的一环，能够在一定程度上保证学生按时上课，确保学习质量[1]。目前，课堂考勤主要依靠老师或班委人工点名的方式，这种方式不仅浪费时间且不能避免早退、代课等情况的出现，无法对课堂进行全面监督[2]。针对上述问题，文中在分析数据流媒体技术的基础上，建立了一种基于视频流媒体的人脸识别课堂监控系统。该监控系统充分发挥数据流媒体的优势，利用图像预处理中的灰度化及双边滤波算法对视频流进行处理，使其能够更优地进行人脸识别。测试结果表明，文中设计的系统除了能够较好地实现视频流的发送与接收等基本需求外，还可以较好地完成学生的上课考勤以及课堂的实时监控。该系统为实时监测学生迟到、早退、代课和旷课等现象，对课堂进行全面监督等提供了一种可行性方案。

1 视频流媒体

视频流（Video Streaming）是一种基于流体化技术的视频数据传输形式[3]。流体化技术的思想为：服务器在向用户传输视频文件时，首先按时间顺序将其分为不同的片段，再将这些片段依次发给用户。采用视频流的传输方式，可以实现用户对已接收部分数据的先期处理[4-6]。这种协同传输与处理的方式，保证了监控系统内数据传输的实时性，提高了视频信息迅速处理的能力[7]。

流媒体（Streaming Media）又称为流式媒体，是一种将视频、声音、文本等媒体数据压缩并通过互联网进行分段发送，能够实现数据实时传输的一种多媒体传输技术[8]。视频流媒体就是将视频流进行数据压缩，并实现实时处理与发送的一种网络传输技术。视频流媒体综合了视频流与流媒体的特征，主要体现在以下几个方面[9-11]：

1）视频信号可以不经过任何转换直接采用流式传输的方式进行迅速传输；

2）对系统所部署的服务器缓存容量的要求较低，这主要是由于其内部是以传输数据包为基础的异步传输；

3）视频流媒体传输的实现依赖于特定的传输协议，最大程度保证数据传输的实时性、连续性和时序性。

视频流媒体的传输流程如图1 所示。

图1 视频流媒体的传输流程

其中，Web 浏览器端（客户端）是一个对视频流进行操作的可视化界面，负责给用户提供一个输入输出接口[12]；Web 服务器端则用来获取客户端中用户的输入，并根据输入请求将获取到的资源反馈给用户，这些资源包括视频流媒体的服务器地址、资源路径以及数据编码/解码方式等；流媒体服务器端与Web 服务器、流媒体播放器端相连接，主要负责处理Web 服务器端的数据获取请求，并为播放器端提供视频流数据；流媒体播放器端受客户端的控制，负责播放用户所请求的视频流数据。同时，流媒体播放器与流媒体服务器之间的数据通过传输协议进行交换，常用的传输协议[13]包括实时流媒体协议（RTSP）、资源预留协议（RSVP）、微软流媒体服务协议（MMS）以及实时传输控制协议（RTCP）等。

视频流媒体的播放方式总共分为3 种：单播[14]、广播及组播。其中，单播是指系统每个Web 浏览器端与流媒体服务器之间均有一个独立的数据传输通道，每个数据包只能被发送到一个浏览器端。对于用户，这种播放方式能够满足其个性化需要，如随时停止、快进、后退等控制功能。但对于服务器而言，单播会造成数据冗余，极大地增加服务器的运行负担。尤其当用户较多时，服务器响应时间较长，甚至停止运行。广播是用户被动接收视频流数据的播放方式，是对单播方式的一种改进，采用该方式系统的所有用户均接收到了相同的流数据。这种方式虽然减少了系统中流数据的拷贝，但未充分考虑各用户的需求，有些无用的流数据被发送给用户，浪费了系统的网络带宽。组播是基于单播和广播可以实现数据有效共享的一种播放方式，该方式允许多个客户端同时访问同一数据包，极大地减少了系统中的数据包总量[15]。该方式使得单个服务器能够同时向几十万台客户机实时地传输视频流数据，并提高系统使用效率。

2 监控系统设计

设计该系统最重要目的在于通过视频流媒体及人脸识别技术有效监督高校学生的迟到、早退等考勤情况，保证课堂质量，为实现课堂自动化考勤提供新的思路。下面主要是建立监控系统总体框架，并对其中的关键模块进行分析。

2.1 系统架构设计

针对上述所提到的需求，该文设计的基于视频流媒体的人脸识别课堂监控系统的总体架构如图2所示。

图2 监控系统总体架构

该系统可以分为3 个模块：监控端、服务器端以及客户端。其中监控端的功能是实时采集课堂状况，并将获取到的视频流数据实时发送到服务器端，流数据的交换采用RTSP 实时流媒体传输协议；服务器端负责接收和处理监控端传输来的视频流数据，同时进行人脸识别；客户端则是人机交互的界面，包括用户登录、监控视频播放、考勤记录等。

2.2 RTSP传输协议

实时流媒体协议（Real Time Streaming Protocol，RTSP）是TCP/IP 协议体系中的一个应用层协议，该协议规定了如何通过IP 网络有效地发送视频流数据[16]。RTSP 为视频流媒体提供了暂停、快进等功能，但其主要用于实现远程控制服务器。采用TCP或UDP 中的RTP 协议来完成实际数据的传输工作，数据传输与控制采用不同协议的优势在于播放流媒体的客户机和控制流媒体播放的客户机可以为不同的计算机。系统流媒体服务协议体系架构如图3 所示。RTSP 在架构上位于RTP 和RTCP 之上，同时利用TCP/RTP 传输协议在IP 网络上完成视频等多媒体数据的传输。

图3 流媒体服务协议体系架构

RTSP 与HTTP 的相似之处在于两者均是通过纯文本进行信息传输，且两者的编程语法相近，使得RTSP能够较好地兼容基于HTTP协议所形成的代码。两者的区别在于RTSP协议是有状态的。在进行一个新的RTSP 命令时，需要了解当前所处的状态，发送的指令也是按照一定的顺序执行的，不会出现连接断开的情况。而HTTP 每发送一个指令后，连接就会断开，且各指令之间不存在明显的依赖关系。同时RTSP协议通常使用554 端口，HTTP 协议则使用80 端口。

2.3 人脸识别技术

人脸识别是整个监控系统尤为重要的一部分，其包括图像获取、图像预处理、特征提取、人脸检测与识别等过程。在该文的设计中，图像预处理分为两步：首先对视频进行灰度化处理，降低彩色图像的数据量；然后利用双边滤波算法去除图像噪声，进而突出图像特征。人脸识别算法采用基于Haar 特征的Adaboost 算法，对应人脸识别模块的工作流程如图4 所示。

图4 人脸识别模块工作流程

首先是人脸图像采集，在该系统中代表接收到的实时课堂视频图像；然后利用Adaboost 算法对传入图像进行人脸检测，判断该帧图像中是否存在人脸，为了减轻服务器压力，系统对每10 帧的图像进行一次检测操作；若存在人脸，则进行人脸特征的提取并进行特征的比对，确定是否为该课堂中已经录入的人脸。如果是，则记录该学生信息，完成考勤并进行监控；如果不是，则记录该异常信息。其中所用到的基于Haar 特征的Adaboost 算法的人脸识别流程如图5 所示。

图5 人脸识别算法流程

该算法的人脸识别流程可以描述为：首先计算系统服务器端接收到的监控视频流的Haar 特征，Haar 特征在本质上是基于积分图像的矩形特征，主要用来描述图像某一区域灰度值在方向和尺度上的差异，是人脸识别和目标检测领域中最常使用到的一种特征；然后利用提取到的Haar 特征求出Adaboost 算法各弱分类器的参数，通过训练迭代选取每轮最优的弱分类器，并记录对应的迭代权值。完成训练后将得到的所有弱分类器根据加法模型组合成强分类器，强分类器通过级联的方式产生一个用于人脸检测的复杂模型。

3 系统测试

为了验证该文设计的基于视频流媒体的人脸识别课堂监控系统的有效性与可靠性，文中通过3 个实验内容对该系统进行测试，包括视频流发送接收测试、人脸识别测试和课堂考勤测试。

3.1 视频流发送接收测试

该实验内容主要测试系统监控端的视频拍摄与视频流发送以及服务器端的视频流接收功能，为进一步处理流数据进行人脸检测与识别奠定基础。系统该部分的实验测试结果如表1 所示。

表1 视频流发送接收测试

由表1 可以看出，系统监控端能够较好地完成课堂视频拍摄与视频数据流发送。同时，服务器端可以在低延迟的情况下，实现对视频流的实时接收。

3.2 人脸识别测试

该实验内容主要测试文中系统对单人脸进行识别的准确程度，验证所采用的人脸识别算法的有效性。测试利用开源的LEW 数据集、Megaface 数据集以及教室摄像头实拍的数据集Rtd，其中LEW 数据集中总共包括13 233 幅图像、5 749 人。所有图像均来源于现实，涉及到的人物均为公众人物。Megaface 数据集中的图像大多数为普通人，更接近真实环境。Rtd 为利用教室摄像头实拍的课堂视频集，从中选取了5 000 帧，表2 为对不同数据集的实验测试结果。

从表2 可以看出，该文系统所采用的基于Haar特征的Adaboost 人脸识别算法准确率均能达到95%以上，充分说明了该算法的有效性以及人脸识别的可靠性。

表2 不同数据集人脸识别准确率

3.3 课堂考勤测试

该项目主要测试系统在真实课堂环境中的表现情况，包括课堂考勤的成功率及学生上课时间统计。其中课堂考勤的成功率是指对正常上课学生的准确识别，同时对旁听与未选该课的学生进行区分。总共进行了4 组实验，实验结果如表3 所示。其中，教室总人数是指该课堂应到的人数与旁听该课人数之和；课堂考勤的成功率计算则是识别成功人数除以课堂应到人数×100%的结果。

表3 课堂考勤成功率实验结果

由表3 可知，该系统的课堂考勤成功率较高，能够达到96%以上，具有较好的实用性。

学生上课时间统计是指通过视频流确定上课学生出现在监控画面中的时长，以此判断学生是否有出现打卡之后逃课的情况，进而完成对学生上课情况的监控。表4 为上课时段中52 个学生的上课时间统计数据。

表4 学生上课时间统计

由表4 可知，52 名学生中有49 名学生能够满足课堂要求。同时发现有上课时间不足20 min 的学生，判定这些学生存在逃课行为。

4 结束语

该文通过介绍与分析视频流媒体技术，开发了基于视频流媒体的人脸识别课堂监控系统。该系统充分利用视频流媒体的优势，同时采用Adaboost算法进行人脸识别。系统视频流发送接收测试、人脸识别测试及课堂考勤测试，三项测试结果说明，该系统能够较好地完成学生的上课考勤与课堂的实时监控，验证了该监控系统的有效性和可靠性。