校园围栏场景下的异常行为检测系统

2023-05-18 08:15李瑷嘉彭新茗马广焜陈展鹏

智能计算机与应用 2023年4期

李瑷嘉，彭新茗，马广焜，陈展鹏，于洋

（沈阳工业大学软件学院，沈阳 110870）

0 引言

人体异常行为识别与检测技术涵盖对人体行为的识别、检测和异常行为的分析，被越来越多地应用在智能监控、医疗看护和交通监管等领域，其市场前景可观，具有高可用性。如，在智能监控领域，通过该检测技术，判断公共场所人员是否发生扰乱公共秩序等违规行为。在医疗看护领域，可对家人进行24 h 监护，避免家中老人或小孩突发意外状况。在交通监管领域，对车内外、以及车内驾驶员的异常行为进行监控，进一步降低交通事故发生的风险。

当前，国内外在异常行为检测技术方面也有了较大的突破—从早期基于人工设计特征的方向梯度直方图、光流直方图、混合动态纹理等异常行为检测技术［1］，到现如今的基于深度学习的异常行为检测算法。随着网络层数的增加，特征也越来越抽象，这就直接导致了基于人工设计特征的检测技术在应用中会受到诸多限制；而基于深度学习的异常行为检测算法是通过对原始图像的学习来分析其复杂的非线性行为特征。因此在较多网络层数的情况下，就能够更好地描述行为特征，且检测准确率更高，计算复杂性较低。基于深度学习的异常行为检测算法主要可分为单阶段和双阶段两种。前者无候选区域，能够直接产生物体的类别概率和位置坐标值，以SSD 和YOLO 系列为例；而后者在检测过程中，分为2 个阶段。第一阶段：生成包含目标位置信息的候选区域；第二阶段：划分候选区域，并精确求得目标位置信息，以R－CNN、Fast R－CNN、Faster R－CNN为例［2］。其中，R－CNN 及其延伸的算法，使用一个管道在多个步骤中执行这个任务，存在运行速度慢、需要单独训练每一个组件和优化效果不强等问题。而YOLO 只用一个神经网络就能完成，因此项目拟采用YOLOv5 轻量化网络模型作为行人异常行为检测系统的网络模型。

本文以校园封闭管理为例，选用在速度上有优势的YOLOv5 目标检测算法。将大量真实的围栏场景下的行人样本载入训练模块，进行训练，结合训练好的检测系统对监控探头拍摄的视频图像进行智能识别并根据置信度、IoU的数值输出不同检测结果，当被拍摄人员存在疑似翻越围栏、偷取外卖等异常行为且达到额定百分比时，对其进行自动识别和抓拍，并发出报警信号达到警示的效果。

然而，在实际应用过程中，基于围栏场景的异常行为检测面临着诸多挑战，如背景复杂度、光线、拍摄角度等非受控条件导致提取特征性能受限；在线分析大量实时数据时，存在异常行为检测的高延迟等问题。

1 校园围栏检测系统设计

1.1 系统概述

整个异常行为检测系统由围栏场景下的监控摄像头、监控室内交换机、管理服务器、显示屏幕和警报器组成。学校相关管理部门可根据实际情况，如事件高发时段和高发地点，选择开启检测系统。系统开启后，通过网络将围栏场景下人员的疑似翻越、偷取外卖等异常行为情况上传给服务端，并将检测与分析的结果存入日志文件。

系统整体采用流式开发模型，系统流程如图1所示。首先对视频流提取关键帧（本文可通过对帧率的更改，自定义提取关键帧），对图像进行预处理，而后提取其特征，得到与之相对应的特征图，并以此为参照对物体类别和边框进行预测，所得数据写入日志。该过程实现了真正的端到端的处理。

图1 系统流程图Fig. 1 Flowchart of the system

1.2 系统功能设计

系统使用客户端／服务器（C／S）模式作为系统的整体架构。其中，服务器端提供基于YOLOv5 的目标检测方法的识别服务，其主要工作流程为处理视频数据流，提取关键帧作为原始图像，处理后将标定好的图像传输给客户端。客户端向服务器端发送请求，服务器端接收、处理请求，并将结果返回。系统的整体功能架构如图2 所示，该系统共分为2 部分：离线的网络训练和在线的目标检测。由图2 可知，对该行为检测系统中各研发模块的功能设计可做阐释分述如下。

图2 系统功能架构图Fig. 2 System functional architecture diagram

（1）图像采集模块。对视频流进行截取操作，截取关键帧，形成图像数据集。

（2）图像预处理模块。在本模块中，由于图像存在无关的信息，影响检测效率，因此对图像进行了灰度化、几何化和图像增强处理，突出显示需要检测的目标，这样可以简化数据，提高检测效率。

（3）图像检测模块。在该模块中，采用单阶段的目标检测算法—YOLOv5 目标检测网络作为行人异常行为检测的基础网络模型，涵盖训练模块和预测模块两部分，分别对训练集和测试集进行处理，训练模块根据采集到的图像对网络的参数进行学习，提取特征图；预测模块再依据提取到的特征图进行目标分类和边框回归。

（4）日志模块。该模块不仅记录检测过程中产生的识别信息，还可以记录检测过程中系统的工作状态、客户端的请求、执行的操作以及检测出异常行为后的报警情况，形成日志文件，利于后续查看。

（5）报警模块。此模块通过调用服务器接口来实现这部分的操作处理。当人员存在疑似翻越围栏、偷取外卖等异常行为时，对其进行自动识别和抓拍，并上传信息到客户端。

2 关键技术

2.1 图像预处理模块

本实验对采集到的图像依次进行灰度化、几何变换，这在一定程度上丰富了数据集、防止过拟合训练并有效提高了网络模型的鲁棒性。首先，对原始图像进行灰度化处理，使每一个像素的颜色、即RGB 值相同；然后，通过平移、转置、旋转、缩放的几何变换，来降低系统误差和仪器摆放位置误差带来的影响。而在此过程中，针对出现的采集图像过多、不清晰、不可用的问题，进行图像增强操作，即增强图像中的有用信息，也就是针对给定图像的不同应用查找，有目的地增强图像的整体特征或局部特征。该操作不但能使原图像变得清晰，还能模糊不重要的特征，同时突出不同物体之前的区别。通过图像预处理机制可以增强画质，显著提升对图像的识别效果，进一步满足人体异常行为分析的需求。

2.2 图像检测模块

本系统采用YOLOv5 框架。共包括：输入端（Head）、主干网络（Backbone）、Neck 和输出端（Prediction）四大部分［3］。对此研究内容，拟展开解析表述如下。

（1）输入端（Head）

①Mosaic 数据增强如图3 所示。对输入的4张图片，通过随机缩放、随机裁剪以及随机排布的方式将图像拼接起来。

图3 Mosaic 数据增强示意图Fig. 3 Mosaic data enhancement diagram

②自适应锚框计算。对每个设定不同长宽锚框的数据集进行训练，在其初始的锚框架上输出预测框，并计算与真实框的差距，进行反向更新，反复迭代参数。

③自适应图片缩放。由于图片可能存在尺寸不同，因此对原始图像进行自适应图片缩放，添加最少的黑边来统一其尺寸，再进入网络检测［4］。

（2）主干网络（Backbone）

①Focus 结构。输入原始图像，进行切片操作，改变特征图的大小。

②CSP 结构。以该系统中的YOLOv5s 网络为例，整个网络模型中含2 种CSP 结构。一种存在于主干网络（Backbone），另一种存在于Neck 中。

输入图像尺寸为608∗608，特征图变化如下：608➝304➝152➝76➝38➝19，该结构起到下采样的作用，增强CNN 的学习能力，在轻量化的同时也确保了系统的准确性［5］，并降低了内存的计算开销。

（3）Neck。采用FPN＋PAN 的结构。其中，FPN是由高维度向低维度传递语义信息的过程，使大目标更加明确，而PAN 是由低维度向高维度再传递一次语义信息，从而在明确大目标的同时也能够清晰小目标。

Neck 部分如图4 所示。在该部分中，将自顶向下传达强语义特征与特征金字塔自底向上传达强定位特征相结合，进而能够从任意主干层对任意检测层进行参数聚合。

图4 Neck 部分示意图Fig. 4 Schematic diagram of the Neck part

（4）输出端（Prediction）

①CIoU＿Loss。CIoU＿Loss考虑边界框宽高比的尺度，能够达到预测框回归的速度要求和精度更高的效果。

②非极大值抑制（NMS）。会在局部区域选取极大值窗口，而后删除低分窗口，并一直重复此操作，来抑制分数较低的窗口。

2.3 报警模块

通过调用软件接口连接传统监控系统，在测试其性能良好后，使用训练后的模型检测校园围栏场景下视频中的异常行为。根据摄像头读取到的视频流，检测系统进行逐帧检测，当检测到标注的存在异常行为的人员时，系统会将对应帧进行保存，存储到日志文件中，并标注好对应时间，方便用户后续的翻阅查看。

3 系统测试及结果

3.1 数据集

本实验的训练集和测试集由Pascal VOC、MS Coco 公共数据集提供和自采集图像组成。其中，自采集图像取材于沈阳工业大学校园围栏场景下的多角度、各时段的多个监控视频，使用光流法对视频进行关键帧提取，采用Labellmg 软件对关键帧进行标注，设置异常行为的标签为：攀爬（climbing）、穿越（crossing）、偷取外卖（takeout），通过数据增强方法对样本进行扩充。从而在不同数据集来源上形成横向对比的同时，能够区别于监控摄像的一致俯拍角度对实况进行左、右侧的各角度抓拍。

3.2 测试环境

本实验处理器为：Intel（R） Core（TM） i7－6700X CPU＠3.70 Ghz，32 G 运行内存；显卡Nvidia Geforce GTX 1650Ti；操作系统为Windows10。

该实验基于深度学习框架pytorch 1.9；实验环境python 3.8；GPU 加速软件CUDA10.0。

3.3 测试结果

系统检测结果如图5、图6 所示。其中，图5 为原始图像和检测图像，图6 为测试数据检测结果。

图5 围栏翻越行为检测示意图Fig. 5 Schematic diagram of fence overfetch behavior detection

图6 测试数据检测结果示意图Fig. 6 Schematic diagram of test data detection results

4 结束语

综上所述，应校园封闭管理之需，本文提出了一种基于YOLOv5 的围栏场景下行人异常行为检测系统。首先，综合考虑模型的检测速度和精度等因素，选择适当的目标检测模型，这里选择了YOLOv5 轻量网络模型。其次，给出系统总体功能框架，并详细描述该系统涉及的识别检测模块，共包括图像采集、图像预处理、图像检测、日志处理和报警五大模块［6］。该系统采用离线的网络训练和在线的目标检测，能够满足真实围栏场景下的异常行为实时检测的需求，具有易于跨平台搭建、运行速度快、检测效率高等特点，具有较高实用性。

但是，在实验中，系统的识别效果会受到监控探头拍摄角度和距离的影响，这就要求了在实际应用中，要求监控探头的拍摄角度能够确保在检测范围内人员与围栏之间无遮盖。今后的项目开发中，通过对网络模型参数的不断修改，提高网络的兼容性以及围栏翻越检测系统的识别效果。