基于情景记忆的运动小目标行人检测神经网络

2022-08-09 05:47张本康
计算机工程与应用 2022年15期
关键词:行人特性神经网络

张本康,胡 滨

贵州大学 计算机科学与技术学院,贵阳 550025

行人目标检测是从视频/图像中判断行人对象类别、定位目标空间位置信息的计算机视觉研究分支,它是构建自动驾驶、服务机器人、智能视频监控等未来人工视觉系统的重要基础[1-2]。传统的研究主要针对视野域投影呈现大、中尺寸外形特征的行人目标检测和识别,并能取得不错的效果[3]。然而,当运动行人远离视频/图像采集设备,其在视野域仅占据2°~5°的视角空间时[4-6],呈现视感尺寸小、图像分辨率低、纹理特征模糊的运动小目标视觉形态特征,使得传统的行人检测方法检测精度低、误漏检率高[1,3],对运动小目标行人的检测与识别成为当前计算机视觉、模式识别与分类、人工智能等众多领域共同的挑战性难题。

动物的视觉系统经历了亿万年的进化高度成熟可靠,其内部的神经结构特性、视感神经机理等可被用于构建执行视觉感知任务的新型人工视觉系统。例如,Yue和Rind[7-8]受蝗虫小叶巨型运动检测器(lobula giant movement detector,LGMD)的神经特性启发,提出一种适用于汽车碰撞检测的LGMD神经网络;Wang等[9-11]借助蜻蜓大脑运动小目标检测(small target motion detector,STMD)神经元的视感机理,设计了一种感知运动小目标对象的人工视觉系统;Hu等[12-15]基于蝗虫视觉神经特性及视感认知机理,构建了检测目标运动模式的人工视觉神经网络模型。近年来,生物视脑神经学家已初步揭示视觉信息在诸如蝗虫视觉系统中的神经加工机制[16-19]、人类大脑情景记忆认知机理[20-21]。然而,目前尚未有借助上述生物启发构建运动小目标行人检测计算模型的相关文献报道。因此,基于最新的生物视觉神经学及脑认知科学理论,探究生物启发的运动小目标行人检测人工视觉系统是一个值得研究的科学问题[22]。

本文基于蝗虫视觉系统的神经结构特性、借助人类大脑情景记忆认知机理,研究了视觉场景下的运动小目标行人检测问题,主要贡献如下:(1)原创性地提出一种生物启发的人工视觉神经网络模型(small target pedestrian detection neural network,STPDNN),用以检测和识别监控视频中的运动小目标行人对象;(2)STPDNN从计算机视觉的角度进一步解释了视觉信息在蝗虫视觉系统中的神经加工处理机理以及人类大脑情景记忆认知机理,这为构建运动目标检测与识别的动态视觉信息加工处理系统提供了新思路;(3)基于不同真实视觉场景下的运动小目标行人视频,开展了系统性的实验并验证了STPDNN的性能特性。

1 相关工作

1.1 传统小尺寸行人检测模型

近年来,研究人员针对投影图像空间高度分辨率为20~100像素的小尺寸行人检测问题,开展了探索性工作并提出相应的计算方法。例如,Pang等[23]基于HOG、LUV和JCS-Net融合分类与超分辨率任务,提出一种适用于投影高度低于100像素的小尺寸行人检测模型;Li等[24]基于YOLOv3_tiny[25],借助K-means++算法在多尺度预测模块中增加52×52像素分辨率的目标预测层,以实现对小尺寸行人目标对象的检测;You等[26]基于YOLOv4[27]设计了一种注意力和加权特征融合的小尺寸行人检测算法,该算法在骨干网络CSPdarknet53中引入自适应注意机制,并在特征金字塔中采用信道加权特征融合,以检测小尺寸行人目标;Han等[28]提出一种深度小尺寸行人感知网络,该模型采用交叉熵损失函数提高模型的检测精度,从而识别图像中那些投影高度为20~70像素的小尺寸行人;此外,Huang等[29]构建了一种用以检测外型投影形变行人目标的改进型RPNplus模型;Jocher等[30]提出的YOLOv5模型在小尺寸行人检测上也有一定的检测准确率,但它们的检测精度依然无法满足实际应用场景的需要。

上述模型都在现有的行人检测框架基础上,采用深度学习技术改进目标外形纹理特征识别方法,提升模型对小尺寸行人目标的检测精度。然而,随着目标对象在视野域中投影占据视角空间的缩小[4-6],运动的小目标行人对象已不再适合像素分辨率的视觉表征,其投影的外形纹理特征越发模糊,使得现有的传统小尺寸行人检测方法难以应对运动小目标行人的检测问题。此外,基于传统深度学习技术构建的计算模型存在着高昂计算开销的固有缺陷,模型的性能特性受限于模型内部结构设计与训练集样本规模[3],难以适应复杂多变的动态真实视觉场景。

1.2 行人运动姿态特性

人类在自然界的长期进化中形成了独特的身体结构与运动行为姿态。目前已有大量科学研究从运动生物力学的角度探讨了人类的运动姿态视觉特性,所获得理论成果表明[31-33]:正常人类依靠下肢实现上身体部支撑,其外部视觉轮廓呈现竖直长方体型的外观特征;当行人运动行走时,在动、静力学的相互作用下,由上、下肢体的自然摆动引发的视觉运动时空能量变化表征出具有特定频率规律的运动姿态特性。图1给出视觉场景下的行人运动姿态示意图。图中,序号1至8的视频图像帧序列依次展示了视野域中行人目标对象呈现出具有上述生物运动力学特性的视觉运动行为过程。相关研究已证实,此独特的运动姿态特性专属人类所有,目前尚未在自然界的其他物种中发现[34-35]。

图1 行人运动姿态图Fig.1 Schematic diagrams of pedestrian movement postures

1.3 情景记忆认知机理

人类大脑认知机理长期以来是脑认知神经科学的研究热点之一。在对此问题的探索中,科学家已初步揭示情景记忆是认知形成的核心组成部分,它在目标检测与分类识别中扮演着至关重要的角色[21,36-38]。人类大脑的内侧颞叶(medial temporal lobe,MTL)区存在着两种不同的情景记忆神经元[21,37]:一类是语义记忆神经元,它具有对信息线索抽象概念高度选择和不变性表征的编码功能;另一类是情景记忆神经元,用于检索信息记忆以选择性地响应熟悉的情景模式。这两类神经元联合不同的时空域信息线索,实现对目标对象的认知与分类[39-42]。具体而言,情景记忆认知机理依赖于过去经历的再现;大脑皮层的波纹振荡反映潜在的神经脉冲活动趋势,被组织为表征记忆信息的特定神经尖峰活动序列;在记忆形成的过程中神经脉冲反复再现,并在认知记忆实现的阶段以神经尖峰序列的形式呈现于大脑的MTL区[20]。例如,Rey等[43]发现人类大脑某些MTL神经元呈现出二元编码的神经脉冲特性,其联合不同的情景记忆信息线索以识别测试图片中特定类型的目标对象。

1.4 蝗虫视觉神经通路

蝗虫视觉系统的内部结构简单,但却能高效可靠地感知运动目标在视野域中引发的视觉运动信息[16-19],此特性吸引了科学家的广泛关注。英国纽卡斯尔大学的Rind等[16-17,19]深入研究了蝗虫视觉系统的神经结构特性,揭示视觉信息在其中加工处理的神经通路。具体而言[18-19,44]:(1)蝗虫复眼表层的感光细胞(Photoreceptor,P)以膜电位的形式表征运动目标在视野域中引发的流明变化;(2)感知到的视觉信息依次传入随后视叶中的神经节层(Lamina,L)和髓质层(Medulla,M)加工处理,逐层提取低阶视觉运动线索;(3)低阶视觉运动线索送入后续的小叶复合体(Lobular Complex,LC)转化为高阶表征的视觉信息,然后被送入前脑神经中枢供决策使用。这种分层的低、高阶视觉信息加工处理神经通路为构建解决视觉运动感知问题的人工视觉系统奠定了重要的生物视觉神经学理论基础。大量的实验[7-8,12-13,15,45]证实该蝗虫视觉神经通路在解决计算机视觉运动感知问题上的有效性。

2 人工视觉系统设计

运动小目标行人呈现的运动姿态视觉特性[31-33],即竖直长方形的轮廓粗粒度外形特征以及运动引发的时空视觉能量周期变化特性,可被分别表征为行人目标的语义编码及情景记忆信息[39-42];两者之间的相互作用引发的神经脉冲活动序列,可激活属于运动小目标行人概念认知的目标识别神经元。因此,本文基于蝗虫视觉系统的神经通路提取运动目标在视野域中引发的视觉运动线索,借助人脑情景记忆认知机理,将运动小目标行人检测问题转换为对特定神经脉冲活动序列的识别问题,设计与实现了一种仿生的运动小目标行人检测神经网络模型,即STPDNN。

STPDNN将单目摄像机拍摄的视频序列作为网络模型的输入信号,对其加工处理并向外输出表征运动小目标行人在视野域中时空位置信息的膜电位兴奋量。基于蝗虫视觉系统的神经结构特性与人脑情景记忆认知机理,本文提出的视觉神经网络模型内部结构如图2所示。图中,STPDNN由分别提取低阶、高阶视觉运动线索的突触前和突触后神经网络组成。模型的设计细节如下所述。

图2 STPDNN结构示意图Fig.2 Schematic diagram of STPDNN

2.1 突触前神经网络

STPDNN的突触前神经网络包括P、L和M三个神经层,它们模拟了蝗虫视觉神经通路的结构特性,从输入的视频序列中逐层提取出运动目标引发的低阶视觉运动线索。各神经层的功能设计如下。

2.1.1 P层

P层由与输入图像帧像素点相对应的nc×n r个感光细胞组成。在第f帧时刻,P层细胞接收输入图像对应像素点的亮度信息I f,计算与上一帧相比的亮度变化。P层细胞的输出P f由下式给出[45]:

式中,P f(x,y)是P层细胞(x,y)在第f帧时刻的输出膜电位;x和y分别是细胞的行、列坐标信息;I f和I f-1分别表征当前时刻帧f和上一时刻帧f-1的像素点灰度值。

2.1.2 L层

L层包括两个并列的视觉通路,分别是Lon和Loff,它们用于采集视野域中不同类型的亮度变化信息,即亮度增ON和亮度减OFF[46]。这两个亚层的细胞均以n c×n r的矩阵形式排列,分别接收来自P层对应位置细胞的输出。在第f帧时刻,Lon、Loff中各自细胞(x,y)的输出Lonf(x,y)、Lofff(x,y)分别由以下两式确定[9,47]:

式中,[x]+表示max(0,x)操作,其只接收ON通道内的视觉信号;[x]-表示min(x,0)操作,其只接收OFF通道内的视觉信号;∂为兴奋残余系数。

2.1.3 M层

M层的细胞也以矩阵nc×n r排列,每个细胞同时接收来自Lon和Loff的输出。在第f帧时刻,汇入M层细胞(x,y)的信号M f(x,y)为:

M层细胞(x,y)的输出兴奋由下式计算:

式中,w(i,j)是用于提升视觉信号质量的平滑滤波模板[15],可表示为:

2.2 突触后神经网络

STPDNN的突触后网络由两个部分组成,分别是神经模块D和神经层G。其中,模块D接收突触前网络传来的低阶视觉运动线索,借助情景记忆认知机理从中响应运动小目标行人对象;神经层G则整合视觉运动信息,向外输出表征神经网络偏好响应特性的膜电位量。各模块的设计细节如下。

2.2.1 模块D

模块D加工处理接收的视觉信息,实现如下功能:(1)构建视野域中运动目标的选择注意区域S;(2)提取位于S区运动目标的情景记忆信息;(3)激励表征对小目标行人偏好响应的神经元R。

(1)选择注意区域S

遍历神经层M中的所有细胞,计算其邻域(r x,r y)内产生的区域兴奋细胞密度量,可表征为候选区K f。K f是一个由若干兴奋细胞空间信息构成的二元关系有序对集合,定义为:

K f(m)由下式计算:

式中,T c是密度阈值;D f(x,y)表示M神经层兴奋值大于膜电位阈值T e的细胞(x,y),定义为:

在第f帧时刻,模块D中的S f由运动目标在视野域中的空间信息(u f,v f)生成。令(u f,v f)0=K f(0),由下式遍历K f并在第i次迭代获得(u f,v f)i:

式中,i∈[1,k),k为K f中元素个数;(x'i,y'i)∈K f;是K f(i)与(u f,v f)i-1间的欧式距离;T d为距离阈值。遍历K f结束后,(u f,v f)=(u f,v f)k-1。S f由下式生成:

式中,(x″l,y″l)为S f中的兴奋细胞;x∈[u f-ηr,u f+ηr]、y∈[v f-ηr,v f+ηr],其中的ηr是选择注意区域半径。

(2)运动目标情景记忆

运动目标的情景记忆信息由两种不同的神经脉冲活动序列表征,分别是运动小目标轮廓特性͂,以及视觉运动能量时空变化特性͂。

在第f帧时刻,͂由S f中相互关联的兴奋细胞的空间信息确定,即:

式中,n p是兴奋持续系数;H f为第f时刻帧的神经脉冲兴奋量,由下式计算:

式中,(x″,y″)∈S f;max()、min()分别表示S f中元素“·”的极大、极小值。

通过计算S f中细胞兴奋强度变化获得第f帧时刻的,即:

式中,h为S f中元素个数。

(3)神经元R响应输出

以E͂的脉冲频率周期为基准,从周期性、对称性和波峰波谷差异性三方面获得第f时刻帧͂的特征向量,即:

式中,和表征͂脉冲周期特性,分别为在͂的一个周期,第f帧时刻兴奋值大于第f-1帧兴奋值的视频帧数量和第f帧时刻兴奋值小于第f-1帧兴奋值的视频数量;和表征͂脉冲对称特性,分别为在的一个周期内,从波谷到波峰兴奋变化量和从波峰到波谷兴奋变化量;和表征的波峰波谷差异性,分别为在͂一个周期内的波峰值和波谷值;表示中的波峰、波谷出现的总量;是视觉运动信息变化状态,Αf>0表示呈现从波谷到波峰的过程,反之亦然;为波形状态,Βf<0为波峰/波谷状态,反之亦然。在f=1时刻,Φ1=(0,0,0,0,0,0,0)。

令U f、V f和W f分别表示͂的脉冲周期度、脉冲对称度和脉冲波峰波谷差异度。其中,U f为͂在当前周期占用帧数与历史所有周期占用的平均帧数的差异值;V f为E͂在最近一个周期内波谷到波峰兴奋变化量与波峰到波谷兴奋变化量之比;W f为͂在同一周期内波峰、谷差异值与波峰值之比。在第f帧时刻,令运动目标引发的视觉运动时空能量特征向量其中,表示的记忆周期平均帧数,是前一周期兴奋从波谷至波峰的变化量,为与相反的信息变化量。ϑf由下式确定:

ϑ1=(0,0,0)(f=1)。令υf=(U f,V f,W f,ξ),其由下式确定:

式中,ξ=1表示Φf规整为(0,0,0,0,0,0,Tnum)。

第f帧时刻,神经元R从͂中感知到的信息量Ψf为:

式中,α为权值系数;拟合函数T、Γ和Λ分别为:与行人轮廓特性间的相似度由下式确定:

最后,神经元R在第f帧时刻向外输出的兴奋R f为:

2.2.2 G层

G层细胞以矩阵nc×n r的形式排列,分别接收来自模块D和M层的输出信息,调谐输出表征视野域运动小目标行人时空信息的膜电位量。在第f帧时刻,汇入G层细胞(x,y)的兴奋量G f(x,y)由下式确定:

式中,(x,y)∈S f;Δf=1表示运动目标是小目标行人,反之亦然。Δf由下式确定:

式中,T p为细胞兴奋阈值。为避免输出的运动小目标行人时空信息存在空洞,借助膨胀操作对G层膜电位量G f(x,y)作处理,并以获得的作为整个神经网络的向外输出。

2.3 STPDNN算法描述

基于图2的神经网络结构以及第2.1~2.2节的设计细节,论文提出的STPDNN算法描述如下:

输入:视频帧νf。

输出:STPDNN的输出膜电位兴奋。

步骤1参数设置:视频帧νf的分辨率n c×n r,兴奋量残留持久系数∂,密度邻域半径r x、r y,信号阈值Te,密度阈值Tc,距离阈值T d,选择性注意区域选取半径ηr,兴奋持续系数n p,调谐系数τ、w s,特征权重系数α,细胞兴奋阈值T p。

步骤2依据式(1)计算当前时刻(即第f帧)P层中细胞(x,y)的流明亮度变化P f,x∈[0,n c-1],y∈[0,n r-1]。

步骤3依据式(2)~(3)计算Lon和Loff亚层中细胞(x,y)的视觉兴奋Lonf(x,y)和Lofff(x,y)。

步骤4依据式(4)~(6)计算M层中细胞(x,y)的视觉兴奋输出

步骤5依据突触前神经网络计算D模块的输出量:

步骤5.1依据式(7)~(11)计算选择性注意区域S f。

步骤5.2依据式(12)~(15)计算S f内代表运动目标的情景记忆的神经活动序列和。

步骤5.3依据式(16)~(24)计算小目标行人识别神经元R的输出量R f。

步骤6依据式(25)和(26)计算G层中细胞(x,y)的视觉兴奋G f(x,y)。

步骤7依据膨胀操作计算STPDNN的输出膜电位兴奋矩阵值。

步骤8返回步骤2,直到遍历所有视频帧。

2.4 计算复杂度分析

由以上算法描述可知,STPDNN的计算复杂度与各神经层对视觉运动信号加工处理的操作密切相关。令输入神经网络的视频图像帧共有N个像素,在第f帧时刻加工处理视觉信息的计算量是:P层执行N次加减法运算;L层执行2N次加减法运算、2N次乘除法运算及N次取绝对值运算;M层执行9N次加减法运算及11N次乘除法运算;D模块执行200N+7m+h+f+26次加减法运算、4m+f+28次乘除法运算、1次取绝对值运算、N+m+6次条件判断、206N+m+20次逻辑判断、6次指数运算、1次赋值运算、3m+2次幂运算、2h次取最大值运算及2h次最小值运算;G层执行3N次加减法运算、10N次乘除法运算、2N次条件判断、5N次逻辑判断、3N次指数运算、N次赋值运算及3N次幂运算。

由上可知,STPDNN在第f帧时刻共执行了10类不同的操作运算,包括215N+7m+h+f+26次加减运算、23N+4m+f+28次乘除运算、N+1次取绝对值运算、3N+m+6次条件判断、211N+m+20次逻辑判断、3N+6次指数运算、N+3m+2次幂运算、2h次取最大值运算、2h次最小值运算及N+1次赋值运算。令这十类运算的时间消耗量分别为t1~t10,则神经网络处理一帧视频图像的计算复杂度为:

由于输入的视频图像帧数有限,并且神经网络选择注意区域S f中的细胞数量h、被激活的细胞数量m均是较小的数值,根据式(27)化简后可知,STPDNN算法的计算复杂度由下式决定:

式(28)表明,输入神经网络的视频图像帧分辨率N直接影响模型的计算复杂度。因此,在不丢失视频图像细节的前提下,将其降维处理可有效降低整个神经网络的计算复杂度。

3 实验研究

3.1 实验环境设置

实验在CPU 3.20 GHz、RAM/16 GB、Win 10的计算机上执行;使用C++并基于Visual Studio 2013编写源代码。实验测试数据为在真实视觉场景下使用单目摄像机拍摄的视频序列(除特别标注外,所有视频均为自行拍摄)。视频分辨率为1 280×720像素,小目标行人视频序列帧率由30 FPS规整为15 FPS。输入神经网络的图像帧为8位灰度图。根据前期已报道的工作[12-15]及当前的实验,STPDNN参数设置如表1所示。

表1 STPDNN参数设置Table 1 Parameter settings of STPDNN

3.2 神经层增益测试

STPDNN加工处理视觉信号,逐层提取低阶、高阶视觉运动线索,以检测视野域中的运动小目标行人对象。为验证神经网络各模块的有效性,开展神经层增益测试。实验选取两种不同类型的运动小目标对象,分别是行人、圆柱体,如图3所示,图片下方数字为视频帧的序号。在图3(a)中,视频序列共100帧图像,显示了小目标行人在视野域的中心区域自右向左的运动过程;图3(b)的视频序列也包含100帧,其中的圆柱体在视野域中心区域竖立着朝右侧方向移动。图中的红色框体为后期添加的运动小目标局部放大图,仅用于醒目展示。

图3 神经层增益测试视频采样帧Fig.3 Video sample frames in gain tests of neural layers

为显示神经网络不同神经层,即P、Lon、Loff、M和G层的输出增益特性,选取运动目标中心点所在行的细胞输出膜电位并绘制其兴奋值分布曲线;同时绘制神经元R的膜电位曲线图以展示神经网络模块D的输出增益特性。图4、图5分别给出STPDNN对图3(a)、(b)视频的增益测试实验结果。其中,图4(a)~(d)、(f)分别对应于神经网络在第50帧时刻,其P、Lon、Loff、M、G层中行人质心行坐标(即y=436)的细胞膜电位分布图;图4(e)表示模块D在整个测试视频中的输出值曲线。类似地,图5(a)~(d)、(f)分别对应于第50帧时刻,神经网络P、Lon、Loff、M、G层中竖立圆柱体质心行坐标(即y=421)的细胞膜电位分布图;图5(e)表示模块D在视频测试中的输出曲线。

图4 STPDNN不同神经层的输出曲线Fig.4 Output curves of different neural layers in STPDNN

图5 STPDNN不同神经层的输出曲线Fig.5 Output curves of different neural layers in STPDNN

由图4(a)~(d)、图5(a)~(d)所示的实验结果可知,STPDNN中的P、Lon、Loff和M层对运动小目标行人、竖立圆柱体的输出响应相似。这是因为,上述四个神经层位于神经网络突触前部分,它们仅用于提取运动目标在视野域中引发的低阶视觉运动线索,因此表现出相似的信号增益特性。其中,图4(a)、图5(a)表明P层提取出运动小目标在视野域中流明变化;图4(b)、图5(b)和图4(c)、图5(c)分别展示流明亮度改变引发的视觉信息增加、减少的变化线索;图4(d)和图5(d)则通过对Lon、Loff层的输出作非线性整合提升视觉信号的信噪比。类似地,图4(e)、图5(e)和图4(f)、图5(f)的实验结果表明,模块D、神经层G对运动小目标行人、非运动小目标行人的输出响应各不相同。这是因为D、G构成神经网络的突触后部分,它们加工处理突触前网络传来的低阶视觉运动线索,从中提取特定的高阶信息,因此针对不同类型的目标对象展示出不同的偏好响应特性。具体表现为,在模块D中,运动小目标行人触发兴奋值大于零的膜电位输出信号(见图4(e)),而非运动小目标行人则导致相反的兴奋输出(见图5(e));神经层G向外输出表征运动小目标行人在视野域中时空信息的高阶膜电位量(见图4(f)),而对非运动小目标行人则无响应(见图5(f))。

3.3 有效性测试

为测试神经网络在检测运动小目标行人对象上的有效性,使用真实视觉场景的视频序列开展实验验证。实验使用的视频序列采样帧如图6所示。图6包含有100帧图片,描述了小目标行人在田径运动场中从右向左的行进过程。图中红色框体为后期添加的小目标局部放大图,仅用于醒目展示。使用该视频测试STPDNN,获得的实验结果如图7所示。

图6 有效性测试视频采样帧Fig.6 Video sample frames in validity tests

图7(a)~(d)分别展示了神经网络模块D的神经脉冲活动序列͂和͂、神经元R的输出兴奋曲线,以及神经网络向外输出的膜电位可视化结果。其中,图7(a)所示的͂曲线表明,运动小目标行人引发的视觉运动时空能量变化呈现周期性的频率变化规律;图7(b)显示的͂幅值介于1.5~2.5之间波动,反映了小目标行人在视野域投影具有的外型轮廓不变性特征;图7(c)中的兴奋值曲线整体呈梯度上升趋势,表明神经元R对运动小目标行人的选择响应特性;图7(d)展示了神经层G产生兴奋向外输出的膜电位可视化结果,其表明STPDNN能有效感知运动小目标行人在视野域中的时空信息特性。

图7 有效性测试实验结果Fig.7 Experimental results in validity tests

本节使用真实视觉场景下的运动小目标行人视频序列验证了STPDNN的有效性。实验结果表明,神经网络产生的神经脉冲活动序列͂、͂,其展现出的运动行人姿态特性与运动生物力学的研究成果[31-33]相吻合;神经元R及神经层G输出的膜电位表明,STPDNN能有效检测视野域中的运动小目标行人对象。

3.4 神经网络特性测试

本节使用不同真实视觉场景下的运动小目标行人视频序列测试神经网络的性能特性,包括行进方向、运动姿势以及外观纹理敏感性测试。

3.4.1 行进方向

选取四段不同的视频序列测试不同行进方向对STPDNN的影响,包括朝着上、下、左、右四个基运动方向行进的小目标行人视频。使用的测试视频采样帧如图8所示。图中的红色方向箭头和红色框体为后期添加的示意图,仅用于醒目展示。图8(a)由100帧图像组成,显示了小目标行人朝着“上”方向移动的行进过程;图8(b)~(d)与图8(a)类似,不同之处仅在于行进方向的差异,分别为下、左、右方向。

行进方向测试的实验结果如图9所示。在图9(a)中,从左到右的四张子图分别对应于神经网络在图8(a)视频的测试期间,模块D的神经脉冲活动序列和͂、神经元R的输出兴奋曲线,以及STPDNN产生兴奋向外输出膜电位的可视化结果;与其类似,图9(b)~(d)展示的实验结果分别与图8(b)~(d)所示的视频序列相对应。由图9展示的实验结果可知,虽然上述视频中的小目标行人行进的方向各不相同,神经网络仍能够有效检测出监控区域中的运动小目标行人对象,并能正确向外输出表征它们在视野域中空间信息的膜电位兴奋。

图8 行进方向测试视频采样帧Fig.8 Video sample frames in motion direction tests

图9 行进方向测试实验结果Fig.9 Experimental results in motion direction tests

3.4.2 运动姿势

为衡量STPDNN对小目标行人运动姿势的响应特性,使用四段不同的视频序列测试神经网络。视频序列的采样帧如图10所示,图中的红色框体为后期添加的示意图,仅用于醒目展示。实验视频每段均包含100帧图像。它们分别记录了:抱着物品前进的行人,双手未作摆动(图10(a));单手撑伞的行人,呈现单臂摆动的运动特征(图10(b));运球行进的行人,手部出现上下拍动的变化(图10(c));奔跑的行人,四肢作较大幅度的前后摆动(图10(d))。这四组视频序列描绘了四肢运动变化引发的不同运动小目标行人姿势,可用于测试神经网络的运动姿势敏感度。

使用上述视频序列测试神经网络,获得的实验结果如图11所示。图11中,各子图分别对应于图10相应序号视频的测试结果,例如图11(a)与图10(a)中的视频相对应,其它子图类似;每段子图从左到右分别展示了实验过程中模块D的神经脉冲活动序列͂和͂、神经元R的输出兴奋曲线、以及STPDNN产生兴奋向外输出的膜电位可视化结果。由图11(a)~(d)所示的实验结果可知,图10的行人运动姿势的差异会触发神经网络模块D产生不同强度的神经脉冲序列͂。͂展示出的能量幅度变化与行人运动姿势不同导致的运动强度直接相关(见图11左侧第一列),例如,图11(a)手抱着物品前进的行人,由于双手未作摆动,其引发的͂能量幅度远小于图11(d)中四肢大幅摆动的奔跑行人。然而,尽管行人的不同运动姿势影响͂的能量幅度变化,但͂展示出的神经脉冲特性依然呈现出行人目标特有的周期频率运动姿态特性。另外,由图11左数第二列的实验结果也能发现,不同的行人运动姿势引发的神经脉冲序列,其能量幅度仍然呈现出小目标行人视野域投影的外型轮廓不变性特征。由图11右侧两列的实验结果可知,尽管测试视频中小目标行人的运动姿势各不相同,STPDNN仍能正确地检测出视野域中运动的小目标行人对象。

图10 运动姿势测试视频采样帧Fig.10 Video sample frames in motion posture tests

图11 运动姿势测试实验结果Fig.11 Experimental results in motion posture tests

3.4.3 外观纹理

自然环境中的目标行人,其视觉投影的外观纹理特性伴随着行人的性别、穿着服饰、附属物、光照、杂波等因素的不同发生变化[3]。本小节测试行人外观纹理对STPDNN性能的影响。实验选取四段不同的视频序列开展测试。这些视频序列每段均包含100帧图像,其采样帧如图12所示,图中的红色框体为后期添加的目标示意图,仅用于醒目展示。图12(a)所示的视频显示了身着灰白色上下装、斜身挎包的年轻女性朝上方向前行的过程;图12(b)的视频描述了深色着装的背包男性自左向右的前进过程;图12(c)的视频来自VIRAT数据集[48],展示了上身浅色衣服、下身深色裤子的中年男性在阳光斜照下伴随影子行走的视觉场景;图12(d)的视频显示了深色着装的男性在条状护栏后方行走,并在行进过程中出现前背景对比度突然降低引发的视觉杂波。这些视频中的运动小目标行人,从性别、着装、颜色、附属物、光照对比度、视觉杂波等展示出不同的外观纹理特征,可用于测试神经网络。

图12 外观纹理测试视频采样帧Fig.12 Video sample frames in exterior texture tests

外观纹理测试的实验结果如图13所示。在图13中,每段子图分别对应于图12相应序号的视频序列;各段子图从左到右分别展示了实验过程中模块D的神经脉冲活动序列͂和͂、神经元R的输出兴奋曲线,以及STPDNN产生兴奋向外输出的膜电位可视化结果。图13最左列的实验结果表明,运动小目标行人的不同外观纹理特性在一定程度上影响神经脉冲序列͂的能量幅度,尤其是视觉杂波的突然出现会影响͂的幅值(见图12(d)、图13(d))。然而͂的神经脉冲频率特性并未受到严重干扰,仍然呈现行人目标固有的周期频率运动姿态特性;图13左数第二列的实验结果也表明,神经脉冲序列͂的能量幅度仍具有小目标行人视野域投影的外型轮廓不变性特征。因此,由图13的实验结果可知,在未受到严重干扰的情况下,运动小目标行人的外观纹理对STPDNN性能的影响不大,神经网络仍能正确地检测出视野域中的运动小目标行人对象。

图13 外观纹理测试实验结果Fig.13 Experimental results in exterior texture tests

本节使用了几组不同真实视觉场景下的视频序列测试STPDNN的性能特性。尽管运动小目标行人在视野域中的投影呈现视感尺寸小、外观纹理特征弱的静态视觉特征,但依据运动行人特有的动态视觉特性[31-33],提取目标对象的外形竖直长方轮廓粗粒度特征和运动时空能量周期变化的动态视觉线索,并借助人类大脑情景记忆认知机理[20-21,36-38]将运动小目标行人检测问题转换为上述视觉运动线索的语义编码及情景记忆信息的识别。实验结果表明,上述动态视觉运动线索受目标对象的行进方向、运动姿势、外形纹理变化的影响程度低。因此,所提出的神经网络对运动小目标行人在视野域中的行进方向、运动姿势、外形纹理不敏感。

3.5 偏好性测试

为验证STPDNN对运动小目标对象的偏好响应特性,本节使用几种不同类型的非运动小目标行人视频,包括交通锥静物、静立行人、移动玩具车、空中飞鸟挑战神经网络。每组测试视频均包含100帧图像,视频采样帧如图14所示,图中的红色框体为后期添加的目标示意图,仅用于醒目展示。在这几组视频序列中,图14(a)显示了视频监控中的静物交通锥;图14(b)展示的是监控区域中驻足静立的行人对象;图14(c)记录了遥控玩具车在水平方向的运动过程;图14(d)的视频来自Videezy视频素材库[49]中的远空飞行海鸥。视频中的目标对象都因为远离摄像机而分别呈现出静态(图14(a)、(b))或动态(图14(c)、(d))的小目标视觉形态特征。

使用上述视频测试神经网络,获得的实验结果如图15所示。图15中,每段子图分别对应于图14相应序号的视频序列;各段子图从左到右分别展示了实验过程中模块D的神经脉冲活动序列͂和͂、神经元R的输出兴奋曲线,以及STPDNN在实验中向外输出的膜电位可视化结果。图15(a)、(b)的实验结果表明,本文提出的STPDNN对图14(a)中静止不动的交通锥,以及图14(b)中静立的行人对象无响应输出。这是因为STPDNN需要提取目标对象在视野域中由于运动引发的视觉线索。然而,静止不动的目标(包括静立行人)无运动行为,缺少视觉运动线索产生的必要条件,无法触发神经网络产生兴奋响应。图15(c)、(d)左侧两列的实验结果表明,尽管图14(c)、(d)中的非运动小目标行人对象能触发神经网络模块D产生波动的神经脉冲活动序列和͂,但͂和͂并不具有运动小目标行人对象的运动姿态特性,因此无法激励神经元R和神经网络产生偏好性的响应输出。

图14 偏好性测试视频采样帧Fig.14 Video sample frames in preference tests

图15 偏好性测试实验结果Fig.15 Experimental results in preference tests

3.6 密度阈值分析

STPDNN中的密度阈值T c是影响神经网络模块D构建高质量选择注意区域S的关键性参数。为评价不同的Tc取值对S质量的影响,选取图6、8所示的视频序列对STPDNN进行密度阈值分析测试。使用选择注意区质量(selective attention quality,SAQ)作为评价指标,衡量不同密度阈值对S构建质量的影响。SAQ由下式计算:

式中,theory表示视频序列中选择注意区的理论数量值;actual为实际构建的选择注意区的数量;SAQ∈[0,1],其中SAQ=1表示S质量最佳,反之亦然。在不同的T c取值下获得的实验结果如图16所示。

图16 STPDNN密度阈值实验结果Fig.16 Experimental results in density thresholds of STPDNN

由图16中的实验结果可知,当0≤Tc≤20时,随着T c取值的增大,STPDNN生成的选择注意区S,其评价指标SAQ呈现不断上升的趋势;当20<Tc<30时,SAQ平稳波动并在此区域达到最优值;当30≤T c≤50时,SAQ呈现不断的下降变化。由此图可知,参数T c为25时SAQ达到最优,从而使得神经网络获得最高质量的选择注意区S。

3.7 对比实验分析

目前尚未有基于动态视觉运动信息加工处理的运动小目标行人检测计算模型报道。本文只能选取现有的基于单帧图像静态检测方法的小尺度行人检测模型参与对比实验分析。选取前文提到的RPNplus[29]、YOLOv4[27]和YOLOv5[30],以及YOLOv3[50]和YOLOv4_tiny[51]模型参与实验。实验选取图6所示的完整视频序列开展测试,使用误检率(FAR)、漏检率(MAR)、正确率(Accuracy)作为评价指标。实验结果如表2所示。

表2 对比实验结果Table 2 Comparative test results

表2中的统计数据表明,本文提出的STPDNN在上述评价指标中达到综合最佳,其检测精度优于对比的行人检测计算模型。这是因为,传统的行人目标检测方法基于行人目标的外形纹理特征,结合训练的样本集使用深度学习技术来构建计算模型的内部结构,从而识别静态图像中的行人目标对象。但是,当行人投影尺寸缩小并呈现运动小目标的形态特征时,传统的检测方法由于目标纹理特征缺失、训练样本匮乏而导致模型的性能严重下降。而本文提出的STPDNN,借助情景记忆认知机理,提取运动小目标行人的外形竖直长方轮廓粗粒度特征和运动时空能量周期变化的动态视觉线索。外观纹理的变化对上述视觉运动特性的影响程度较低,因此STPDNN在对运动小目标行人的检测中展示出了独特的性能特性。

上述比较分析表明:

(1)RPNplus适用于中大型尺寸的目标行人检测,但难以应对图像中的小尺寸行人对象。

(2)YOLOv3借助特征金字塔方法提高了常规小尺寸目标的检测精度,但对运动小目标行人的检测仍存在困难。

(3)基于YOLOv3改进获得的YOLOv4,其对运动小目标行人的检测正确率有所提升,但仍然偏低。

(4)作为YOLOv4轻量版的YOLOv4_tiny,获得较高的检测速度,但检测精度无法满足运动小目标行人对象的检测。

(5)在对运动小目标行人的检测问题上,YOLOv5与YOLOv4的精度相当。

(6)本文提出的STPDNN,可有效感知运动小目标行人在视野域中引发的动态视觉运动线索,并对其产生偏好响应。

4 结束语

本文提出了一种生物启发式的运动小目标行人检测人工视觉神经网络(STPDNN)模型。基于蝗虫视觉系统的神经结构特性,借助人类大脑情景记忆认知机理,所设计的神经网络具有对视觉场景中的运动小目标行人的偏好性。在STPDNN中,运动目标视觉姿态特性引发的情景记忆信息可由两种不同的神经脉冲活动序列表示,其表征为选择性注意区中被激活细胞的兴奋膜电位量和被激活细胞所在神经层的空间信息,以此为基础计算生成目标对象的行人情景记忆相似度,从而产生对运动小目标行人的兴奋响应输出。系统性的实验结果分析表明:

(1)本文提出的STPDNN能有效识别视觉场景中的运动小目标行人对象。

(2)STPDNN对小目标行人的行进方向、运动姿势、外形纹理的变化不敏感。

(3)相比现有的传统行人检测计算模型,STPDNN对视觉场景中的运动小目标行人展现出了独特的偏好响应特性。

尽管本文所设计的神经网络通过简单模拟蝗虫视觉系统的神经结构特性和人类大脑的情景记忆认知机理,实现了对视觉场景中的运动小目标行人对象偏好响应,但仍然存在不足:

(1)基于单目视觉系统构建的STPDNN无法应对目标遮挡引发的视觉信息丢失,在此视觉场景下性能特性会严重下降。

(2)STPDNN需要从视野域中提取运动目标的视觉运动线索,因此无法应对那些运动速度过慢或过快的小目标行人对象。

在未来的研究工作中,将继续深入挖掘人类大脑情景记忆认知机理,并结合生物视觉系统的其它神经响应特性及视觉感知机理,扩展神经网络对运动目标的行为识别能力。同时将试图把STPDNN嵌入到SoC片上系统以构建具有自治能力的行人目标检测新型智能视频监控系统。

猜你喜欢
行人特性神经网络
基于递归模糊神经网络的风电平滑控制策略
谷稗的生物学特性和栽培技术
毒舌出没,行人避让
色彩特性
神经网络抑制无线通信干扰探究
路不为寻找者而设
基于神经网络的中小学生情感分析
进一步凸显定制安装特性的优势 Integra DRX-5.2
Quick Charge 4:什么是新的?
我是行人