自适应铁路场景前景目标检测

2020-05-13 10:00李兴鑫朱力强余祖俊

交通运输系统工程与信息 2020年2期

李兴鑫，朱力强，余祖俊

(北京交通大学机械与电子控制工程学院，北京100044)

0 引言

随着高速铁路的迅速发展，安全保障问题越来越重要，异物(如人、动物、高空落石)侵入铁路限界会给列车的安全运行带来巨大的隐患.高速铁路沿线均有安装监控相机，智能视频分析技术广泛应用于异物入侵监测，如限界识别[1-2]、入侵异物识别[3-4].基于视频分析的前景目标检测是铁路异物入侵判断的必要步骤.常用的前景目标检测方法是背景差分法，包括基于背景建模的传统分割算法和数据驱动的深度背景差分算法.

传统背景差分法的主要步骤是背景建模、前景提取和背景更新，核心是背景建模，统计概率模型是普遍应用的建模方式，分为参数模型和非参数模型.非参数模型不假设具体的分布，直接存储像素的历史样本值构成背景模型.ELGAMMAL等[5]提出KDE基于核密度估计前景的概率，BARNICH等[6]提出ViBe计算当前像素到背景中样本的距离，通过分割阈值判断是否匹配到背景样本，实现前景检测，用简单的距离度量代替了概率估计，计算更加简单，但固定的阈值不适用于复杂的铁路场景.HOFMANN等[7]，ST-CHARLES等[8]提出PBAS和SubSENSE设置调节因子动态地调节阈值，PBAS将当前像素到样本距离的最小值作为调节阈值的控制量，SubSENSE在此基础上增加了一个由分割结果提供的反馈变量和计算耗时的特征描述算子，在以上样本匹配计算中，每个样本的权重为1.JIANG等[9]提出WeSamBE在阈值调节的基础上，依据重要性对每个样本赋予不同的权值.CHEN等[10]提出SuperBE将以上的像素级算法替换为超像素级，且超像素只计算一次，平衡了精度和速度.结合深度卷积网络(Convolutional Neural Network,CNN)和背景差分概念的相关研究越来越多[11]，BABAEE等[12]使用CNN实现逐像素的前背景分类，网络输入为当前图像与背景图像，逐像素的处理只考虑了局部信息，造成计算资源浪费，而基于编码—解码的CNN可实现前景目标端到端的分割[13-14]，融合多阶段多尺度的特征提升了准确性.LONG等[14]只将当前图像输入网络，WANG等[15]采用三维全卷积同时学习空间和时间上的多尺度特征.

针对不同场景，深度背景差分需要不同场景的数据集进行训练，模型性能依赖训练数据的多样性和真值数据，难以满足铁路应用.传统的背景差分使用限制少，常作为视频分析的预处理过程，模型性能跟阈值密切相关，尤其是在铁路等复杂场景下，但上述自适应算法的阈值调节能力不足.主要为：只利用像素级信息，没有考虑空间信息；超像素级算法一定程度上减少了计算单元，但容易漏掉小目标.因此，提出一种基于自适应阈值调节的像素级目标检测算法，通过设置的环境动态监控变量动态地调节阈值，调节过程融合超像素的空间信息；同时，提出一种基于任意帧数的背景模型初始化方法，消除鬼影问题.

1 自适应目标检测

背景差分算法的核心是背景建模，作为非参数的统计背景模型，直接用每个像素p的N个历史样本值构成的集合描述背景，即，bi(p)表示第i个样本，背景模型采用保守的更新机制[6].

前景目标的分割通过比较观察值I(p)匹配到的背景样本的个数n(p)实现，即

式中：m表示需要达到的匹配个数(一般取值为2)；F(p)=0表示背景像素，F(p)=1表示前景；#{·}表示满足匹配条件的样本个数；dist(·)表示距离度量；R(p)表示分割阈值，直接影响分割结果.

一个全局固定的分割阈值不能满足复杂场景下的检测需求，尤其是含有抖动、动态背景的铁路场景，在分割过程中易发生误检，故提出一种自适应的阈值调节机制，算法流程如图1所示.

1.1 可靠的背景初始化

一帧初始化[7]通过在邻域内反复采样可快速初始化背景模型，但忽略了时间信息，初始帧存在的运动目标导致鬼影问题，即本来不存在目标的区域被检测出目标，故需要结合时域信息对背景模型进行可靠地初始化.计算每个像素点在时间序列上的综合偏移量O(p)，选择综合偏移量小的像素作为背景，即可排除前景像素.

式中：t表示不同的时刻；T表示用于初始化的帧数；o(p)t表示像素点在不同时刻的综合偏移量；SNP(p)表示像素p邻域内的像素集合；p′表示像素p邻域集合内的像素点；I(p′)t表示邻域像素值.

在集合O(p)中，选择θ1个最小o(p)t值所对应的像素，以及每个被选像素随机的θ2个邻域像素组成背景集合(一般假设邻域像素具有相似性)，就可以将运动的像素点筛除，避免鬼影问题，如图2所示.组成背景模型的像素个数N是固定的，参数θ1,θ2的选择遵循θ1+θ1×θ2=N和 1≤θ1≤N.用于初始化的帧数T越大，初始化越准确；T越小，初始化更快速.可根据实际需要在一帧到多帧初始化之间灵活切换，当T=1时，采用第1帧初始化.

图1 自适应目标检测算法流程图Fig.1 Flow chart of adaptive object detection

图2 可靠的背景初始化Fig.2 Reliable background initialization.

1.2 阈值自适应调节

铁路场景常存在动态背景、相机抖动等情况，若分割阈值R是全局统一且固定的，会将一些背景误检为目标，故R需要自适应调节.本文通过设置一些监控变量自动对环境的动态进行跟踪，平稳区域偏向较低阈值，动态区域偏向较高阈值，实现阈值自适应调节.以往的阈值调节以像素为单位，在此基础上，本文算法增加超像素[16]提供的空间信息.超像素是一系列颜色统一、大小相似的图像块，如图3所示.场景是固定的且大部分是背景，而超像素的计算比较耗时，折中考虑，超像素只计算1次，如图1所示.即使存在前景目标，影响也只局限在目标的边界部分，不影响目标内部区域.本文算法是一个像素级算法，利用超像素提供的空间信息进行阈值调节，与超像素级目标检测算法[10]不同.

图3 超像素分割结果Fig.3 Super-pixel segmentation results

动态环境使像素值波动，故将当前像素到背景样本的最小距离D(B)与帧间差D(F)作为跟踪背景动态的监测变量.考虑整个时间和空间信息，监测变量采用滑动平均或超像素区域内求均值，即

式中：α为学习率，取α=0.5；I(p)t表示像素p的像素值；bi(p)t表示像素p的第i个背景样本值；d(B)(p)t为当前像素到背景样本之间距离的最小值，d(F)(p)t为在超像素内取平均的帧间差(考虑空间信息)，两者的计算需要归一化，取滑动平均作为最终的结果，记为D(B)和D(F)；min表示最小距离；s(p)表示像素所属的超像素；p″表示属于超像素s(p)范围的像素点；#s(p)表示超像素内像素的个数.两个监测变量反映了环境的动态程度，当背景变化较大时，幅值上升，D(B)(p)t侧重于像素偏离背景的程度，D(F)(p)t反映连续变化，偏向于变化的频率.

以上监测因子的设置没有考虑前景的影响.当前景目标出现时，D(B)(p)t和D(F)(p)t的值也是偏大的，但阈值暂时不应调整；分割结果中，会出现由动态背景引起的在时间序列上来回闪烁的噪声.这些问题可通过分割结果的反馈变量L(p)t解决，即

式中：X(p″)t是t-1时刻到t时刻分割结果的异或值，X(p″)t=0表示该点是稳定的背景区域或前景区域，X(p″)t=1表示该点是动态的背景区域或是目标边缘，通过简单的后处理操作剔除目标边缘.为综合考虑时间信息和空间信息，采用超像素内求均值和滑动平均的操作，l(p)t表示超像素s(p)范围内X(p″)t的均值.

再间接计算出阈值调节因子β(p)t，实现阈值R(p)t的自适应调节.

式中：Rinit是阈值初始值；γ1、γ2为参数，γ1=0.8，γ2=0.25；ν1(p)t是融合连续帧间差和分割结果反馈的监测变量；ν2(p)t直观地反映了当前像素值与背景匹配的程度，通过相同的指数函数将其映射成同尺度的控制因子，用于控制β(p)t的增减；β(p)t是阈值自适应调节因子，β(p)t≥1，最终反映了环境的动态程度.β(p)t值在动态区域快速提升，随着环境变化趋于平稳时会抑制幅值的上升；在静态背景区域会下降，环境越稳定，下降越快.nt(p)表示t时刻匹配到的背景样本个数，若匹配个数不变或有所增加，说明当前像素与背景之间能够较好地匹配，则ν1(p)此次不考虑帧间差的变化.在阈值调节过程中，当前前景区域阈值暂时保持不变，即Xt(p)=0且F(p)t=1的区域.

2 实验结果

实验数据包括北京东郊环形铁道测试基地5个场景的视频序列，以及京沪高铁2个场景的视频序列，视频内容描述如表1所述，涵盖了典型的异物入侵情况.为验证本文算法的有效性，与ViBe[6]、PBAS[7]、WeSamBE[9]、SuperBE[10]和 CNN[14]算法进行定量、定性比较分析，还分析了算法的运行速度.实验中，针对每个场景视频序列，在1组阈值范围内找到每个算法的最佳阈值，CNN采用了原文所述的训练方式.

2.1 定量评价

为定量评价算法的性能，考虑视频相邻帧之间的相似性和手工标注的复杂性，从原始视频序列选择1/7数量的图像进行手工标注，将综合准确率(F-Measure，MFM)和整体误分类率(MWCR)作为衡量指标.

式中：TN是正确分类为背景的像素；TP是正确分类为前景的像素；FN是错误分类为背景的像素；FP是错误分类为前景的像素.

表1 视频内容描述Table 1 Video content description

不同算法的综合准确率和整体误分类率如表2和表3所示，粗体字表示最佳性能.

表 2 综合准确率(MFM)对比Table 2 Comparison ofMFM

表 3 整体误分类率(MWCR)对比Table 3 Comparison ofMWCR

从表2和表3可以看出，基于自适应阈值调节的本文算法和PBAS的平均MFM和MWCR值优于ViBe算法，超像素级SuperBE算法精度不高，CNN表现极端的原因是依赖于训练过程，在测试场景中WeSamBE的调节效果不佳.表2中，本文算法在4个视频上获得了最佳性能，2个视频上获得了第二好性能，最终在7个视频上取得了0.894 3的最佳准确率；表3中，本文算法在3个视频上取得了最佳性能，另外3个视频上取得了第二好性能，获得了0.014 5的平均误分类率.整体而言，本文算法的表现优于其他算法.

2.2 定性评价

图4可视化了不同算法的目标检测结果，每组图依次是原图、真值、ViBe、PBAS、WeSamBE、SuperBE、CNN和本文算法.

图4 本文算法与其他算法的对比结果Fig.4 Comparison results between proposed method and other methods

CNN的检测结果依赖训练数据：若训练和测试数据中目标具有相似的姿态，则效果最好，如图4(a)、(c)、(d)所示；若训练集是小目标，而测试数据出现了大目标，则检测效果差，如图4(b)、(g)所示.异物可能是各种姿态的，所以传统的差分算法更加可靠.SuperBE是超像素级的方法，误检是以超像素为单位的，相较于像素级算法精确度偏低，如图4(e)所示；对大目标友好，对小目标不友好，如图4(b)、(e)、(f)所示；图4(h)、(i)中的错误，可能来源于特征响应的误差.铁路场景存在很多边缘，相机轻微的抖动易造成误检.ViBe算法采用固定的阈值，导致噪声较多；PBAS在部分视频序列上的表现好于ViBe，但控制因子仅考虑了观察值与背景的最小距离，阈值调节能力不足；WeSamBE的效果较差，样本权值与阈值调节的耦合没有起到积极作用；本文自适应阈值算法融合了丰富的时空信息，提升了检测性能.

2.3 运行速度分析

不同算法的运行速度如表4所示，包括各算法在原始论文中使用的硬件平台、速度和统一平台上的测试，计算处理固定50 frame的时间并取均值.统一平台配置为：win10，Intel(R)Xeon(R)CPU E5-2620 v4@2.10 GHz，python版本为3.6.5，C++代码基于VS2017编译运行，CNN网络模型基于Keras2.2.4搭建并在CPU下测试，测试图像为640×360的三通道图像.

表4 运行速度Table 4 Running speed

从表4可以看出：在相同的条件下，本文算法的速度靠近ViBe的1/2；不同测试平台下算法的运行速度差距较大，本文算法通过优化，采用更好的硬件配置可满足实时性.CNN模型参数多，需要计算特征图，占用内存比传统差分算法大；相较于其他传统差分算法，本文算法的中间量偏多，故内存占用较高.

3 结论

针对复杂的铁路场景，本文提出了基于自适应阈值的前景目标分割算法和灵活可靠的背景初始化算法，动态阈值能够提升复杂场景下前景目标的检测精度，初始化算法消除了鬼影问题.实验证明，本文算法在速度和精度之间取得了较好的平衡，可应用于铁路异物入侵监测系统，为目标识别、入侵行为理解等提供预处理过程，为铁路的运营安全提供支持.