引入时钟循环神经网络的核相关滤波目标跟踪

2020-09-09 03:09吴刚

计算机应用与软件 2020年9期

吴刚

(金陵科技学院计算机工程学院江苏南京 211169)(南京智能交通创新中心江苏南京 211169)

0 引言

在现代城市的交通分析与交通需求预测方面，对交通视频大数据进行智能分析，从视频中自动获取车辆信息并形成城市路网的车辆通行数据，对于交通决策与管理部门的关键数据统计具有重要意义。稳健、可靠、实时地跟踪预定车辆有助于后续识别与解析。基于特定目标的跟踪是计算机科学与现代智能交通领域共同研究的一个热点课题。例如，在复杂城市路网环境中车辆被遮挡是跟踪过程中比较常见的问题，跟踪算法如果没有抗遮挡处理机制，一旦待跟踪目标被局部或全局遮挡，跟踪器将学习到大量干扰信息，很可能出现非预期结果，最终导致跟踪漂移和失败[1]。为解决目标被遮挡情况下的跟踪，文献[2]采用多实例学习的方法提高遮挡情况下目标跟踪的稳健性，由嵌入的在线检测器辅助进行目标跟踪，将多个检测样本进行分组以避免误检率，然而检测样本的产生均为在线生成，因而多实例学习的跟踪方法极易陷入自学习问题。文献[3]提出一种改进的KCF跟踪方法，并在目标尺度变化情况下取得了一定的跟踪效果，但同样不能适用于目标被局部遮挡情况下的跟踪过程。目标跟踪过程中，目标状态在前后几帧之间存在一定关联性，非常类同于循环神经网络(Recurrent Neural Network,RNN)在处理数据前后关联性方面的机制[4]。本文研究嵌入RNN算法对跟踪模型的改进方法，以提高跟踪算法的稳健性与抗遮挡能力。RNN主要用于处理序列数据，不同于前向反馈神经网络，RNN通过引入定向循环以应对输入之间存在前后关联性的复杂问题。当一个序列当前的输出与以往的输出之间存在一定关联时，RNN会对以往的信息进行记忆并用于计算当前的输出。RNN隐藏层之间的节点为有连接，且RNN隐藏层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。LSTM是目前使用最广泛的一种RNN模型，能够更好地对长短时依赖进行表达，在词向量表达、语句合法性检查、词性标注等方面有成功的应用，然而并非所有RNN模型都适用于目标跟踪。近年来，研究者们已提出多种RNN方法改进传统RNN模型的缺点[5]，例如：简单循环神经网络(Simple RNN，S-RNN)、双向循环神经网络(Bidirectional RNN，B-RNN)、门控循环单元循环神经网络(Gated Recurrent Unit RNN，GRU-RNN)、长短时记忆模型(Long Short-Term Memory，LSTM)[6]与时钟循环神经网络(Clockwork RNN，CW-RNN)[7]。

1 CW-RNN性能优势

CW-RNN是一种采用时钟频率进行驱动的改进型RNN模型， CW-RNN包括输入层、隐藏层和输出层。CW-RNN将隐藏层分为多组，每组按照规定的时钟频率对输入信号进行处理。对于传统RNN模型，输入层、隐含层和输出层的状态量之间存在以下关系[5]：

st=fs(Wst-1+Winψt)

(1)

ot=fo(Woutst)

(2)

式中：W为隐藏层神经元的自连接矩阵;Win为输入层至隐藏层的连接权值矩阵;Wout为隐藏层至输出层的连接权值矩阵;ψt是第t步的输入;st-1为第t-1步隐藏层的输出;st为第t步隐藏层的输出;ot为第t步的输出;fs为隐藏层的激活函数;fo为输出层的激活函数。理论上RNN可以处理任意长度的序列。实际应用中，为降低算法复杂度通常设定st只包含前面若干步而非所有步的隐藏层状态。相对传统RNN模型，CW-RNN的优势在于[7]：1) 为降低算法复杂度、提升网络性能并加速训练过程，CW-RNN参数数目可以适当减少；2) 为解决长时依赖问题，CW-RNN的隐藏层在不同的时钟频率下工作，CW-RNN的隐藏层组在每一步不会同时工作，从而加快了网络的训练过程。CW-RNN隐藏层中的神经元被划分为g个组，每一组中含有k个神经元，为每个组分配一个时钟周期Ti∈{Ti,T2,…,Tg}，组中的所有神经元均为全连接，组j到组i的循环连接需满足Tj>Ti。CW-RNN的误差后向传播与传统RNN相似，误差在执行状态的隐藏层组进行传播。CW-RNN与传统RNN的区别在于：在第t步时，只有满足(tmodTi)=0的隐藏层组才会执行，每一隐藏层组的周期{Ti,T2,…,Tg}可任意选定。W与Win被划分为g个块：W=[w1,w2,…,wg]T、Win=[win1,win2,…,wing]T，式中：W为上三角矩阵。图1为t=6时，含5个隐藏层组的CW-RNN中输入输出关系的计算示意图。

图1 CW-RNN中输入输出关系图

文献[8]采用RNN、LSTM和CW-RNN三种RNN模型对仿真数据进行预测，三个模型的输入、隐藏、输出层的节点数均相同，且均仅有一个隐藏层。设定权值的均值为0，采用标准差0.1的高斯分布进行初始化，隐藏层的初始状态都为0，三个模型均使用随机梯度下降算法[8]进行数据的学习与优化处理。三个相关RNN模型均对仿真测试数据的前半部分数据进行学习、预测后半部分数据。实验结果表明：RNN模型类似于求平均值，LSTM模型的预测精度不如CW-RNN模型。因此本文采用CW-RNN模型对图像特征提取后的数据进行处理，并构造置信图以预测目标是否存在被遮挡现象。

2 算法设计

随着近年来机器学习领域中循环神经网络在数据预测方面的成功应用，借助循环神经网络以增强相关滤波器在目标跟踪领域的跟踪性能，本文提出一种新的判别式目标跟踪算法：引入时钟循环神经网络的核相关滤波跟踪(CW-RNN kernelized correlation filter tracking，CKT)算法，融合时钟循环神经网络与核相关滤波器进行运动目标跟踪。本文主要贡献在于：(1) 提出一种采用双方向CW-RNN构造置信图的方法鉴别背景或目标，检测目标在复杂背景环境下是否存在被遮挡；(2) 提出一种有效封闭形式的跟踪解决方案，融合时钟循环神经网络与核相关滤波器各自的优势，采用结合新、旧相关滤波器的方法对核相关滤波器(kernelized correlation filter, KCF)进行状态更新，并通过CW-RNN产生的置信图优化KCF的学习过程。

2.1 算法架构

图2为本文CKT算法的组成要素与架构。首先利用输入图像训练双方向CW-RNN以提取特征，借助置信图检测前景目标，在置信图与遮挡处理的基础上进行KCF的训练与更新，然后由CW-RNN提取的特征与KCF共同获取响应图，最终输出目标跟踪的结果。

图2 CKT算法的组成要素与架构

相关滤波器采用回归和循环矩阵进行核化处理[9]。将相关滤波器视为在线分类器对待，在训练集中获取输入xi及其类别属性yi之间的关系。假设关系为f(xi) =yi，训练问题可以视作为最小化目标函数ζ(z)[10]的过程：

(3)

式中：λ为防止过拟合的正则化参数；L(·)为损失函数；参数z计算如下：

z=(XTX+λI)-1XTy

(4)

式中：矩阵X的行是训练样本;y是相应类别属性的向量;I为单位矩阵。在频域进行计算，XT由X的厄密特转置矩阵替换，即XH=(X*)T。在核相关滤波器中[11]，通过引入核函数提升性能，将输入数据x映射到非线性特征空间φ(x)，则f(xi)可表示为：

(5)

引入核函数后，式(3)的求解关键在于α的计算[12]：

α=(K+λI)-1y

(6)

式中：Kij=k(xi,xj)，为避免通过计算逆矩阵求取α，引入以下循环矩阵X[11]：

(7)

式中：F是离散傅里叶变换矩阵。将式(4)封闭形式z的计算转化为：

(8)

参照文献[11]对候选目标区域的处理方法，将前一帧目标所在位置3倍范围内的图像区域选定为候选目标区域。如图2所示，将候选目标区域分隔为m×n的空间网格子区域，每一候选目标区域产生d个信道的HOG特征，由此产生特征集合U∈Rh×w×d，h和w分别为空间网格的高和宽。每一个空间网格子区域由一个顶点表示，则候选目标区域表示为图G={V，ε}，V={Vij}{i=1,2,…,h,j=1,2,…,w}表征空间坐标索引的顶点集，ε代表空间相邻顶点之间边的集合。通过遍历G设定CW-RNN的输入状态。为缓解局部遮挡或跟踪过程中目标表观变化的不利影响，采用自上而下、自下而上2个方向遍历G，即采用CW-RNN分别从上方和下方遍历候选目标区域，由双方向的CW-RNN构造置信图[7]，从而表征空间网格子区域成为背景或目标的概率。将置信图交叉熵损失函数E表示如下[7]：

(9)

式中：y∈C={0,1}代表空间网格子区域作为背景或目标区域;Pr(·)为置信度的输出概率。采用置信图引导CW-RNN模型的更新及辅助调整后续KCF的学习过程。KCF学习一组相关滤波器{fk}(k=1,2,…,d)，每一滤波器对应特征集合U={u1,u2,…,ud}中的一个HOG特征。将KCF的学习过程表示为以下最小化损失函数：

(10)

式中：符号*为空间卷积;符号☉为像素方向的乘积运算，由fk与k个信道特征进行卷积运算。通过来自CW-RNN的置信图，由权值η调整KCF模型的训练与更新过程。综合目标特征提取、遮挡处理、CW-RNN的训练与更新、KCF的训练与更新过程，CKT算法的整体算法复杂度为O((h×w)3+d×(h×w)2)。

2.2 算法执行与参数设置

1) 目标的特征提取：CKT算法使用HOG特征用于特征提取以进行跟踪任务。采集HOG特征并抽取一系列空间网格的4×4像素进行量化处理。

2) 遮挡处理：定义置信率为目标区域内概率值的累积。如果当前帧的置信率τ低于先前多帧τ的平均值，则认为当前帧中目标被遮挡。跟踪过程中，置信率τ的阈值设置为经验值0.8。采用来自CW-RNN的置信图,用于预测遮挡是否存在。当目标被预测为高概率遮挡时，KCF模型暂时不被更新。

3) CW-RNN的训练与更新：在目标跟踪过程中，由于预先可训练样本的数目有限，采用0.02的学习率与初始的5帧训练CW-RNN。后续帧中，CW-RNN以每间隔5帧的频度进行1次更新；经过初始5帧后，为避免CW-RNN出现过拟合现象，使用较小的学习率0.001对CW-RNN进行微调。

4) KCF的训练与更新：第1帧初始化KCF，后续过程则结合新、旧滤波方法对KCF进行状态更新。

3 实验

实验硬件平台：主机CPU Intel xeon E5V4-3.5 GHz,32 GB的RDIMM存储，NVIDIA GPU K80显卡。将CKT算法与3种相关的CF跟踪算法在VOT2016标准数据集[12]上统一采集HOG图像特征进行跟踪对比测试。图3-图5为采用基于核相关滤波的sKCF[13]、GGTV2[14]、SSKCF[15]和CKT算法对标准视频测试的图像序列，待跟踪目标的位置分别采用六边形框、椭圆形框、菱形框和矩形框标出。图3展示的视频为采用固定摄像机对运动目标拍摄；图4和图5展示的视频为采用移动摄像机对运动目标拍摄。图3跟踪难点为：第24帧开始后标识牌对运动目标的局部遮挡、目标行驶方向的变化。图4的跟踪难点在于：道路两边的灯光、汽车尾灯造成的路面灯光反射对跟踪的不利影响。图5的跟踪难点在于：被跟踪的车辆经过路面阴影区域与快速通过弯道的过程。这些跟踪过程中的不利因素极易导致目标跟丢。

图3 4种算法在dtneu_schnee视频上的跟踪图像序列

图4 4种算法在car2视频上的跟踪图像序列

图5 4种算法在racing视频上的跟踪图像序列

图3中待跟踪目标为(a)中的车辆，初始跟踪窗口30×22像素。从第24帧开始，目标受到标识牌的局部遮挡。从图3(a)-图3(d)中可以看出，sKCF算法从第148帧开始已经完全失去对目标车辆的跟踪能力；图3(b)说明SSKCF算法出现短暂的跟丢、跟踪在目标附近的车辆；在第3～178帧中GGTV2算法能够跟踪目标，而图3(d)第201帧中GGTV2算法则跟踪在目标车辆的后部；最为稳健的CKT算法从初始第3帧至第201帧始终成功跟踪目标。

由图4夜间目标跟踪过程清晰可见：至跟踪后期第393帧，CKT算法成功地跟踪目标车辆，而其余3种算法均不同程度地出现跟丢现象。由图5弯道中运动目标跟踪过程可见：从跟踪起始到第156帧，仅CKT算法始终成功地跟踪目标车辆，其他3种算法均出现一定程度的跟丢。针对VOT数据集中不同场景下的运动目标做进一步跟踪测试，跟踪场景涉及摄像机运动、光照强度变化、目标运动方向变化、遮挡和目标尺度变化等复杂情况。横向对比目前主流跟踪方法并量化跟踪结果，跟踪实验分为baseline实验和unsupervised实验。baseline实验为传统的采用跟丢复位的有监督跟踪实验；而unsupervised无监督跟踪实验则仅采用第1帧的真实数据初始化算法，后续跟踪过程利用跟踪算法自行跟踪目标。这两类实验均涉及包括bag-wiper在内的60个测试序列。在图像跟踪的若干评价标准中，跟踪精度(Accuracy)和鲁棒性(Robustness)是相关性最弱的两个指标，跟踪精度是跟踪成功状态下目标的预测位置与真实位置的平均重叠率。基于跟踪算法确定的目标边界框BT和实际目标位置的边界框BG共同计算目标被成功跟踪的评分s[16]：

(11)

由跟踪精度与鲁棒性构成AR图，依据所有测试序列的跟踪结果，不同的跟踪方法将被序列规范化排序，由此将AR图转化为更具标识度的AR-rank图[16]。在AR-rank图中，具备较小精度等级和鲁棒性等级的跟踪方法具有相对较优的跟踪性能。19种跟踪算法包括目前主流的TCNN[12]、DNT和 MDNet_N等算法，以及作为参照的IVT和MIL算法。19种跟踪算法中，TCNN 、MLDF和DNT 属于CNN跟踪；sKCF 、GGTV2、SSKCF和本文CKT算法属于核相关滤波跟踪；CCOT和STAPLEp属于采用不同特征的相关滤波跟踪；EBT属于支持向量机跟踪；IVT、MIL、 SRBT和CDTT属于表面模型跟踪；FoT属于团块跟踪。图6为19种跟踪算法的AR和AR-rank图。由图6(b)可见：作为参照的IVT和MIL算法的跟踪精度和鲁棒性排名靠后，位于左下方位置；本文CKT算法的跟踪精度在19种方法中排名第1，鲁棒性排名第4；由图6(d)可见：在鲁棒性等同的条件下，CKT算法的跟踪精度在19种方法中排名第1。统计19种跟踪算法的AR-rank综合评价数据，CKT算法A-rank为1.73，列19种跟踪方法的第1位；CKT算法R-rank为2.80，列19种跟踪方法的第4位。

图6 19种跟踪算法的AR图和AR-rank图

由于AR图与AR-rank图中的数据不能直接反映跟踪方法的优劣，从VOT2015开始引入平均期望重叠率(Expected average overlap ，EAO)，以该项指标综合表征跟踪算法在跟踪方面的整体性能。EAO也即非复位情况下的期望重叠率。不同于仅统计跟踪成功状态下的跟踪精度，EAO在整段跟踪过程中始终不对跟踪器进行复位，统计19种跟踪算法的EAO数据如图7所示。

图7 19种跟踪算法的EAO数据图

采用VOT实验的等价滤波器运算(Equivalent filter operations，EFO)统一度量不同跟踪方法的执行速度。EFO评价标准[12]使用600×600像素图像执行30×30窗口滤波，然后使用跟踪算法处理每帧图像，将图像的评价时间除以滤波操作时间，得到归一化的性能参数EFO。以VOT工具箱[12]中的NCC跟踪器作为衡量跟踪速度的基准，在台式计算机上NCC跟踪器执行速度达到140帧/秒、等价于200个EFO单位。将19种跟踪算法的EAO和EFO数据汇总于表1。由表1可以看出：综合baseline和unsupervised两项实验的结果，本文CKT算法EAO综合评价为0.443 9，列19种跟踪方法的第1位，显著优于同为相关滤波方法的GGTV2、sKCF、CCOT、STAPLEp和SSKCF；CKT算法的EFO为28.472，列第5位。

表1 19种跟踪算法的EAO和EFO数据

4 结语

针对交通视频大数据的车辆跟踪涉及的难点问题，为提高复杂城市路网环境下的车辆跟踪精度与鲁棒性，通过在核相关滤波中引入时钟循环神经网络，本文提出一种新的判别式目标跟踪CKT算法，采用双空间CW-RNN构造置信图的方法鉴别目标是否存在被遮挡，有效抑制复杂背景对稳健跟踪的负面影响。利用置信图引导时钟循环神经网络的状态更新及优化调整后续核相关滤波器的学习过程。经过针对VOT的60组标准测试序列的横向对比实验表明：涉及摄像机运动、光照强度变化、目标运动方向变化、遮挡和目标尺度变化在内的复杂跟踪情况，对比目前主流目标跟踪方法，CKT算法的跟踪数据A-rank达到1.73，R-rank为2.80，EAO综合评价高达0.443 9，EFO为28.472，分别列19种跟踪方法的第1位、第4位、第1位、第5位。CKT算法的跟踪性能优于同为相关滤波方法的GGTV2、sKCF、CCOT、STAPLEp和SSKCF算法。CKT算法改善了传统核相关滤波器在跟踪过程中存在的不适应光照变化、不抗遮挡等弱点问题，可以适应跟踪过程中的目标实时表观区域变化，有效降低目标跟踪算法的误差累积。采用双空间CW-RNN构造置信图引导时钟循环神经网络的状态更新，对核相关滤波的跟踪性能提升效果显著。未来将尝试对背景区域图像构建有效的背景模型，以进一步提高算法的在线跟踪性能。