基于CAMDNet的视频目标跟踪算法

2023-10-09 01:46贾金露姚自强赵玉卿钱育蓉

计算机应用与软件 2023年9期

关键词：成功率注意力卷积

贾金露姚自强赵玉卿钱育蓉

(新疆大学软件学院新疆乌鲁木齐 830046)

(新疆大学软件工程重点实验室新疆乌鲁木齐 830046)

(新疆维吾尔自治区信号检测与处理重点实验室新疆乌鲁木齐 830046)

0 引言

目标跟踪技术作为计算机视觉领域的主要研究热点,普遍应用于视频监控、城市交通、人机交互、医疗技术、军事等领域[1],其主要作用是在获取的视频图像中定位目标,并在接下来视频帧中对其跟踪[2]。随着计算机软硬件性能和人工智能技术的迭代更新,对目标跟踪实际应用算法提出了新的要求,如何在背景杂乱、目标遮挡以及目标自身尺度变化等复杂环境下也能保证跟踪算法的稳定性和准确性,成为当前计算机视频跟踪领域难点之一[3]。

目前解决目标跟踪问题的模型分为两大类:生成式模型(Generative Method)和判别式模型(Discriminative Method)。基于生成式模型的跟踪方法的核心思想是在当前帧对目标区域建模,下一帧中以相似性度量为准则,搜寻与目标模型最相似的区域即为预测的目标位置,并更新目标区域模型。代表作有Kalman滤波[4]、SINT[5]和CST[6]。基于判别式模型的跟踪方法运用机器学习的思想将目标跟踪问题看作是二分类问题,在当前帧中将目标区域和背景区域作为两个类别的训练样本,运用机器学习的方法训练最优判别函数,在后续帧中使最优判别函数最小的区域即为目标位置所在区域[7]。经典判别式有RPAC[8]、KCF[9]和STRCF[10]算法等。深度学习的发展为目标跟踪带来了新的研究方向——基于CNN的目标跟踪算法[11]。MDNet[12]算法是一种轻量型CNN架构,通过从多个标注的视频序列中学习目标的共有属性进行目标跟踪[13]。但MDNet算法对所有通道采用同等对待方式[14],没有重点关注目标通道信息,导致目标特征表达包含较多无关信息,限制网络的判别能力;采用传统卷积方法,面对尺度变化、比例变换、旋转和纵横比等几何形变问题时,网络特征表达能力不足,导致跟踪精度较低、健壮性较差。

针对上述问题,本文提出基于注意力机制的多域卷积神经网络(Channel Attention Multi-domain Convolutional Neural Network,CAMDNet)。在网络卷积层Conv1和卷积层Conv2之间,引入高效通道注意力机制(Efficient Channel Attention,ECA)[15],使网络更加关注与目标相关的通道信息,重点提取目标有效特征信息,提高网络在背景杂乱和目标遮挡情况下对目标的特征提取能力。在卷积层Conv3选用可变形卷积(Deformable ConvNets v2,DCNv2)[16]取代传统卷积层,加强网络处理跟踪目标发生比例变换、旋转和纵横比等几何形变的能力。实验表明,CAMDNet具有较好的跟踪性能。

1 相关工作

1.1 基于CNN的目标跟踪

基于CNN的目标跟踪算法可以从大量训练集中自动学习目标的所有有效特征,取得了较好的跟踪效果。如Danelljan等[17]提出的C-COT算法通过插值方法将学习检测过程推广到连续空间域,获得了较好的跟踪效果,但计算量较大,跟踪速度较慢。ECO(Efficient Convolution Operators)算法[18]采用卷积分解、样本紧凑和鲁棒性较好的更新策略对C-COT进行改进,在保障跟踪精度的同时大大提升了跟踪速度。Li等[19]提出的TADT算法通过筛选目标定位信息来提高模型鲁棒性。Huang等[20]采用深度特征级联自适应跟踪方法(EArly-Stopping Tracker-EAST),将自适应跟踪问题转换成为决策过程,通过端到端的方式训练与跟踪目标相匹配特征,从而获得更好的跟踪结果。MDNet算法通过利用多域学习对网络进行离线训练,并根据跟踪目标特性进行网络在线更新,取得了较好的跟踪结果[21]。

1.2 基于通道注意力机制的目标跟踪

通道注意力机制以其自身优势广泛应用于目标分类[22]、目标跟踪[23]和姿态估计[24]等领域。通道注意力机制帮助网络学习有效的特征表示来提高网络跟踪性能[25]。通道注意力机制给每个通道信号赋予一个权重来表明通道对关键信息的作用度,权重越大代表相关度越高,越需要注意该通道信息。代表作Squeeze-and-Excitation Network(SENet)[26]通过对每个卷积块加入通道注意力机制,在各种CNN架构上都获得明显的性能提升。Li等[27]提出的FICFNet跟踪算法利用通道注意力机制将浅层特征和深层特征进行自适应集成来进行端到端网络训练,有效提升了跟踪算法的性能。Qin等[28]提出的IMG-Siam跟踪算法结合通道注意力机制和超像素光照算法来融合目标特征,融合后的目标特征不仅有目标外观的细节信息还包含更多结构信息,可以有效地平衡跟踪速度和跟踪精度。Yang等[29]提出的MemDTC跟踪算法使用基于通道注意力的长短期内存(LSTM)控制器控制使用内存,使跟踪器在跟踪过程中可以应对目标外观变化情况。Rahman等[30]提出的SCSAtt跟踪算法将通道注意力机制和空间注意力机制结合,可以使网络在卷积过程中完善中间特征,从而有效地集中于有用的特征信息。

2 基于注意力机制的多域卷积神经网络

2.1 网络架构

本节详细介绍本文的CAMDNet网络结构,通过在网络结构中引入高效通道注意力机制进行特征筛选,加强目标特征表达能力,并采用可变形卷积提高模型对几何形变的应对能力,在不深化网络的前提下充分挖掘特征潜力,网络结构如图1所示。该网络具有三个卷积层和三个全连接层。卷积层用于进行特征提取,通道数依次是96、256、512,ECA模块通过自学习邻近通道的相互关系,提高网络对目标特征的关注度并抑制无关特征。卷积层Conv3选用DCNv2取代传统卷积,解决网络在几何形变情况下容易出现目标丢失、跟踪失败问题,加强网络健壮性。全连接层用于区分背景和目标,Fc4-Fc5表示目标和背景特征,Fc6为目标特定层,具有k个分支,每个分支均使用Softmax函数来区分背景和目标,灰色为目标,黑色为背景,每个视频序列对应一个分支。

图1 CAMDNet网络结构

2.2 高效通道注意力机制

通道注意力机制是常用获取通道关系方法[31],通过整合所有特征图来提高网络对互相关通道的关注度,从而有选择地提取重要通道的特征信息。但通道注意力机制在生成通道权重时需要通过降维来降低模型复杂度,降维操作会严重影响通道关注度的预测。高效通道注意力机制是对通道注意力机制的改进,仅考虑邻近通道之间的相关性,可以在不降维的前提下,加强网络特征表达能力并减少计算参数的引入。

与基于通道注意力机制的跟踪算法相比,本文提出的网络利用高效通道注意力机制特性,通过学习邻近通道间的依赖关系,实现无降维的局部跨通道交互,减少计算负担。

CAMDNet网络的高效通道注意力机制是在卷积层Conv1和卷积层Conv2之间嵌入ECA模块,将其作为具有判别性的特征筛选器。通过考虑通道及其K个邻居之间关联性来捕获局部交互关系,过滤无用信息,保留对目标有贡献的特征信息,使网络集中于跟踪目标的有效特征,降低无用特征干扰,加强网络的表征能力,解决网络在背景杂乱和目标遮挡情况下跟踪精度较低问题。ECA模块结构如图2所示。

图2 ECA模块结构图

对Conv1提取到的51×51×96特征,利用全局平均池化操作将其转变为1×1×96的表示特征通道全局信息的实数,该过程没有参数引入。并依据已知通道数,利用如式(1)所示的通道尺寸自适应函数求出参与通道权重计算的邻近通道个数K。

(1)

式中:|C|odd表示与通道C最接近的奇数,参数r和b本文分别设为2和1。利用一维卷积实现无降维局部跨通道交互,捕获每个通道与邻近K个通道的相关性,再通过Sigmoid函数获得归一化权重值w,最后将权重值通过乘法加权到原始特征上,完成原始特征在通道维度上的二次标记并输入下一层。权重值w计算如下:

(2)

2.3 可变形卷积

目标尺寸变化是计算机视觉中一个长期存在的问题[32],STN[33]是第一个学习平移不变性的深度CNN网络,应用全局仿射变换扭曲特征图来解决平移不变性问题。MACNN[34]通过在卷积网络加入空洞卷积来扩大卷积层的空间支持,其填充参数是通过精心挑选和预先确定的,空间支持受静态参数控制。以上方法采样操作固定,每个像素点的接受域大小相同,没有充分利用高级语义信息,无法应对视觉任务中的复杂几何变化情况。DCN[35]通过学习目标偏移信息,使网络用局部且密集的方式采集特征图,有效提高了网络对几何变换的学习能力。DCNv2在DCN基础上加入调制机制,每次采样过程中不仅学习偏移信息,还根据学习到的调制权重进行调节,针对调制权重为0的位置选择直接忽略,提取更多集中于有效区域的信息,使网络可以学习更加复杂的几何变换,在提高精度的同时避免带来大量计算成本。

与基于CNN的跟踪算法相比,本文提出的网络采用可变形卷积取代传统卷积,学习目标偏移信息,并通过调制权重进行位置信息筛选,加强网络在目标发生复杂几何形变情况下的学习能力。

CAMDNet网络Conv3采用DCNv2来增强网络对复杂几何变换的学习能力。DCNv2模块卷积过程如图3所示。先对输入特征图(256×5×5)进行1×1卷积,卷积层通道数为768,前512个通道对应输入特征图上每个位置在x轴方向和y轴方向的可学习偏移量,后256个通道用来获取每个位置的调制权重值。然后将偏移量和调制权重加权到输入特征图上,因偏移量通常不为整数,需要通过双线性插值进行偏置映射。最后对带有偏置映射的输入特征进行3×3卷积获取输出特征图。DCNv2的特征值计算公式如下:

图3 DCNv2卷积示意图

(3)

式中:x(p)为输入特征图上像素点p的特征;y(p)为输出特征图上像素点p的特征;wk为学习权重;pk为预先指定偏移量,pk∈{(1,0),…,(0,1),(1,1)};Δpk为像素点k的可学习偏移值;Δmk为像素点k的调制权重,取值范围为0～1,Δmk和Δpk通过在输入特征图上应用单独卷积层计算获得。

2.4 训练与跟踪

1) 离线训练。

本文使用在ImageNet-Vid[36]上预先训练好的网络参数初始化网络结构。为了学习到不同视频序列中的共有属性,离线训练时选用候选框与真实框的重叠交并比(IoU)选取正负样本,设定IoU大于0.7为正样本,IoU小于0.5为负样本。对于每次迭代训练,从某一视频域中随机选取8帧图片来构建小批次样本,并通过正负样本定义从每帧图像中选取32个正样本和96个负样本,总共生成256个正样本和768个负样本,每个视频序列均对应一个自己的FC6层来存放该视频序列的特有属性,通过这样的训练方法来学习不同视频序列的共有属性。网络每50次迭代进行一次更新。

2) 在线跟踪。

(1) 模型初始化。在线跟踪时,删除多分支全连接层,并在网络末端添加一个随机初始化的单分支全连接层以用于测试视频序列。模型初始化时,采用均匀随机方式创建1 000个训练样本,1 000个样本依次输入网络,利用线性回归算法对边框回归函数进行参数更新。根据离线训练的IoU标准,使用高斯分布随机方法在带有真实框标注的第一帧图像上选取50个正样本和5 000个负样本,设置FC4/FC5学习率为0.000 1,FC6学习率为0.01,网络迭代30次来更新FC4-FC6参数,保证网络更适用于当前跟踪目标。

(2) 目标跟踪。针对每一帧待测试图像,以上一帧图像目标位置为中心,利用高斯分布形式生成256个候选框,将候选框裁剪为107×107大小后输入网络进行计算,最后由FC6层的Softmax函数输出候选框得分数,选取得分最高的5个候选框,将其x轴坐标、y轴坐标、长度和宽度的平均值作为预测结果。

(3) 模型更新。为了保证模型的健壮性和精准度,本文网络采用长期更新和短期更新相结合的在线更新方式。每10帧进行一次长期更新,但当跟踪结果不可靠时(目标得分小于0.5),触发短时更新,并将上一帧跟踪结果作为当前帧跟踪结果。为了平衡正负样本不平衡问题,在每一次迭代过程中采用困难样本挖掘技术获取困难负样本并加入到后续迭代过程中,加强网络辨别能力,提高模型健壮性。

3 实验

3.1 数据集及评价指标

本文使用基准数据集OTB50[37]和OTB100[38]评估CAMDNet算法的性能。OTB50包含50个完全注释的视频序列,OTB100是OTB50的扩展,包含100个完全注释的视频序列。这些视频序列共有11个属性,分别是:背景杂乱(BC)、目标变形(DEF)、快速运动(FM)、平面内旋转(IPR)、光照变化(IV)、低分辨率(LR)、运动模糊(MB)、目标遮挡(OCC)、平面外旋转(OPR)、视线外(OV)和尺度变化(SV)。一个视频序列可能带有多个属性,而某些属性会比其他属性出现频繁,例如IPR和OPR。此外,目标的尺寸大小和位置信息在每个视频序列中都已进行标注,用于模型评估。

(a) 中心位置误差 (b) 重叠面积比

(4)

式中:Rtr表示目标真实边界框;Rgt表示跟踪结果的预测框;∪和∩表示两个区域的交集和并集。本文使用单次通过方式(One-pass Evaluation,OPE)精准率和成功率完成模型评估,并使用成功率图中曲线下面积值(AUC)对跟踪算法进行排名。参数标准遵循OTB100默认设置。

3.2 实验环境

本文实验是在CPU Intel Xeon 3.60 GHz,32 GB内存,Windows 10系统下搭建PyTorch平台环境下进行。实验环境的配置参数如表1所示。

表1 实验环境的配置参数

3.3 实验对比分析

为了证明本文算法的合理性,采用OTB100数据集作为本节实验的评定基准,将ECA模块和DCNv2嵌入CAMDNet模型中,并探究验证ECA和DCNv2对跟踪结果的影响。实验是在相同的计算平台下实现的,以便公平地进行比较。

图5为CAMDNet算法与MDNet算法的跟踪结果对比,表2为11种属性的对比结果。由实验结果可知,CAMDNet比MDNet整体精准率和成功率提升2.25%和2.6%,证明本文算法可以有效处理各种挑战性场景,且在背景杂乱、目标变形、目标遮挡和平面外旋转这些属性下表现尤为突出。MDNet-ECA是在MDNet网络结构中引入ECA模块,跟踪精准率和成功率分别提升1.1%和2.4%,在背景杂乱、目标遮挡和尺度变化三种属性下提升较大,分别提升0.28%、1.17%和0.88%,表明ECA模块使网络更多关注与目标有关的特征信息,即使在目标遮挡和背景杂乱情况下,网络仍表现出较好的跟踪性能。CAMDNet算法是在MDNet模型中引入ECA模块和DCNv2,跟踪结果得到进一步提升,且在目标变形和平面外旋转两种属性下提高尤为突出,分别提升0.46%和0.58%,表明DCNv2有助于提高模型对目标尺度发生变化的特征学习能力,提升跟踪性能。

表2 跟踪算法在11种属性下的跟踪成功率(%)

(a) 精准率对比图(b) 成功率对比图

表3显示了嵌入ECA模块不同组合的跟踪性能,ECA1代表在卷积层Conv1后嵌入ECA模块,ECA12代表在卷积层Conv1层和卷积层Conv2层后均嵌入ECA模块。由实验结果可知,ECA1组合算法跟踪效果最优,精准率为90.56%,成功率为67.36%。因为浅层网络可以提取较多纹理特征和细节特征,ECA作为特征筛选器,过滤掉无用特征和背景干扰信息,保留目标有效特征,加强网络对目标的表征能力。表4显示了ECA1与DCNv2不同组合的性能,DCN1代表在卷积层Conv1选用DCNv2,DCN12代表在卷积层Conv1和卷积层Conv2均选用DCNv2。由表4实验结果可知,ECA1+DCN3组合算法性能整体最佳,精准率为91.89%,成功率为67.44%。因为深层网络提取较多目标轮廓、形状、语义信息,具有较强的目标代表性,使DCNv2能更好地收敛到目标区域内,减少周围无用信息的影响和干扰,提升网络对目标的定位能力。

表3 ECA模块不同组合的跟踪结果(%)

表4 ECA与DCNv2不同组合的跟踪结果(%)

3.4 与现有方法对比分析

为了进一步证明本文算法的有效性,与当前跟踪效果较好的11个跟踪算法进行定量比较,且这些跟踪算法代码均已公开,其中:ECO[18]、C-COT[17]、MDNet[13]、RT-MDNet[41]、TADT[19]、BACF[42]和MUSTer[43]是基于CNN网络的跟踪算法;MemDTC[29]和SCSAtt[30]是基于通道注意力机制的跟踪算法;DaSiamRPN[39]和UDT[40]是基于孪生网络的跟踪算法。图6和图7表明了在OTB50和OTB100数据集上的跟踪结果。

(a) 精准率对比图(b) 成功率对比图

可以看出,CAMDNet算法在跟踪精准率和成功率方面较MDNet均有提高。在OTB-50数据集上精准率达到88%,成功率达到63.16%。在OTB-100数据集上精准率达到91%,成功率达到67.44%,分别比MDNet算法提升2.25%、2.6%。

CAMDNet算法跟踪精准率最高。从图6(a)和图7(a)中看出,本文算法精准率均高于其他跟踪算法。在基准数据集OTB100的实验结果中,比基于CNN网络的ECO、C-COT、MDNet和TADT算法分别提高了1百分点、3百分点、2百分点和5百分点。比基于通道注意力机制的MemDTC和SCSAtt算法分别提高了7百分点和6百分点。基于孪生网络算法DaSiamRPN提高了4百分点,表明高效通道注意力机制可以增强网络特征表达能力,解决背景杂乱或目标遮挡下跟踪精准率较差问题。

CAMDNet算法在跟踪成功率方面达到次优结果。从图6(b)和图7(b)中可以看出,本文算法成功率优于大多数对比算法,在基准数据集OTB100的实验结果中,与跟踪效果最好的ECO算法仅差1百分点,比基于CNN网络的C-COT、MDNet、TADT和RT-MDNet算法分别提高了1.69百分点、1.7百分点、1.89百分点和2.84百分点,比基于通道注意力机制的MemDTC和SCSAtt算法分别提高了4.87百分点和4.11百分点,比基于孪生网络算法DaSiamRPN提高了2.07百分点,说明可变形卷积可以有效解决复杂几何形变情况下跟踪成功率较低问题。

4 结语

本文算法是基于MDNet算法的改进,通过引入ECA机制使网络所提取特征集中于目标本身,剔除一些无关信息,增强网络对目标的表征能力,解决在背景杂乱或目标遮挡情况下跟踪精准率较低问题;用可变形卷积替代传统卷积的改进措施来提高模型对几何形变的学习能力,提升网络的健壮性,解决目标变形、快速移动平面外旋转等目标外观发生变形情况下模型跟踪成功率较低问题。实验证明了CAMDNet算法的有效性,跟踪精准率和跟踪成功率较MDNet算法提升2.25%和2.6%,下一步研究工作将考虑使用锚点机制生成候选框来提升模型跟踪速度和跟踪精度。