基于深度学习的视觉跟踪算法研究综述

2019-03-28 09:52

福建质量管理 2019年23期

(华北电力大学控制与计算机工程学院北京昌平 102200)

一、前言

视觉跟踪技术是计算机视觉研究领域的一个重要的研究方向，并且在现实生活中有着很重要的应用，比如正在发展中的自动驾驶、导航、监控等等。在进行视觉跟踪的时候，根据第一帧中的目标图片，实现识别后续视频帧中的所跟踪的目标。在跟踪过程中，由于背景变化、运动模糊、部分遮挡、光照变化、形态变化等诸多因素，使得开发一款实时并且跟踪效果准确的跟踪器成为一项巨大的挑战。

传统的视觉跟踪方法需要人为的设置需要提取的特征种类，实验结果表明这类跟踪算法的鲁棒性并不能满足视觉跟踪的需求。而深度学习可以通过多层非线性变换自动提取丰富特征，并且在计算机视觉、语音识别和自然语言处理方面取得丰硕成果。受这些突破的影响，在过去的几年里，很多学者将深度学习应用于视觉跟踪领域，并且取得一个又一个里程碑。

本文中我们主要分析目前为止，在基于深度学习视觉跟踪中用到的相关技术，主要从基于卷积神经网络(CNN)的视觉跟踪、基于循环神经网络(RNN)的视觉跟踪和基于强化学习(RL)的视觉跟踪三个方面进行分析。我们分别分析基于这三类跟踪器的原理，最后对基于深度学习的跟踪算法进行总结。

二、基于深度学习的三类跟踪算法

(一)基于CNN的卷积神经网络

基于CNN的模型适用于提取图片的丰富特征，实验证明该模型具有强大的图片特征提取能力和图片分类能力，它的出现推动了视觉跟踪算法的发展。与传统的视觉跟踪算法相似，基于CNN的跟踪算法分为生成模型和判别模型的跟踪算法。生成模型的跟踪算法在搜索区域通过搜索与模板最佳匹配区域来计算目标的预测位置。基于分类模型的跟踪算法是一个二分类算法，通过模型计算搜索区域是否为目标，以此将被跟踪目标与周围的背景图片有效的分开实现目标跟踪。

基于判别模型的跟踪算法会有一个二分类函数，二分类函数基于从第一帧图片中采集的正负样本或者基于后续跟踪过程中采集的正负样本集训练得到，用于判断跟踪过程中搜索区域是否为跟踪目标。在[1]中Ma等根据VGGNet模型中不同卷积层中鲁棒性和空间分辨力的不同的特点，用三个不同的卷积层(Conv3-4，Conv4-4和Conv5-4)的特征向量构造了三个二分类函数实现跟踪。

基于生成模型的跟踪器使用卷积神经网络来生成一个模板匹配函数，通过该函数计算模板与搜索区域的匹配值。比如Tao等人在[2]提出了一种暹罗网络模型来匹配对象模板和候选对象以进行视觉跟踪，其中可以基于最高匹配分数来确定最佳状态。Bertinetto等在[3]开发了一个全连接的暹罗网络，以卷积的方式匹配对象模板和当前搜索区域。

(二)基于RNN的神经网络的视觉跟踪

循环神经网络模型适用于输入时连续的序列，其神经元的输出可以在下一次直接应用于其自身。在手写识别或语音识别方面的一些研究工作的推动下，人们进行了一些尝试来利用视觉跟踪中的空间配置之间的语义信息以及帧之间的时间关联。

崔等人在[4]提出了一种基于RNN的视觉跟踪方法主要解决遮挡等问题，该算法的思想与SRDCF等思想类似。作者将候选区域进行网格划分，每个网格区域使用的RNN模型是从四个不同方向进行运算输出结果为置信度图，然后用置信度图初始化SRDCF的损失函数的惩罚项，这使得外观模型对于部分遮挡具有鲁棒性。宁等人[5]研究时域中的长短期记忆(LSTM)的回归能力，并提出将卷积网络产生的高级视觉特征与区域信息连接起来。

(三)基于强化学习的视觉跟踪

强化学习是机器学习的一个领域，它是一种决策学习过程，通过对一个决策做出奖励或者惩罚，进而促进其行为沿着我们期望的方向进行的一种学习方式。强化学习在很多领域取得不错的结果，尤其是游戏领域，很多款游戏甚至超过人类水平，比如谷歌旗下人工智能研究部门DeepMind发布的新版AlphaGo。

近几年很多学者也尝试将强化学习用在视觉跟踪领域，并取得一定成果。比如Yun等人在[6]通过使用强化学习产生一系列动作在新的一帧中寻找目标的位置和大小来实现跟踪，相比如传统的深度学习的跟踪器，该算法满足跟踪中需要的准确定位、适应目标尺度变化，并且实现了轻量级计算，在GPU上甚至可以达到实时性。Chen等人在[7]中提出用强化学习去探索连续的跟踪动作结果，与[6]相比不同之处在于不是多经过多次移动来定位跟踪目标的位置，而是直接一次计算出来，使得跟踪器移的边界直接移动到目标对象的位置。

三、总结

由于跟踪过程中目标的形变、遮挡等诸多因素的影响，以及实时性需求，目标跟踪问题一直是计算机视觉领域的一个具有挑战性的研究问题。虽然深度学习强大的特征提取能力促使目标跟踪取得一系列重大进展，但是我认为基于深度学习的目标跟踪仍然面临以下以下几个方面的挑战：1.训练样本少：在初始化网络的时候正样本单一，都是基于第一帧图片中的目标得到的；负样本截取的第一帧的背景图片，与正样本区分度比较大。这样的样本用来训练网络使得网络容易过拟合。2.在线网络调整容易促使网络退化：通常在跟踪过程中收集正负样本更新跟踪器，但是如果收集到的样本中存在错误样本，比如发生遮挡、漂移的时的样本集，会促使网络退化。3.实时性差：基于深度学习的跟踪网络计算量大，实时性有时候比较差。