小样本目标检测综述

2021-05-08 08:14刘浩宇王向军
导航与控制 2021年1期
关键词:样本检测模型

刘浩宇,王向军

(1.天津大学精密测试技术及仪器国家重点实验室,天津300072;2.天津大学微光机电系统技术教育部重点实验室,天津300072)

0 引言

深度学习目标检测技术很大程度上依赖于样本数据的分布和数量,若要实现良好的目标检测效果,就需要有足够数量的已标注样本的支持。标注样本会引入较高的制作成本,阻碍了人工智能的产业布局。近两年来,学界开始改变之前的模型训练方式,关注用少量的数据来达到较好的检测效果,用少量数据学习得到具有良好效果的模型的思想可以很大程度上提高深度学习在军事、航空航天领域的布局能力,在一些数据样本不容易获得或样本容量较小的应用场合,如国防军工领域,这样的问题尤为突出。

深度学习目标检测方法在早期应用过程中采用了大量标注样本回归候选框的位置[1],但是随着人工智能应用的推进,目标集与训练集数据分布不同导致检测效果下降的问题慢慢出现[2]。在没有大量样本的支持下,小样本检测应用就需要使用先验知识来弥补样本的不足。根据目标检测的理论数学模型,解决问题的方法大体上可以分为三类:数据域、模型域和算法域。数据域的解决方案就是通过先验知识来做数据增强,通过数据量的增大解决模型不收敛的问题;模型域的解决方案是通过先验知识来限制模型复杂度,降低假设空间的大小,使得模型收敛加快;算法域的解决方案则是通过先验知识来提供一个更快捷的搜索策略[3]。三种策略均可在一定程度上提升检测效果。

本文对小样本目标检测问题进行了归纳整理,介绍了一种分析目标检测问题的数学模型,并在其基础上总结了几类可行的小样本检测方法。之后,对类似的深度学习应用问题进行了区分。最终,在分析了目前小样本目标检测方案存在的问题后,给出了未来小样本目标检测可能的发展趋势。

1 小样本目标检测的数学模型

运用深度学习的方法解决目标检测问题时,首先需要明确深度学习方法的最优化模型,即建立数据、模型和训练算法之间的关系。Wang等[3]面向广义的小样本学习问题从误差理论的角度给出了一种模型分析方案,Mitchell[4]则从先验知识和经验理论的角度分析了机器学习任务中提升检测性能的方案。在此基础上,可以分析目前小样本目标检测任务效果不佳的理论误差来源,并根据数学模型对现有的解决方案进行分类。

1.1 目标检测应用的数学模型

采用深度学习的方法处理目标检测问题时,一般的检测流程为:数据集的获取与标注,网络模型的初始化,模型参数的训练与优化等。在经过多次迭代训练后,可以获得一个适应于该数据集的最佳模型以部署检测应用。

借助机器学习的模型理论,在一个小样本目标检测应用M中,给定一个用于训练和测验的数据集D=Dtrain+Dtest,该数据集中包括了训练集和测试集Dtest=xtest,其中的I值一般较小。假设解决应用M的真实模型为,真实模型往往很难达到。而深度学习的训练方法就是指定一个模型空间P,并在P中寻找某个最接近于的模型。模型空间P是由工程师选择的模型参数的初始化分布决定的,而的寻找过程就是一个通过训练算法实现参数最优化的过程,实际训练中和往往都无法达到。

该过程的实现方式为:在给定的训练集Dtrain下,最小化目标检测应用的损失函数,包括图像分类、检测框回归等,不同的最小化损失函数可以概括为

式(1)中,W为通过训练得到的模型,θ为模型W的具体参数,l为实现某项应用的损失函数,训练算法就是在假设的模型空间P中搜索W的参数θ的过程。

1.2 目标检测应用的误差理论

深度学习的训练过程实际上是通过训练集来拟合实际测试中的真实分布p(x,y)的过程,由训练得到的分布和真实分布往往不一致,这中间的差值称为期望风险,表达式如下

让期望风险最小化才能逼近真实分布,但因为实际测试中的真实分布不可知,所以绝对最小化期望风险是无法实现的。在深度学习中,通常用模型误差E来替换期望损失,模型误差就是在训练集上根据最佳模型W预测的结果和真实结果的差异,其表达式为

可以进一步将上述误差分解为[5-6]

则Ep即为模型假设误差,表示的是假设分布和真实分布的差距,体现了假设空间描述数据真实分布的能力;EW即为模型训练误差,表示的是该假设空间中训练结果和最佳结果之间的差距,体现了训练结果描述真实分布的能力。大样本和小样本训练的效果对比如图1所示。

图1 大样本与小样本效果对比Fig.1 Comparison of the effect between large sample and small sample

对于训练误差EW,样本数量I足够大时,有

在以往的深度学习方式中,目标检测任务的实现往往依赖于大量的样本数据,因此EW是很小的。但是在小样本目标检测应用中,样本容量受限,因此EW往往是很大的。所以,此时采用传统的训练流程是很难获得良好检测效果的。因此,需要针对上面的问题寻求新的解决方案。

2 数据域的解决方案

数据域的增强方式较多,也一般被研究者所采用,其基本原理是通过样本容量的增加,增加参数优化与迭代的次数,从而使训练模型W更接近最佳模型,如图2所示。数据域的数据增强方式大体上可以分为两类。

图2 数据域解决方案原理Fig.2 Principle of data domain solution

2.1 转化原有数据集Dtrain

在不引入额外的标记数据的情况下,可以通过两种方式增强数据:1)图像增强:采用图像变换增加样本容量,常用的图像变换方式包括图像翻转[7]、图像剪切[8]、图像缩放[9]、图像旋转[10]、图像亮度变换[11-13]、图像色调和饱和度变换[11-13]等,图像变换可以提升一些训练效果,但作用有限;2)图像转换:通过类似应用的先验知识,将原有数据集扩增为新的数据集,引入新的特征信息,但类似应用的先验知识往往是不容易得到的。

Hariharan等[14]通过类比的方法将从其他类似的类中学习到的样本对之间的差异转移到原数据集中以提高分类精度;Dwibedi等[15]通过剪切和粘贴的方式在训练图像上添加新对象来扩充数据;Lemley等[16]提出了一个网络结构,试图通过合并来自同一个类的两个或多个样本来生成新数据;Zoph等[17]提出了一种自动检索并采用可行的符合应用任务特点的图像增强方案AutoAugment,创建了一个数据增强策略的搜索空间,利用搜索算法选取适合特定数据集的数据增强策略,其尝试的数据增强策略共计22种,可以概括为:色彩变换(扭曲颜色通道,而不影响包围框的位置,如对比度、亮度等)、几何变换(几何尺度上扭曲图像,相应地改变包围框注释的位置和大小,如旋转、剪切、平移等)、包围框变换(只扭曲包围框注释中包含的像素内容,如候选框旋转、候选框翻转等)。其方案特别有益于数据集和小目标的检测,具体取得的效果如表1所示。

表1 AutoAugment算法在小样本数据下的表现Table 1 Performance of AutoAugment algorithm in small datasets

深层的目标检测网络通常是从大规模数据集中学习的,其样本容量应足以估计其粗略的分布特征。但是,小样本检测任务中只提供了少量的监督信息,如不扩充样本,不引入额外的监督信息,很难得到样本的泛化特征,所提升的效果也非常有限。如Zoph等[17]通过自动搜索数据增强策略空间的方式,遍历了22种方案,但是对于小样本下的表现也只能做到1~2的精度提升。尽管如此,转化原有数据集的方式不需要过多地考虑样本的属性和任务的特点,可以作为图像预处理的步骤而被普遍地使用。

2.2 迁移其他数据集

在图像领域的目标检测应用中,目标的未标记数据集很容易获取并被人眼辨识,故可以通过有相同目标存在的大量数据来扩增数据,通过由原有数据集Dtrain学习来的模型W为这部分数据生成标注,共同投入训练。相似数据集需要与原有数据集Dtrain有一些共同属性,并且包含足够的监督信息,以作为一个可以提供更多信息的数据源。

另一种可行的方式是引入大量且数据分布相似的数据集,如在检测虎时引入猫的数据集作为补充,这类数据需要满足模型空间P的要求。但是,这类的数据集质量往往较低,故目前流行的一种方法是引入对抗生成网络产生与训练集Dtrain分布相同的数据作为补充。

Douze等[18]通过标签传播的方式设计了一种基于大量图像集合的半监督方法来支持标签传播,用数亿的图像实现了在小样本检测下的高准确率。Wang等[19]首先提出了一种对抗网络用来自我生成遮蔽与变形例子,进行难例挖掘,结果小幅度提升了物体识别的准确率。Ratner等[20]使用生成对抗网络的方式生成数据增强的操作序列。Tang等[21]提出了一个提案学习方法来学习其他未标记数据的特征和预测未标记的数据,引入了完全未标记的数据提升了整体检测网络的准确性。Nguyen等[22]将未标记图像的训练作为一种潜在变量模型,提出了一种基于期望最大化的未标记图像半监督目标检测方法,对目标检测的分类部分和定位部分进行了潜在标签估计,并对模型进行了优化。相较于监督学习,其在COCO数据集上取得的效果如表2所示。Huang等[23]则借助GAN通过白天的数据生成了夜间的数据,其具体效果如图3所示。

表2 半监督学习相较于监督学习性能的提升效果Table 2 Comparison between semi-supervised learning with supervised learning

图3 运用AugGAN进行数据域增强的实例Fig.3 An example of data domain enhancement using AugGAN

弱标记和未标记的样本数据的收集相较于人工标记样本较为廉价,然而伴随着廉价的优势,产生的是样本的低质量,弱标记样本中存在着错误标注、不完全标注等影响样本质量的问题。此外,为了找到适用于小样本检测任务的额外数据,从海量的数据库中挑选高质量相似数据集的成本也是很昂贵的。

总而言之,由于被检测目标的真实分布p(x,y)不可知,绝对准确的先验知识是不可获得的。数据域的解决方案是增强原有数据集对真实分布的近似,当增强方法不当时,反而可能引起数据的偏移,造成期望风险的扩大。但是在小样本目标检测任务中,考虑提升检测效果的第一途径就是对样本的修饰和增强,因此数据域的解决方案广泛应用于各种目标检测优化方案中。

3 模型域的解决方案

目标检测所采用的模型决定了模型空间P的大小,复杂度过高的模型不易于模型收敛到最优解,复杂度低的模型最优解又距离真实模型太远。模型域解决方案的基本原理是:选取较大的模型空间P,再通过先验知识缩小空间,如图4所示。模型域的解决方案众多,下面给出了四种典型做法。

图4 模型域解决方案原理Fig.4 Principle of model domain solution

3.1 多任务训练网络

多任务学习网络[24]同时训练了同一检测网络中的不同任务,在目标检测的应用中用于检测的网络参数可以共享给分类和定位任务,这些共享的参数可以认为是限制模型空间P的方式。多任务学习将目标检测的定位和分类参数通过一定的方式共享,降低了需要训练优化的参数量,可以同时提升分类和检测任务的效果。

共享的部分可以是模型的浅层参数(表征任务的低阶信息),也可以是在深层之后的不同深层网络将不同任务嵌入到同一不变的模型参数空间。按照参数共享是否是强制执行的,可将参数共享分成硬参数共享和软参数共享:硬参数共享使不同任务之间共享同一部分模型空间;软参数共享不同任务的有独立的模型空间,但各模型空间的参数相似。

Sermanet等[25]提出的OverFeat网络首次用一个共享的深度卷积网络来同时处理图像分类、定位、检测三个任务,提升了模型在三个任务中的表现。Dong等[26]在学习过程中加入多个检测模型,从多个模型中学习可以实现两个目标:第一,有利于缓解模型训练的局部最优解问题;第二,多个模型之间的知识补偿提高了训练样本生成的精度和召回率。Luo等[27]通过一个预先训练的卷积神经网络(CNN)从源域中的源任务学习来初始化CNN在目标域中的目标任务。在训练过程中,使用从多层CNN的表示中计算出的对抗损失来迫使两个CNN项目样本进入一个任务不变空间。该方法在新领域的新类上显示了令人信服的结果,即使每个类只有几个标记的例子可用,也优于流行的微调方法。在MNIST和SVHN数据集中,该方案的实验结果如表3所示。

表3 Baseline模型和Luo的方法的测试精度对比Table 3 Comparison of test accuracy between the baseline model and Luo's method

多任务学习自提出以来,也被众多研究者在目标检测任务中成功应用。Chabot等[28]提出了一种用于车辆检测的Deep MANTA网络结构,使用了级联的结构预测车辆多种信息。在共享底层特征的同时,提供了足够的拟合能力预测多种信息,并反复回归包围框,提高了定位精度,其具体的检测效果如图5所示。Zhang等[29]将多任务学习应用在人脸检测上,提出了一个深层级联多任务框架,利用不同任务之间的内在相关性来提高各自的性能。

图5 Deep MANTA检测实例Fig.5 An example of Deep MANTA detection

多任务网络的学习方法通过一组共同学习的任务来约束目标检测的假设空间,共享的假设空间可以用来寻找分类和定位任务之间的共性,深度卷积特征在不同任务中的共享可以一定程度上提升检测精度,但是如何进行共享特征的设计以及如何约束不同任务之间的相似性,需要经过精心的设计[3]。目前的网络结构设计中,深度卷积特征的共享已被广泛采用,但是在小样本检测下,不引入其他监督信息时,共享特征仍无法大幅改善泛化能力不足的问题。

3.2 增量学习网络

增量学习是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分已学习到的知识,其实现方式非常类似于人类自身的学习模式。增量学习具有以下特点[30]:1)可以从样本以外的环境中获得新知识;2)在更新知识过程中会保留大部分已学习到的知识;3)训练的过程不保留样本;4)学习系统没有关于整个训练样本的先验知识。增量学习关注于在实际应用中对新样本的适应性,因此也是一个针对于分类任务的优化方式。但是,增量学习需要特别注意如何处理新知识和旧知识之间的关系问题,如何避免灾难性遗忘。

Pérez-Rúa等[31]提出了一种用于增量学习的检测器ONCE,将CentreNet[32]分解为通用类别和特定类别的组件,以支持增量小样本学习。在应用到真实世界后,任何新类别在任何时候都能通过小量标注样本进行注册,并能够始终维护基础类别和已注册的新类别,在COCO数据集上取得的效果如表4所示。Peng等[33]设计了一种高效的端到端增量式目标检测系统,该系统采用知识蒸馏法对基于径向基元的目标检测系统进行了优化,引入多网络自适应精馏,在对模型进行微调以完成新任务时,适当地保留了旧类别的知识。

表4 增量小样本目标检测COCO val2017数据集上的性能Table 4 Incremental few-shot object detection performance on COCO val2017 dataset

灾难性遗忘是增量式目标检测器的首要问题,为了解决这个问题,众多学者进行了尝试。Shmelkov等[34]提供了一种方法来解决灾难性遗忘的问题,其解决方案的核心是一个损失函数,可以平衡对新类的预测和新的蒸馏损失之间的相互作用,新的蒸馏损失可以最小化来自原始和更新网络的旧类响应之间的差异。为了避免灾难性遗忘,Li等[35]提出了一种算法,从旧模型中提取三种类型的知识,模仿旧模型在对象分类、边界盒回归和特征提取方面的行为,并设计了一个实时数据集构建管道来动态收集训练图像,使用类别和边框注释自动标记图像,有效解决了初期样本不足的问题。

3.3 迁移学习网络

迁移学习从有足够训练数据的源域和源任务中学习知识并转移到训练数据有限的目标域和目标任务中,小样本目标检测可以借鉴迁移学习的理论,域适应[36]被广泛使用在目标检测应用中。当给定的已标注训练样本不足以完成训练时,可以将其他类似域的先验知识转移到当前应用中,以缓解目标域样本不足导致的效果较差的问题,域适应的方法通常用来提升目标域上的定位效果。迁移学习的思想广泛应用于目标检测任务中,很多网络模型为弥补样本的不足,除了采用本身独创性的方法外,从网络的整体训练来看也有很重的迁移学习思想[37]。

Wang等[38]提出了一种由两层自适应模块组成的目标检测结构FAFRCNN,配对过程将样本分成两组,第一组由目标域的样本和源域的样本组成,第二组由源域的样本组成,有效地扩充了有限的目标域数据,具体效果如图6所示。Luo等[27]在其方法中也借用了领域转移的思想,通过领域竞争损失来对抗领域转移,还提出了一个多层域鉴别器,该鉴别器采用了最新的域对抗性学习方法进行域对齐。Zhang等[39]提出了一种新的用于语义分割的小样本监督域适应框架,其主要思想是利用对抗性学习来对齐从网络中提取的特征。同时,为了解决源数据样本稀缺的问题,该方案还提出了一种使用源数据和目标数据创建对的配对方法。Motiian等[40]也在小样本检测上进行了尝试,其主要思想是利用对抗性学习来学习一个嵌入的子空间,同时最大化两个域之间的混淆,并在语义上对齐它们的嵌入。该方案还提出利用典型的二元对立鉴别器来区分四个不同的类,以此解决监督适应的问题。Chen等[41]设计了一个灵活的LSTD深度架构来缓解小样本检测中的困难,并提出了一种基于源域和目标域的转移指数(TK)和背景抑制(BD)的正则化方法,相比于 SSD和 Faster-RCNN,其在不同样本数量的表现如表5所示。

图6 域适应检测效果Fig.6 Detection effect of domain adaptation

表5 LSTD与Faster-RCNN和SSD的效果对比Table 5 Comparison of LSTD with Faster-RCNN and SSD

迁移学习虽然在一定程度上缓解源域样本不足的问题,但是也会因为领域转移造成一定程度的检测性能下降。当目标检测集有限时,从预先训练的深度分类器初始化深度检测器,应用对象检测的一般转移策略是不合适的[41],因为使用这样小的目标集进行微调通常很难消除检测和分类之间的任务差异。除此之外,迁移学习还存在着目标域数据不足、模型过渡适应、自适应过程过于复杂的问题[38]。

迁移学习的思想被广泛地应用于解决标注数据不足的问题中,涉及快速建模、小数据建模等问题时,常常被研究者所采用。近几年比较热点的领域自适应方法一定程度上解决了一个领域训练好的模型如何适配在另一领域中的问题,当小样本模型出现漂移,不能在新领域泛化时,往往可以通过领域自适应的方法进行尝试。但是,迁移学习仍旧无法比拟高质量数据集下的训练结果。在应用过程中也存在两大问题:1)从什么领域迁移数据?2)迁移的知识如何进行适配?

3.4 深度度量学习

深度度量学习通过衡量映射在某一空间上的样本之间的距离来学习样本的相似度与区分度,小样本学习可以继承这样的算法思路:采用一个合适的嵌入空间来表征样本,再套入合适的距离度量损失来衡量新入样本与各个未知类别之间的距离大小,从而得到待测样本的应属类别。深度度量学习的方法通常被集合在目标检测器的尾端,作为分类器使用,其方法对于分类效果有所提升,但是对于定位任务效果提升不明显。

Schwartz等[42]提出了一种同时学习主干网络参数、嵌入空间和各节点的多模态分布的深度度量学习算法,度量网络结构作为分类头合并到一个标准的目标检测模型中,证明了其方法在小样本目标检测问题上的有效性。在ImageNet的50个类比上,该方案在小样本下与基准模型的效果对比如表6所示。Hao等[43]在小样本的前提下提出了一种新的实例级嵌入适应机制,旨在快速适应嵌入的深度特征,以提高其识别新类别的泛化能力,该方案设计了一个关注自适应模块,尽可能地提取查询实例及其对应的类中心。Luo等[27]使用基于度量学习的方法来概括领域转移中嵌入到新任务的过程,在标记目标之间利用基于度量学习的交叉熵损失来稳定和改善学习。

表6 Schwartz算法在ImageNet-LOC数据集的50类目标中的表现(mAP)Table 6 Performance of Schwartz's algorithm in 50 classes of targets inImageNet-LOC dataset(mAP)

深度度量学习所学习的嵌入函数没有考虑任何特定于应用的知识,在原数据集样本极小的情况下应用是不合适的。此外,通过度量学习的方式在小样本中得到的结果也不容易在新应用中适应。使用预先训练的嵌入模型具有较低的计算成本,也可以带来良好的分类效果。然而,通过度量学习得到的嵌入函数没有考虑任何特定于任务的知识,简单地应用嵌入函数是不合适的。最近一段时间,Musgrave等[44]提出,度量学习的发展存在 “虚假繁荣”的现象,相关论文在实验设置方面存在多种缺陷,比如不公平的实验比较、测试集标签泄露、不合理的评价指标等,度量学习在目标检测任务中的效果有待进一步验证。

4 算法域的解决方案

算法域解决方案的基本原理是:找到一种在模型空间P中快速搜索最优模型¯W的策略,这种策略可以利用先验知识来改变参数θ的搜索过程,使模型在有限次的迭代下快速收敛,其具体原理如图7所示。算法域的解决方法大体上可以分为两类。

图7 算法域解决方案原理Fig.7 Principle of algorithm domain solution

4.1 微调现有模型参数θ

将由大量相似数据集训练得到的检测模型参数作为θ的初始参数,因其已被迭代过多次,故只需经过少量几次优化就可以适应于新的检测应用。在引入预训练模型后,具体的优化策略包括:1)分离Dtrain并建立验证集Dvalidation,以检测并提早结束训练;2)选择性更新参数,保留大部分预训练参数不变;3)对预先训练好的模型参数进行分组,并使用Dtrain进行分组反向传播微调;4)在预训练模型后引入额外的参数δ或层级结构做协调,与原有参数θ共同优化。

Singh等[45]通过引入预训练模型,提升了模型在样本稀少的小目标检测上的准确率。Chen等[41]在做域适应时,分别从源域和目标域中选择目标知识,进一步增强对少量目标图像的微调。引入预训练模型和Fine-Tuning的方式广泛存在于目标检测任务中,大部分小样本学习都会通过这样的方式尝试提高模型的检测效果。在Fine-Tuning后,无论是模型的分类还是定位能力都会有所提升。

通过预训练模型的引入,极大地降低了模型收敛的时间,但是也会引起模型过拟合的问题,可以通过一定的正则化方法予以缓解[3]。除此之外,预训练和微调尽管可以在训练集上收敛,但是检测器在测试集上仍旧存在泛化能力不足的问题[46]。

4.2 元学习

区别于其他优化方式使模型更接近,元学习的优化策略直接目标是,其目标是让机器“学会学习”。元学习拟合一系列相似任务的分布,利用元学习器将各个学习任务的参数合成,以此获得一个好的初始化参数,具体的数据集设置如图8所示。

图8 3-way 1-shot元学习任务示例Fig.8 An example of 3-way 1-shot meta-learning

元学习本质上是要寻找一个对于所有任务都较优的模型参数,在更新参数时,元学习结合了所有任务在测试集上的损失作为先验知识来指导梯度更新。因此,元学习的方法可以作为一个很好的参数θ初始化方式,其值在新的任务上已经是一个较优的值,只需要较少的迭代更新就能达到最优假设。

除了初始化模型参数,还可以通过元学习与循环卷积神经网络相结合的方式训练得到一个参数优化方法,为训练过程提供一个良好的参数搜索步骤或更新规则,提供更好的搜索方向和步长,加速收敛过程。

Fu等[47]提出的Meta-SSD模型将元学习部分和目标检测器组合,可以学习广泛的知识和正确的快速适应策略,教检测器如何在一个更新的步骤从有限几个例子中学习。Yan等[48]提出的Meta RCNN采用了基于RoI特性的元学习,并通过Mask R-CNN改进了小样本的目标分割能力。相比于YOLO模型,其方案在小样本下对于不同类别的检测效果如表7所示。Kang等[37]充分利用了基类的标记,并使用元特征学习器和权重调整模块,实现了快速适应新的类,在小样本目标检测方面有很大的优势。Wang等[46]的想法较为独特,他们认为目标检测与小样本学习的结合就是目标跟踪问题的特例,他们采用了与模型无关的元学习提供了一种初始化检测器的策略,构建了一个高性能的跟踪器,并采用一系列针对小样本的优化方案,大大提高了检测精度。Pérez-Rúa等[31]在网络中加入了元学习类别生成器,一旦经过训练,给定少量的新对象类的图像,元训练的类代码生成器可以使ONCE检测器在元测试阶段以有效的前馈方式增量地学习新类。

表7 Meta R-CNN与YOLO在VOC2007数据集小样本下的表现对比Table 7 Comparison of Meta R-CNN and YOLO in small sample of VOC2007 dataset

元学习的方法被广泛应用于小样本目标检测中,其独特的实现方式可以提升目标检测在新类别上分类的准确性,还可以为定位任务搜索更优的参数。元学习中包含了一定迁移学习的思想,其训练方式也非常适于小样本训练的模式,可以说元学习是一个极具研究潜力的深度学习优化方式。然而,学习建立这种元学习模型的成本也比较高,而且对于初学者来说,设计一个良好的元学习器是比较困难的。

5 相类似的深度学习应用

在深度学习领域,与小样本学习类似的研究有很多,为了对这一类问题进行区分,从中获取解决问题的灵感,这里对类似的深度学习问题进行汇总和说明,明确各类问题的特点。

5.1 半监督学习

半监督学习[49]区别于监督学习的关键在于样本是否已完全标注,半监督学习在有标注和没有标注的混合样本中学习最优模型。区别于此,小样本学习不对监督和半监督做过多的约束,取决于提供样本的种类而不是样本的标注形式,小样本学习中可以没有未标注样本。另一点区别在于,半监督学习的对象检测器往往需要占总量50%左右的标注数据[26],而小样本能提供的标注样本数量远小于此。

5.2 不平衡学习

不平衡学习[50]在数据集中有一类含有的数据要远远多于其他类的数据,常常是类别分布不平衡,需要在不平衡的数据集中学习一个偏态的数据分布。区别于此,小样本学习对参数的训练和测试只通过几个例子,而可能会把另一个样本作为先验知识来学习。

5.3 零样本学习

在零样本学习[51]任务中,某一类别在训练样本中未出现,但是可以知道这个类别的特征,通过语料知识库便可以将这个类别识别出来。零样本的基础理论是高维语义特征代替样本的低维特征,使得训练出来的模型具有迁移性。零样本学习的思想可以应用在小样本检测中,提供新的解决思路。

6 现状与展望

小样本学习模式是在人类的学习方式和人工智能之间建立联系的桥梁,有助于降低人工智能在工业化部署上收集大量标注成本的负担,降低人工智能的落地成本;另一方面也使深度学习在样本稀有的案例上部署成为可能,其中最典型的应用场景就是军事领域中的目标检测应用。可以预想的是,在人工智能的学术研究热潮以及工业对低成本的深度学习部署强烈憧憬下,未来在小样本学习的研究会逐渐深入,得到良好的发展。

6.1 小样本目标检测的现状

由于视觉信息的获取较为容易,并且自Alex-Net[30]在2012年引爆深度学习以来,图像领域已在深度学习中进行了广泛而深入的探索,为计算机视觉赋予了全新的研究方法和研究领域。因此,小样本学习也率先出现在图像分类和识别的应用中。但是,目标检测任务同时包含了分类、识别、定位和分割等多种学习任务,小样本目标检测技术尚处于学术探索的状态,仍存在一些明显的问题,包括:

1)复杂场景下检测精度较低:由容量有限的样本抽取的特征往往不具有高度的概括性,泛化能力较低,目标的定位容易被复杂度的场景所模糊,从而难以达到较高的检测精度。众多论文[37,42,48]均提到了复杂背景下小样本检测表现不佳的情况,其本质是定位任务在小样本下表现不佳。

2)检测数据集较分类数据集仍显缺乏:对于目标检测模型来说,数据的需求更为关键,但是收集标记数据进行检测的成本也更高。除此之外,专注于检测的数据集比分类数据集少得多。因此,没有更多目标检测的数据集用于数据迁移和域适应也是目前的问题之一。在目前的研究中,研究者首先面对的问题就是数据扩充,比如Zoph等[17]就提出了一系列数据扩充策略,力图提升检测精度。

3)一图多目标和一图无目标问题:在两类特殊的问题中,小样本目标检测表现效果不佳。文献[37]和文献[48]提出了多目标小样本检测的问题,该问题主要表现为检测网络对新类别表现较为迟钝。另一个问题出现在无目标场景下,主要表现为误检测问题。

4)深度模型下的过拟合问题:目标检测问题区别于其他计算机视觉问题的关键在于,深度网络模型下需要同时考虑目标分类和定位的问题,而定位和分割问题的难度远在分类之上,在数据容量较小时,层数较高的检测网络极易造成模型的过拟合。文献[37]和文献[41]提到的方法均通过一定的策略尝试降低模型过拟合的程度,如数据迁移和正则化等。

5)生成高精确度的伪标注样本问题[26]:具体来说,一方面,训练样本的生成应具有较高的置信度,以保证后续过程中探测器训练的良好引导。另一方面,由于正确预测的训练样本越多,识别检测器越好,因此可以推测生成的训练样本伪标签应该具有较高的召回率,为检测器的改进提供足够的知识,即要求伪标注样本在精确率和召回率要求之间达到平衡。

6)缺乏更详细的理论解释:通过先验知识的理论可以从一方面模型化小样本检测问题,并可以将解决方案分类为三大领域。但是,这样的解释方式并未对一些解决方案实现检测效果提升的数学原理进行量化的描述,如算法领域的解决方案仍没被完全理解,其实现的效果也缺乏合理的量化解释。Franceschi等[52]尝试对元学习的实现原理进行测试,给出了近似问题解收敛于精确问题解的充分条件,但是仍然缺乏对元学习方法收敛性的一般或普遍分析。

6.2 小样本目标检测的发展趋势

小样本学习一经提出,就受到了广泛的关注,CVPR2018收录了4篇关于小样本学习的论文,而到了CVPR2019,这一数量激增到了近20篇。随着研究的日益推进,小样本目标检测呈现出以下的发展趋势:

1)越来越多的学者将研究的目光投向了元学习,元学习与目标检测器相结合的方式正在被逐渐探索实践,以较小的推理代价快速适应新应用。但是,在应用中也存在三个问题:①由于成本过高或难度较大而无法确定相似任务的关联性,如关联性不强,反而可能得到适得其反的学习效果;②在学习过程中,避免灾难性遗忘[53]是另一个问题,对于过去任务中得到的信息可能会随着元学习器的迭代而丢失,从而影响学习效果;③元学习在多目标检测问题上表现不佳,影响整体检测效果。

2)多样本状态的训练数据成为一种可能,在标注的图像样本中增添另外维度的样本信息,如文本、视频信息等。多维度的信息可用于在样本训练中提供先验知识,该方法此前被广泛应用于零样本学习中。

3)一个可能的方向是将自动机器学习的自动特征工程[54]、模型选择[55]、神经结构搜索[56]和优化策略选择[17]扩展到小样本检测的方法中,通过自动机器学习在搜索空间中对训练参数、训练策略进行优化搜索。

4)从目标跟踪问题中寻找灵感。用检测器去解决跟踪问题,遇到的最大问题也是训练数据的不足。如果将跟踪视为一个特殊的检测任务,检测的目标由用户在第一帧所指定,这意味着能够用于训练的数据仅仅只有少数几张。从这个意义上说,小样本目标检测问题有望在目标跟踪中获取解决问题的灵感。在文献[46]的方案中,给出了以元学习的方式解决跟踪任务下小样本目标检测的一种尝试。

5)更多的研究将关注在小样本目标检测中定位任务的提升上。目前的小样本目标检测方案,除了小部分研究外,无论是度量学习[42-43],还是元学习[37,47-48],都关注将先验知识应用于目标检测器末端的分类器上,并在分类任务中表现出众。涉及定位任务,小样本学习的方法相比于大数据样本下的目标检测仍有较大差距,漏检和错检的问题较为明显。未来,提升小样本目标检测任务的关键在于提高目标定位的准确度。

6)小样本学习的方式不只局限于图像领域,除了计算机视觉应用的不断深入,其他人工智能领域也开始考虑小样本检测的问题,如Kaiser等[57]将小样本学习的思想融入到文字翻译中,未来会有更多的人工智能研究者投入到小样本学习的研究中,更多的方法会被逐渐提出。在其他领域,对小样本学习方式的探索也会一定程度上促进小样本目标检测问题的提升,催化产生更多可能的解决方案和优化策略。

7 结论

小样本目标检测旨在缩短人工智能和人类学习之间的差距,它通过学习有限的监督信息,结合先验知识,提升目标检测在新任务中的效果。小样本学习的方式有助于减轻在工业使用中收集大规模标记数据的负担,使只能提供少量样本的应用场合中人工智能的落地成为可能。在低成本的人工智能学术诉求和工业上对廉价学习的需求下,小样本目标检测逐渐受到关注并成为热点问题。

本文对小样本目标检测进行了全面的综合叙述,首先给出了分析小样本检测的一种方法,并从数据层面、模型层面和算法层面归纳整理了近几年来解决小样本检测的方法途径,分析了包括迁移学习、元学习、度量学习等热点方法在小样本检测方面的应用效果和存在的问题。之后,讨论了小样本检测与半监督学习、不平衡学习和零样本学习等相关学习问题的关联性和差异性。最后,归纳整理了小样本目标检测所面临的问题与困境,并指出了未来可能的发展趋势,希望能对小样本检测方向的研究有所启发。

猜你喜欢
样本检测模型
适用于BDS-3 PPP的随机模型
自制空间站模型
规划·样本
人大专题询问之“方城样本”
模型小览(二)
随机微分方程的样本Lyapunov二次型估计
必修二 Modules 1—6综合检测题
“整式的加减”检测题
“整式”检测题
离散型随机变量分布列的两法则和三模型