有限样本下基于图卷积神经网络的目标检测方法研究

2022-07-22 14:09丹,陈志,冯欣,杨
关键词:结点类别卷积

黄 丹,陈 志,冯 欣,杨 武

(1.中国兵器科学研究院, 北京 100089;2.重庆理工大学 计算机科学与工程学院, 重庆 400054)

0 引言

近年来,基于卷积神经网络的深度学习算法在目标检测领域取得了显著的成绩[1-2],而这种成功很大一部分依赖于大量带有完整、精确边框注释的目标检测数据集。在一些实际应用领域,诸如医学图像、濒危动物等,大量的数据难以获取,且数据标注需要花费很大代价[3]。但在基于深度学习的目标检测算法中,当数据量较小时,卷积神经网络会由于过拟合而不能很好地对未知数据泛化,即检测器的预测能力有限。然而,人类在这项任务上能够展现强大的感知能力,例如,儿童可以在极少的几张图片中学习识别新的类别。因此,对这类少样本数据构造具有较强泛化能力的目标检测算法是极具挑战的。

当前,对少样本学习的研究已经取得了一定的进展,但这些方法都聚焦于图像分类,很少涉及到目标检测问题[1-2]。对于有限样本下的目标检测,其核心问题是如何通过少量样本学习在杂乱背景中定位目标物体[3-4]。如图1所示的少样本目标检测问题设置。其中的基类和新类是2种可供训练的数据,基类中有大量的注释数据可用,而新类则只包含了少数带标记的样本。在这2种数据中,给定带有目标对象的支撑图像集S和可能包含目标对象的查询图像集Q,少样本目标检测任务就是在查询图像集Q中找到属于支撑类别的所有目标对象,并用紧致的边框将它们标记出来。如果支撑集包含N个类别,每个类别包含K个样本,这样的检测任务被称为N-way K-shot目标检测。本文旨在基类和新类同时存在的情况下,提出一种利用基类中的知识来学习检测新类目标对象的方法。

图1 有限样本下的目标检测示例图

少样本目标检测的一种解决方案是首先在大规模数据集上预训练一个目标检测模型,然后将模型迁移到少样本数据上微调训练。但是,与现实世界中庞大的目标类别相比[5],大量数据集中包含的目标对象类别的数量仍然是有限的,因此,预训练的模型算法无法直接应用在一些新的未知类别上,而由于训练数据的缺乏,基于深度学习的目标检测算法也无法学习到大小、形状、纹理、光线等各异对象的精确边界框[6]。除此之外,当前通用的目标检测算法对于候选区域的分类只考虑每个候选区域的表观特征,而没有考虑其他候选区域、候选区域在图中的位置信息以及候选区域之间的关系,这些对于仅有少量标注样本的目标检测问题是极其重要的。

针对有限样本的特性以及现有通用目标检测算法的问题,提出一个新的有限样本下的目标检测框架。该框架主要由多层卷积神经网络组成的区域提案网络以及基于图卷积的候选区域分类网络构成。具体来说,该框架首先采用多个N-way K-shot任务组成的批次来模拟元学习,并通过多个卷积层构成的区域提案网络实现对目标对象的精确区域定位。这种区域提案网络的设计能够在有限的样本下对大小不同的目标物体进行定位,且其在各个类别上的定位方法是通用的,因此能够很快适应新的类别。其次,依据区域提案网络获得的候选区域之间的位置关系构成一幅完全图,并运用图卷积神经网络来学习目标自身的语义特征,以及每个候选区域的邻域关系和相对位置信息。经过训练过程中节点和边缘特征的不断更新,最终获得图结构的边标签预测结果,即目标的类别预测结果。本文中提出的方法在少样本领域是通用的,具有广泛的应用前景。

1 相关工作

1.1 目标检测

目标检测是计算机视觉中的经典问题。基于深度卷积神经网络的目标检测可分为两阶段和一阶段目标检测方法。

RCNN[7]系列目标检测方法是典型的两阶段目标检测算法。RCNN使用预训练的卷积神经网络对通过选择性搜索生成的区域提案进行分类。Fast-RCNN[8]则通过感兴趣区域(ROI)池化层改进了RCNN,其直接从卷积特征图中提取区域特征。Faster-RCNN[9]通过引入区域提案网络(RPN)实现了端到端的目标检测。

SSD[10]是典型的一阶段的多目标检测器,其在不同尺度大小的特征图上使用固定的默认边界框直接预测类别分数以及边界框偏移量。默认的边界框有不同的大小比例和横纵比。在不同大小的特征图上,默认边界框的大小通过在最高层和最低层之间按一定规律计算得到,而每个特定层的特征图则学习如何响应目标对象的特定尺度[11]。

1.2 少样本学习

少样本学习是指每个类别仅从几个训练样本中学习。近年来,基于大量数据的有监督深度学习方法在各个应用领域取得极大成功。然而,大量数据的采集和标注在现实世界往往是需要极大代价的,特别是对于某些数据稀缺的应用场景,如濒危物种的检测与识别等。因此,少样本学习的研究近年来获得了极大的关注。

最近一种流行的少样本学习解决方案是元学习方法,它可以进一步分为3类。第一类基于度量学习的方法。如基于孪生网络[12]的方法首次被提出。该网络由共享权重的双分支网络组成,其中每个网络分别接受一个支撑图像和一个查询图像作为输入,查询及其支撑之间的距离通过逻辑回归学习。这种匹配策略可以捕获支撑与查询数据之间的相似性特征[13]。第二类为优化的快速适应方法。Ravi等[14]提出了一种基于长短时记忆网络LSTM的元学习器。该方法能够在新的少样本分类任务中快速收敛。模型不可知元学习(model agnostic meta learning)[15]优化了一个任务不可知网络,因此其在新的少样本分类任务中的参数更新可以获得良好的性能。第三类为参数预测的方法。Learnet基于每个类的单个实例,动态学习分解后的权重参数,从而实现单样本学习。

目前的少样本学习工作主要集中在分类问题上,关于少样本的检测问题的研究则相对较少。Chen等[1]提出将一个预先训练过的检测器迁移到少样本任务中,而Karlinsky等[3]则探索了利用距离度量学习对每个目标类的多模态分布进行建模。最近,Wang等[16]提出了专门的元策略来学习区分检测模型中与类无关和类特定的部分。其他基于元学习的方法为每个类学习一个类注意力向量,并使用这些向量重新加权全图像特征[2]或ROI特征[4]。大多有限样本下的目标检测方法也是通过针对弱监督和零样本学习的方法来解决的。

1.3 图神经网络

图神经网络主要使用图结构和神经网络的学习方法来学习图中结点及结点之间的关系表征。Gorli等[17]和Scarselli等[18]首先提出以图神经网络作为循环神经网络的一种形式学习图结构数据表证。Defferrard等[19]将基于广义卷积的传播规则直接应用于图神经网络。王健宗等[20]将图卷积神经网络应用于非规则结构数据的半监督学习问题上。目前基于图神经网络的方法主要探索了基于结点标记框架的少样本分类任务,还没有涉及有限样本下的目标检测任务的方法。结合图卷积神经网络在少样本分类任务上应用,本文提出一种基于图卷积网络的目标检测方法来解决有限样本下的目标检测问题。

2 基于图卷积网络的有限样本目标检测方法

2.1 问题定义

少样本目标检测是在有大量的注释数据可用的基类和少量样本标注的新类同时存在的情况下,利用基类中的知识来学习和检测新类中目标对象的一种计算机视觉任务。

针对有限样本下的目标检测问题,提出一种结合区域提案网络和图卷积神经网络的目标检测方法。其中,区域提案网络采用基于SSD[10]的边框回归来得到目标的候选框,而图卷积神经网络通过目标对象图的训练来学习目标本身的表观特征、目标间的相对位置关系及目标间特征的相似性关系,并对新类查询目标类别进行预测。总体框架如图2所示,首先查询图像会经过区域提案网络,获得潜在目标对象的边界框,接着将支撑集目标对象及查询图像上的候选区域构成一幅目标对象图,通过基于图卷积的候选区域分类网络进行图更新,得到最终的结果。

图2 总体框架图

在本文构造的基于区域候选框的目标对象完全图G中,使用vi和eij表示结点集合中第i个结点的特征及边集合中第i个结点与第j个结点之间的边特征。每一个边标签的真实值yij由结点标签的真实值按式(1)所示定义:

(1)

其中,每一条边都是一个二维的特征向量eij∈[0,1]2。结点特征由卷积神经网络提取的特征进行初始化,每一个边特征由边标签按以下式(2)所示进行初始化:

(2)

2.2 区域提案网络

参考SSD[10]网络结构,设计了一个基于多层卷积神经网络的区域提案网络用于候选框的提取和边界框回归,如图3所示。骨干网络采用VGG16来提取目标特征。具体来说,对于每个卷积层,在卷积特征图的每个空间位置都设置多个候选框,即包含不同的尺度和比例。对于和真实目标匹配的任何候选框,将使用回归损失(平滑L1损失)来惩罚预测和真实边界框之间的偏移(框中心,宽度和高度)误差。这种融合不同卷积层、不同特征图上回归结果的设计适合于定位各种大小的目标对象,因此对于少样本检测尤其重要。此外,该区域提案网络的回归参数在所有目标类别之间共享,而不是像Faster RCNN[9]中特定于每个类别。

该区域提案网络可以采用在大规模数据中预先训练的模型参数对不同少样本目标域进行参数初始化,这避免了对该网络进行随机初始化,从而减少了目标域中只有几张图像的微调负担。本文采用在ImageNet数据集上预训练并去除全连接层的VGG16模型对区域提案网络进行初始化。

对于卷积特征图上的大量默认候选框,同时执行是否包含目标的二分类和边框回归多任务训练,以进一步检查候选边界框中是否包含目标对象。将经过区域提案网络得到的候选区域根据二分类任务的分类分数进行排序,并选取二分类预测概率较高的候选区域作为区域提案网络的结果。

2.3 基于图卷积网络的候选区域分类网络

对于区域提案网络得到的候选区域,通过构造图结构并采用图卷积网络来学习目标特征之间的相异性关系。其中,将查询图像中的候选区域经过主干网络提取的卷积特征(128维向量)作为查询结点,将每个类别支撑图像上的目标对象经过同样的主干网络提取的卷积特征表示(128维向量)作为支撑结点。然后将支撑结点与查询结点构成一个全连接图。图中的每个结点代表其对应目标对象的128维特征向量。每个边代表2个相连结点之间的关系类型,即两个连接的结点之间经过规范化的类内和类间关系的强度,以充分利用类内相似性和类间不相似性表达来对少样本目标的类别进行泛化。

(3)

通过卷积神经网络的训练,类内的相似性结点得以充分聚合,而类间的结点差异也得到充分的区分。

边特征基于已更新的结点特征进行更新,如式(4)和式(5)所示。首先,重新计算每一对结点之间的相似度或距离,接着通过融合上一次更新的边特征值和更新后的相似度或距离来更新每个边的特征。对于第l层连接结点i与j的边特征e定义如下:

(4)

(5)

(6)

(7)

(8)

2.4 两阶段训练与损失函数设计

在训练阶段,使用两阶段的训练策略,即对区域提案网络和基于图卷积网络的候选区域分类网络分别进行训练。该策略首先将2个模块在具有大量标注数据的基类数据集上进行训练,再在带有少量标注数据的新类数据集上进行微调训练。通过将多个N-way K-shot任务构建成一个训练批次来模拟少样本学习任务,以此降低微调训练的难度,提高在有限样本场景下的学习能力。

在区域提案网络训练阶段,损失函数主要包括2个部分,一部分为目标边界框的回归损失Lreg,另一部分为判断是否包含目标的二分类损失Lcls,如式(9)所示:

Lrp=Lreg+Lcls

(9)

其中:Lreg采用平滑L1损失,而Lcls为交叉熵损失;两部分损失采用1∶1加和以得到区域提案网络训练阶段的损失函数。

在基于图卷积的候选区域分类网络(图4)的训练中,模块的参数通过最小化式(10)中的损失函数来训练获得:

图4 基于图卷积的候选区域分类网络

(10)

3 实验

3.1 数据集

实验数据集采用当前通用目标检测广泛使用的数据集:VOC 2007、VOC 2012,来评估有限样本下的目标检测模型。遵循少样本目标检测的通常做法,使用VOC 2007和VOC 2012的训练/验证集进行训练,并使用VOC 2007测试集进行测试。在VOC2007/2012数据集的20个目标类别中,随机选择5个类别作为新类别,而剩下的15个类别作为基类。在基类训练期间,仅给出基类的边框及类别标签。在有限样本的微调阶段,每组训练图像设置较少样本来确保每个类别的目标对象仅包含K个带注释边界框的样本,其中K取1、2、3、5。

3.2 实施细节

在边界框回归的部分,首先对产生的推荐区域进行非极大值抑制(实验中阈值为0.65),然后选择存在目标对象概率大于0.5的候选区域作为分类网络的输入。

新类和基类的优化策略都采用Adam,其中初始学习率为0.000 2(衰减为0.1),动量为0.9,权重衰减为0.000 1。若无特殊说明,新类上的参数设置与基类上一样。

为了保证送入基于图卷积的候选区域分类器的正负样本以及各类别样本数量的平衡,本文采用对该模块进行单独训练的方式,以最大程度优化分类器的性能。此外,结点相似性度量网络结构如表1所示,在训练中同样使用Adam优化器,初始学习率设置为0.000 5,权重衰减10-6。

表1 节点相似性度量网络设置

采用YOLOv3和SSD[10]作为Baseline进行比较,并采用同样的训练策略,先在基类上进行训练,再用基类上训练获得的参数来初始化微调过程。由于新类上可供训练的数据数量较少,为防止过拟合,在进行微调时降低迭代次数。

3.3 实验结果

训练过程中,采取5-way K-shot的方式进行训练,其中K=1、2、3、5;在基类上进行训练时,在基类的15个类上随机采样5个类的样本组成一个任务,模拟在新类上的这种有限样本的情况。

评估方法:通过采用不同大小的K值,在测试集上的测试结果如表2所示。实验过程中,在每个类别的样本数量分别为1、2、3、5的情况下进行训练和测试。可以发现,随着每个类别提供的样本数量的增加,本文提出的方法的性能相较于baseline方法有一定提升。且整体上,本文提出的在有限样本下的目标检测方法在VOC测试集上的检测能力较稳定。

表2 VOC2007测试集上不同shot的mAP结果

在新类上采用不同K值时各类别的实验结果如表3所示。可以看出,本文提出的模型算法对较难检测的目标类别(如类别:pottedplant)检测能力相对较弱,但对较容易检测的类别本文方法具有较好的检测准确率。对于sheep和sofa这2个类,在K=5的情况下本文方法取得了14.35和7.51的准确率;在K=1的情况下也能够分别达到10.60和5.31。

表3 本文方法在新类各类别对应不同shot的AP

在K分别为1、2、3、5情况下,Baseline方法和本文方法的实验结果如表4—7所示。在这4种情况下,本文所提出方法在测试集上的mAP均高于Baseline方法。具体来看,在1-shot、2-shot、3-shot的情况下,本文提出的方法能够在较难的类别上实现与YOLOv3具有竞争力的结果,而在1-shot的情况表现更好。

从表5可以看出,SSD在第一个类别(即类别:pottedplant)上的检测准确率要高于本文方法;在第5个类别上,本文方法能够实现较好的检测结果。对于第2个类别及第3个类别,即类别sheep和sofa,本文方法的结果远高于Baseline。整体上看,本文所提出方法对新类的检测性能要优于Baseline方法。

表6 Baseline在3-shot情况下的实验结果

表7 Baseline在5-shot情况下的实验结果

进一步对提出的方法在VOC测试集上的检测结果进行了可视化,如图5所示。可以看出本文方法在有限样本情况下对新的类别具有较好的目标检测能力,即能够正确的定位目标物体在图中的位置,并给出正确的类别标签。

图5 VOC测试集上目标检测结果示例

4 结论

为解决有限样本情况下的目标检测问题,提出了一种新的有限样本下基于图卷积神经网络的目标检测方法。利用多层卷积区域提案网络得到目标的候选区域;提取出候选区域特征,并将其作为图结点构建完全图;通过图卷积神经网络学习有标注目标和无标注新类目标的特征及类内、类间关系表征得到最终新类上的目标检测结果。在之后的工作中将尝试实现端到端有限样本的目标检测,从而进一步提升算法在有限样本下的检测性能。

猜你喜欢
结点类别卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于FPGA的卷积神经网络加速优化方法
基于图像处理与卷积神经网络的零件识别
LEACH 算法应用于矿井无线通信的路由算法研究
一起去图书馆吧
基于深度卷积网络与空洞卷积融合的人群计数
简析基于概率预测的网络数学模型建构
选相纸 打照片