面向Logo识别的合成数据生成方法研究

2018-05-29 07:36江玉朝吉立新高超李邵梅

网络与信息安全学报 2018年5期

江玉朝，吉立新，高超，李邵梅

（国家数字交换系统工程技术研究中心，河南郑州 450002）

1 引言

Logo识别是计算机视觉中一项具有挑战性的任务，在很多领域有着广泛的应用，如敏感视频识别[1]、商标识别与产权保护[2]、智能交通[3]等。对于一般目标的识别，深度学习方法已经取得了巨大的成功[4～6]。通常，构建一个目标识别的深层神经网络模型需要大量手工标注的训练数据，然而，在Logo识别任务中能够获取到的公开数据集非常小，现有的Logo数据集如表 1所示[7～12]。显然，如此小的训练数据量对于学习具有数百万参数的深层模型是远远不够的，通过增加手工标注来扩充数据集是解决这一问题较直接而简单的思路，但是昂贵的标注成本以及大量的时间开销往往令人难以承受，同时，相比通用物体，很多情况下很难大量获取到包含 Logo的真实场景图像。面对种类庞杂的 Logo对象，试图通过自动的方式搜集大规模训练数据也显得较为困难，诸如网络爬虫一类的Web数据挖掘方法虽然在一些目标识别任务中起到了一定的作用[13,14]，但由于典型的Web图像及其元数据中一般不包含目标定位的相关标注信息，采用此类方法难以获得Logo对象的精确标注。

表1 现有的Logo识别数据集

合成数据生成是指在不依赖手工标注的前提下自动生成与真实数据近似的合成数据，从而扩展训练数据集的方法，当没有充足的训练数据可用于训练大型深层网络时，该方法是手工标注海量数据的有效替代方案。例如，Gupta等[15]和Jaderberg等[16]通过人工合成自然场景文本数据训练文本识别模型；Georgakis等[17]通过分割出语义级别的“桌子”“柜台”等可能的支撑平面来指导合成图像中目标的放置，辅助室内场景中的目标检测；Eggert等[18]使用合成数据训练SVM分类器进行公司 Logo检测；Su等[12]在文献[18]的基础上，考虑了合成Logo图像上下文的多样性，进行了利用大规模合成的 Logo图像训练深层模型的首次尝试，较大地提升了检测模型应对复杂背景的顽健性。而缺陷方面，文献[12,18]使用的合成 Logo图像的方法过于朴素，对于合成图像与真实场景图像的拟合考虑严重不足，仅通过将变换后的 Logo模板放于任意场景图像中的随机位置完成 Logo图像的合成。这种方式会使合成Logo图像的上下文真实性严重不足，导致模型过多地学习到合成图像的细节，而无法很好地泛化到真实场景图像上，图1给出了文献[12,18]中合成图像的示例。

图1 文献[12,18]中的Logo图像合成示例

为解决深度学习框架下 Logo识别任务中标注数据缺乏的问题，本文提出了一种新的合成训练数据的算法，算法在充分挖掘和利用 Logo图像上下文信息的基础上，通过合成尽可能拟合真实场景的 Logo图像，在不增加额外标注成本的前提下，实现 Logo识别算法性能的提升。虽然这项工作不是合成Logo图像的首次尝试[12,18]，但是本文改进了以往合成 Logo图像的简单思路，充分利用了Logo对象内部、Logo周围邻域、Logo与其他对象之间以及 Logo所处场景等多种类型的上下文信息，同时考虑Logo对象的自身特点，使借助自动合成的 Logo图像参与训练能够产生更为显著的算法性能增益。实验方面，本文基于Faster R-CNN[19]目标检测框架在 Logo识别的benchmark数据集 FlickrLogos-32[9]上进行了详细的实验验证，取得了当前基于合成 Logo图像辅助 Logo识别任务的最好结果（mAP 58.9% VS.54.8%[12]），充分验证了本文合成算法的有效性。此外，本文基于合成数据前提下探究的诸多训练策略与方法具备一定的借鉴和推广意义。

2 基于上下文的Logo图像合成算法

图2给出了本文基于合成数据进行Logo识别的整体算法框架，其中，生成合成图像作为本文的算法核心，主要包括Logo模板选取、背景图像选取、Logo模板变换以及Logo图像合成4个过程，下文将分别对其进行详细阐述。在Logo识别模型的训练方面，本文基本上沿用文献[12]中的顺序学习策略，该策略源自于课程学习[20]中先易后难的学习思路，首先使用大规模的合成图像预训练深层模型，然后用少量的真实样本数据对模型进行精调。除此之外，本文通过实验探究发现，先用合成图像与真实图像的混合数据进行训练，再用真实图像进行精调，将取得更好的训练效果。

2.1 Logo模板选取

为了进行 Logo图像的合成，首先需要每类Logo用于合成的模板图像。文献[18]中使用像素级别的Logo掩码（如图3(a)所示），此类模板的背景是不透明的，因此能够更多地保留 Logo对象原生的细节，即Logo周围邻域的上下文信息；而缺陷也较为明显，一是像素级别的掩码需要通过烦琐的手工标注提取得到，二是合成图像中Logo邻域上下文信息的多样性有所欠缺。相反，文献[12]中使用背景完全透明的Logo模板（如图3(b)所示），使任意合成图像中Logo邻域的像素完全由背景图像决定，而不是 Logo模板，这样一来极大地提升了合成 Logo邻域上下文的多样性，增强了识别模型应对复杂背景的顽健性；缺陷方面，一是由于采用随机放置 Logo模板的做法，不可避免地会出现 Logo与复杂背景混杂的情形（如图3(b)所示），这显然与Logo本身的设计原则[21]相违背，导致合成图像与真实场景图像间的差异增大，二是由于过度地引入上下文信息，模型的误报率有所增加[12]。

图3 文献[12,18]中Logo模板选取对比

可见，以上2种Logo模板的选取做法是各有优劣而又相互补充的，考虑到后续合成数据集的构建与标注都是自动的，本文选择在 Logo模板的预处理上花费一定的开销。因此，在 Logo模板的选取上，本文综合选用了像素级别的Logo掩码以及背景完全透明的Logo图像（本文中两者合成的数量比为1：1）。以FlickrLogos-32数据集的32类Logo为例，相应的Logo模板如图4所示。

图4 选取的Logo模板

2.2 背景图像选取

在现实场景中，目标一般不可能单独存在，它往往会与环境以及周围其他对象有着千丝万缕的联系，这就是通常所说的上下文信息[22]。多种类型的上下文信息理论上已被证明在计算机视觉、图像处理领域扮演着非常重要的角色，能够提升检测识别算法的精度与速度[23,24]。而作为承载合成 Logo全局上下文信息的背景图像，文献[18]和文献[12]在其选择上仅考虑了上下文的多样性，使用FlickrLogos-32数据集中不含Logo的6 000张图片作为合成图像的背景来源，这样的简单处理必然会导致合成的Logo图像中蕴含很多不真实的上下文信息，进而影响练习得到的深层模型在真实场景中的泛化能力。如图5所示，Logo十分生硬地出现在毫不相关的场景中，尽管这并不妨碍人类进行识别，但在实际训练过程中这些上下文信息完全不一致的合成样本很可能作为噪声数据存在。

因此，在背景图像选取方面，本文致力于减轻由于 Logo模板与背景图像语义相关性太弱造成的上下文信息不一致的情况对算法性能的影响。具体来说，本文首先使用爬虫程序预先为每类Logo在谷歌图片搜索网站上爬取了300张与之相关的场景图像，然后结合现今流行的基于CNN的场景分类模型Places365-VGG对爬取的场景图像进行批量分类，进而统计出每类 Logo出现频率最高的5个Top-1场景作为合成图像的背景来源。其中，Places365-VGG是文献[25]开源的针对大规模场景图像数据库 Places2的子集Places365训练的 CNN场景分类模型，网络结构采用的是VGG-16，其在Places365的验证集和测试集上均取得了目前最高的 Top-1分类精度。图6以Starbucks为例，给出了其背景图像选取的算法流程。

2.3 Logo模板变换

传统的图像数据增强方法已被证明能够有效地丰富训练集、提升检测识别模型的顽健性和泛化能力[26]。本文中不依赖传统数据增强方法对训练集进行扩充，而是采用图像合成作为训练数据的主要增强方法。实际上，在合成图像的基础上再进行数据增强的意义并不大，因此本文将数据增强应用于Logo模板的变换上。

图5 不真实合成Logo图像示例

由于实际自然场景中 Logo呈现的尺度变化范围较大[9]，同时拍摄角度的不同可能导致Logo出现旋转、扭曲、变形以及部分遮挡等问题[27]，此外，成像设备分辨率不同、光照条件变化等因素会显著增加 Logo识别的难度。因此，为了尽可能拟合实际场景并且丰富合成图像中 Logo的多样性，本文对Logo模板尝试进行了仿射变换、随机裁剪、颜色变换、高斯模糊等一系列增强变换。需要说明的是，每种变换之间相互独立且随机进行。下面以仿射变换为例给出其数学描述。由于卷积神经网络本身具有平移不变性，所以本文针对 Logo模板并不进行平移变换，由此仿射变换的维度从3维降到2维，在2维平面上对于Logo模板I进行仿射变换的具体数学形式如下。

图6 背景图像选取算法流程

其中，矩阵Rθ定义旋转变换，旋转角度θ本文选择在的范围内随机取值，但随机变换的概率控制在0.1以下，因为实际场景中Logo发生旋转的情况较少[12]。矩阵P混合定义了尺度变换Scale(a, b)和错切变换Shear(c, d)，对于尺度变换，本文统计了Flickrlogos-32数据集整体对象的大小分布情况（如图7所示），选择控制Logo模板的长边变化为40～250 pixel之间的随机数，短边则进行等比例缩放；错切变换的参数选择为[0,0.2]之间的随机数。图8给出了本文Logo模板变换示意。

图7 FlickrLogos-32数据集对象大小分布

图8 本文Logo模板变换示意

2.4 Logo图像合成

鉴于Logo对象具有平面性的特点，本文将随机变换后的Logo模板覆盖在语义层面上与其尽可能相关的随机背景图片上，从而实现Logo图像的合成。与文献[12,18]中将Logo模板随机放置的做法不同，本文特别关注Logo模板在背景中出现的位置。诚然，试图在背景中找到最“合理”的位置涉及Logo对象与背景中其他对象之间复杂上下文关联关系的分析与处理，即图像的语义分割以及场景理解。而在本文的语境中，参与合成的对象较为特殊——Logo作为独立对象进行合成，缺乏其“宿主”上下文信息的参与和指导，因而在语义层面上寻求合理位置的实现难度较高。

因此，现阶段本文的合成目标不追求能够找到语义层面上最“合理”的位置，而是尽可能寻求数据层面上较合适的位置。尽管有研究[28]表明，视觉观察到的一致性效应很可能主要由场景的语义属性造成，而与一些低级视觉特征（如颜色、形状等）的关系不大。但依据 Logo的设计原则[21]，Logo对象确实应当出现在背景中纹理较简单、色彩较单调且与 Logo本身颜色分布明显不同的区域。

具体而言，除了少数一些由纯文字符号组成的 Logo（如 Google），绝大多数 Logo在设计时具备其主体色调[21]，同时在形状轮廓方面，Logo一般都不呈现为规则的矩形结构（如图4所示）。因此在数据层面上，本文采用主颜色相似性比较算法，通过分别统计变换后的 Logo模板与随机选取的背景放置区域在 HSV颜色空间中各颜色出现的频率，选出最频繁出现的2种颜色作为各自的主色，如果两者的主色存在重叠，则更换背景图片而后重新随机选取背景放置区域，直到找到主色不重叠的位置进行合成。算法1给出了本文Logo图像合成算法流程。

算法1 基于主颜色相似性比较的Logo图像合成算法

输入变换后的Logo模板I*，随机选取的背景图像B

输出合成的Logo图像B*

1) 在背景图像B中随机选取Logo模板I*的放置区域ROI，并使

2) 逐像素分别计算I*与ROI在HSV颜色空间中的颜色分布。

3) 分别统计(ROI)，得到 I*和 ROI各自的 2个主色。返回类似[black, white]的二维数组。

4) if I*和ROI的主色存在重叠

5) 重新随机选取背景图像B。

6) return 1)

7) else

综合以上4个过程，本文合成算法不仅可以实现基于上下文的大规模Logo图像的自动合成，同时能够保证毫无遗漏地对合成图像中的每个Logo对象进行精确标注，图9给出了本文合成算法的最终效果示例。

图9 本文合成算法的合成效果示例

3 实验与结果分析

3.1 数据集与评价指标

本文实验采用的数据集源自奥格斯堡大学多媒体计算和计算机视觉实验室维护并公开的FlickrLogos-32数据集，作为 Logo识别的benchmark数据集，其通常用于评估多类Logo检测/识别以及真实图像上的 Logo检索方法。FlickrLogos-32共有8 420张图像（包含6 000张不含Logo的图像），分为32类Logo，每类为70张且均具有较为平坦的表面。在实际训练过程中，本文严格按照该数据集的官方划分标准，划分每类Logo仅有10张图像作为训练样本，剩下的60张则作为测试样本，给定如此少的训练样本，一方面无疑对学习具有数百万参数的深层神经网络提出巨大挑战，另一方面也为验证训练样本缺乏条件下基于本文合成算法辅助 Logo识别任务的有效性提供基础实验平台。

目标识别问题通常需要一定的评价指标来评估算法的性能，Logo识别领域中常用的评价指标是mAP（mean average precision）。mAP综合表征了查准率（precision）和查全率（recall），其值越大，表明算法识别性能越好，本文中选择mAP进行算法性能的评估。

表2 本文合成算法实验结果及与文献[12]的对比

3.2 对比实验与分析

首先本文基本复现了文献[12]在 FlickrLogos-32数据集上的实验结果，因为只有严格控制除了合成算法以外再无其他任何算法优化，本文合成算法的有效性验证及与文献[12]方法的对比才有意义。具体而言，本文使用Faster R-CNN目标检测算法作为Logo识别的算法框架，网络结构采用VGG-16，并将其在PASCAL VOC 2007目标检测任务上预训练的模型作为网络的初始化权重，其他相关参数以及训练策略均保持与文献[12]相同。在复现结果的基础上，利用本文合成算法自动地为每类Logo生成100张合成图像以及相应的标注数据，然后依次基于合成图像和真实图像进行Logo识别模型的训练。总体来说，与文献[12]的对比实验主要有以下3个过程。1) RealImg：仅使用320张带标记的真实图像进行模型的训练。2) SynImg-32Cls：仅使用3 200张带标记的合成图像进行模型的训练。3) SynImg-32Cls+RealImg：先使用3 200张合成图像进行模型的预训练，再使用320张真实图像对模型进行精调。相关实验结果如表2所示。需要说明的是，表2中第3大列实验数据分别是每类Logo的AP（average precision）值。

表2中，单纯使用真实图像进行训练，本文（RealImg（Ours））取得了与 RealImg（[12]）近似的实验结果（50.5% VS 50.4%），虽然50.5%是一次实验的结果，但是实际上针对RealImg本文进行了多次实验，mAP值基本在50.0%上下很小幅度变化，导致实验结果不稳定的原因主要在于神经网络算法本身的随机性（如Faster R-CNN使用随机梯度下降的优化算法），因此本文基本复现了文献[12]在 FlickrLogos-32数据集上的实验结果。而在此基础上，采用本文合成算法的SynImg-32Cls（Ours）以及 SynImg-32Cls+RealImg（Ours）均相对于文献[12]的方法取得明显优势（32.6% VS 27.6%, 58.5% VS 54.8%），充分验证了本文合成算法的有效性。更为值得一提的是，取得如此性能的提升既不依赖于额外的手工标注，也不需要像文献[12]那样构建庞大的（463类）常见Logo模板集。

除此之外，笔者还观察到以下情况。1) 仅使用10张真实图像训练，针对32类Logo的识别 Faster R-CNN就已经取得较好的训练结果（mAP 50.5%），这得益于迁移学习思想的运用，网络的初始化权重本文使用的是在 PASCAL VOC数据集上预训练的模型。2) 虽然SynImg-32Cls（Ours）相对于 SynImg-32Cls（[12]）有很大的提升，但是仅使用合成图像进行训练的效果仍与使用少量真实图像的方法存在很大的差距，造成该现状的潜在原因可能是真实图像与合成图像之间存在较大的分布差异，模型在合成图像上学习到的细节难以泛化到真实图像中，即通常所说的域漂移问题[29]。从这个角度上看，合成数据扩展训练集方法的关键在于如何优化合成算法以尽可能缩小合成图像与真实图像间的分布差异，而本文算法在本质上也是通过利用多种类型的上下文信息在此方面进行尝试与努力。3) 基于先使用合成与真实的混合数据进行训练，再用真实图像进行精调（fusion + RealImg）的训练策略，模型将取得更好的训练结果（mAP 58.9%）。文献[12]中为了验证课程学习思想的有效性，仅限于使用混合数据进行训练，没有再进一步地利用真实数据。实际上，笔者认为“先混合再真实”的训练策略与课程学习“先易后难”的核心思想是一致的，这也启发笔者扩展迁移学习的训练思路，以往在训练一个深层神经网络之前，笔者通常会在更通用的大数据集上进行预训练以获得网络的初始化权重，而现在笔者可以预先将目标数据集与通用大数据集混合起来进行训练，然后在目标数据集上进行精调，这应当能取得可预期的更好结果。

图10给出了基于本文合成算法在FlickrLogos-32测试集上的部分实例测试结果，可以发现算法对于目标的多尺度、多视角、旋转变形以及部分遮挡等情形具备一定的顽健性。

图10 基于本文算法在FlickrLogos-32测试集上的测试结果示例

3.3 进一步的验证

为了定量地探究本文合成算法中每项改进细节对算法性能的影响，本文针对算法中的每项改进进行了补充实验。这组实验的基线方法为表 2中SynImg-32Cls + RealImg（Ours），每次实验控制忽略合成算法中的一项改进细节，训练策略均按照先使用3 200张合成图像进行模型的预训练，再使用320张真实图像对模型进行精调，具体有以下5个过程。1) Transparent Only：用于合成的Logo模板仅选择背景完全透明的 Logo图像。2) Pixel-level Only：用于合成的Logo模板仅选择像素级别的Logo掩码。3) Random Context：用于合成的背景图像任意选取，不考虑语义相关性。4) No Logo Transformations：合成前不对Logo模板进行任何变换。5) Random Position：合成图像中 Logo模板的放置位置完全随机。相关实验结果如表3所示。

表3 本文合成算法每项改进对性能影响的定量实验结果

表3中，从宏观上可以看出，与基线方法相比，本文合成算法的每项改进对最终识别模型的性能提升都起到了促进作用，进一步验证了基于本文合成算法的有效性。更具体地观察到如下事实。1) 采用像素级别的Logo掩码进行合成的效果要优于采用背景完全透明的情形（58.1% VS 57.8%），这表明 Logo掩码中包含的局部上下文信息对于相关特征的学习是有所裨益的，但相较而言仍是综合使用两者的效果更好。2) 不考虑上下文一致性的随机背景选取做法会造成一定程度的性能损失（56.7% VS 58.5%），这表明合成图像中全局上下文信息对于特定对象的识别有着关键的辅助作用。3) 针对Logo模板进行的增强变换对于性能提升的效果最显著（56.3% VS 58.5%），这直接证明了传统数据增强对最终模型的识别性能以及泛化能力有着非常重要的影响。4) 仅在数据层面上优化合成位置的做法对算法性能会产生微小提升（58.2% VS 58.5%），性能提升受限的可能原因在于神经网络算法对于图像细节的感知方式与人类视觉系统存在一定的差异，合成图像中的一些低级视觉特征对于最终性能的影响较为有限。

最后，本文还探究了基于合成数据方法前提下参与训练的合成样本数量对算法性能的影响。

如图所示，图11(a)为仅用合成图像进行训练的结果，图11(b)为先用合成图像进行训练、再用真实图像进行精调的结果。从图中可以看出，适度增加参与训练的合成样本数量能够在一定程度上提升识别模型的性能。由于从该角度出发的探究更像是一项具体的调参工作，因此本文对此并未展开更加深入的研究。

图11 合成样本数量对算法性能的影响

4 结束语

本文针对深度学习框架下 Logo识别任务中标注数据缺乏的问题，从自动合成大规模训练数据的角度，在现有合成思路的基础上，提出了一种基于上下文的 Logo图像合成算法。通过在FlickrLogos-32数据集上的详细实验，表明当只有少量标注数据可用时，采用本文的合成算法能够在不依赖额外手工标注的前提下，实现 Logo识别算法性能的较大幅度提升（mAP提升 8.5%，50.4% VS 58.9%，如表2所示），充分验证了本文合成算法的有效性与优越性，同时进一步表明多种类型的上下文信息能够有效地提升目标识别算法的性能。此外，本文基于合成数据前提下探究的诸多训练策略与方法具备一定的借鉴和推广意义。由于对于合成图像中 Logo位置的优化本文仍停留在数据层面，如何更深层次地利用上下文信息以及进一步缩小合成样本与真实样本间的分布差异将是本文下一步的研究方向。

参考文献：

[1]符亚彬. 基于 Logo标志检测的暴恐视频识别系统的设计与实现[D]. 北京：北京交通大学,2016.FU Y B. Design and implementation of violence and fear video recognition system based on Logo mark detection[D]. Beijing：Beijing Jiaotong University,2016.

[2]GAO Y, WANG F, LUAN H, et al. Brand data gathering from live social media streams[C]//ACM International Conference on Multimedia Retrieval. 2014：169.

[3]PAN C, YAN Z, XU X, et al. Vehicle logo recognition based on deep learning architecture in video surveillance for intelligent traffic system[C]//IET International Conference on Smart and Sustainable City. 2013：123-126.

[4]HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision. 2017：2980-2988.

[5]WANG X, SHRIVASTAVA A, GUPTA A. A-Fast-RCNN： hard positive generation via adversary for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017：3039-3048.

[6]LIU W, ANGUELOV D, ERHAN D, et al. SSD： single shot MultiBox detector[M]//Computer Vision-ECCV 2016. Springer International Publishing, 2016：21-37.

[7]JOLY A, BUISSON O. Logo retrieval with a contrario visual query expansion[C]//International Conference on Multimedia 2009.2009：581-584.

[8]KALANTIDIS Y, PUEYO L G, TREVISIOL M, et al. Scalable triangulation-based logo recognition[C]//ACM International Conference on Multimedia Retrieval. 2011：1-7.

[9]ROMBERG S, PUEYO L G, LIENHART R, et al. Scalable logo recognition in real-world images[C]//ACM International Conference on Multimedia Retrieval. 2011：25.

[10]HOI S C H, WU X, LIU H, et al. LOGO-Net： Large-scale deep logo detection and brand recognition with deep region-based convolutional networks[J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2015, 46(5)：2403-2412.

[11]BIANCO S, BUZZELLI M, MAZZINI D, et al. Deep learning for logo recognition[J]. Neuro Computing, 2017, 245(C)：23-30.

[12]SU H, ZHU X, GONG S. Deep learning logo detection with data expansion by synthesising context[C]//IEEE Winter Conference on Applications of Computer Vision. 2017：530-539.

[13]CHEN X, GUPTA A. Webly supervised learning of convolutional networks[C]//IEEE International Conference on Computer Vision.2016：1431-1439.

[14]SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2016). 2016：761-769.

[15]GUPTA A, VEDALDI A, ZISSERMAN A. Synthetic data for text localisation in natural images[C]//IEEE Computer Vision and Pattern Recognition. 2016：2315-2324.

[16]JADERBERG M, SIMONYAN K, VEDALDI A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1)：1-20.

[17]GEORGAKIS G, MOUSAVIAN A, BERG A C, et al. Synthesizing training data for object detection in indoor scenes[C]//Robotics：Science and Systems. 2017.

[18]EGGERT C, WINSCHEL A, LIENHART R. On the benefit of synthetic data for company logo detection[C]//ACM International Conference on Multimedia. 2015：1283-1286.

[19]REN S, HE K, GIRSHICK R, et al. Faster R-CNN： towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. 2015：91-99.

[20]BENGIO Y, COLLOBERT R, WESTON J. Curriculum learning[C]//ACM International Conference on Machine Learning.2009：41-48.

[21]LIU B. Modest proposal for the principle of logo design[J]. Packaging Engineering, 2005, 127(2)：222-222.

[22]OLIVA A, TORRALBA A. The role of context in object recognition[J]. Trends in Cognitive Sciences, 2007, 11(12)：520.

[23]MOTTAGHI R, CHEN X, LIU X, et al. The role of context for object detection and semantic segmentation in the wild[C]//IEEE Computer Vision and Pattern Recognition. 2014：891-898.

[24]KATTI H, PEELEN M V, ARUN S P. How do targets, nontargets,and scene context influence real-world object detection?[J]. Attention Perception & Psychophysics, 2017(2)：1-16.

[25]ZHOU B, LAPEDRIZA A, KHOSLA A, et al. Places： a 10 million image database for scene recognition[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 99： 1-1.

[26]GUO J, GOULD S. Deep CNN ensemble with data augmentation for object detection[J]. Computer Science, 2015.

[27]OLIVEIRA G, FRAZÃO X, PIMENTEL A, et al. Automatic graphic logo detection via fast region-based convolutional networks[C]//IEEE International Joint Conference on Neural Networks. 2016.

[28]MUNNEKE J, BRENTARI V, PEELEN M. The influence of scene context on object recognition is independent of attentional focus[J].Frontiers in Psychology, 2013, 4(8)：552.

[29]NGUYEN H V, HO H T, PATEL V M, et al. DASH-N： joint hierarchical domain adaptation and feature learning[J]. IEEE Transactions on Image Processing, 2015, 24(12)：5479-5491.