融合颜色特征和深度特征服装图像检索算法

2020-10-15 11:01侯媛媛何儒汉刘军平
计算机应用与软件 2020年10期
关键词:检索向量卷积

侯媛媛 何儒汉 刘军平

(湖北省服装信息化工程技术研究中心 湖北 武汉 430200)

0 引 言

伴随电子商务行业的快速发展,服装行业作为其中重要一部分,其数据量不断增多。为了处理海量的服装图像数据,一种全新的线上服装搜索模式被用户所使用——“以图搜图”,其核心是图像检索技术。服装图像检索作为服装智能推荐、服装搜索等应用的核心,具有广泛的市场应用前景。服装展现出当代人的一种潮流趋势及品味,大量的语义及细节信息蕴含其中,服装的色彩搭配及款式是其重要的语义信息,纹理和材质等表现其细节信息。然而服装不规则的外形、柔软的材质、较强的可变形性以及对光照的敏感性等,使服装图像检索快速精准的实现成为了一个极具挑战的难题。基于内容的图像检索(Content-based Image Retrieval,CBIR)[1-5]是服装图像检索领域研究的主流方法。其过程可大致分为两类:① 提取数据库图的表示向量;② 将待检索图片的表示向量与库向量中的每个向量进行距离度量,以最近邻方式进行搜索。一幅图片表示向量的好坏直接决定了图像检索算法的优劣。早期的研究主要是基于颜色、形状和纹理三大视觉特征,将其单一特征[6-7]或聚合特征[8]作为服装图像的全局表示向量。黄冬艳等[9]首先对待检索图片做了联合分割处理,然后提取出分割后的服装图片的Bundled和颜色特征,最后与特征库中的服装图像特征进行相似性度量。陶彬娇等[10]将分块加权颜色直方图与Grabcut图像分割算法相结合,提升了对复杂背景的服装图片的检索效果,优于分别单独使用这两种方法。葛俊等[11]进行两次检索,首先利用颜色直方图,再使用局部二值模式(Local Binary Patterns,LBP)算子对第一次的返回结果进行二次检索。Gupta等[12]获得服装图片的颜色和纹理的特征,通过计算向量距离得出检索结果。陈倩等[13]计算颜色直方图的特征值占比,然后将其进行降序排列,去掉占比较小的值,则服装图片的主要颜色被保留并用于图像检索。近几年,随着深度学习的兴起,其在处理计算机视觉任务上有了一系列重大的突破,此方法利用深度神经网络从大量的训练数据集中提取深层特征,发现训练的图片信息中隐藏的表征特征。由于卷积神经网络(Convolutiona Neural Networks,CNN)[14]具备较强的非线性表示能力,能学习到图片更深层次的信息,所以在图像分类[15-17]、图像分割[18]和目标检测[19-21]等领域都表现出较好的性能。如今基于卷积神经网络的服装图像检索方法成为了该研究的主流方向。

早期CNN在图像检索方面的应用,主要是提取深度网络的全连接层作为图片的特征向量[22-23]。林城龙[24]提出了一个更加轻量的深度卷积神经网络模型(Lighten-VGGNet),采用多任务分类方法对层次化标注后的服装图像数据分类,使得网络在分类时所提取的特征拥有对更多细化服装类别属性的表示能力,从而使服装图像分类准确率得以提升。然而只提取全连接层无法保持空间结构,且该特征更多的是表示全局信息,丢失了服装图片的局部特征信息,导致检索的平均精度均值(mean Average Precision,mAP)较低,所以融合多种服装图片特征,成为服装图像检索的热门研究方法[25-29]。陈媛媛等[25]基于深度卷积神经网络定位服装关键点,将关键点局部区域的特征与全局特征进行融合。Huang等[26]提出双路神经网络模型,其不仅提取全连接层特征,同时对靠前的卷积特征层下采样,然后将结果与全局特征组合在一起。Liu等[27]设计了目前最大的标注服装图像数据库DeepFashion(超过80万幅图片,50个细粒度类别和1 000个属性),其将VGG 16[15]最后一层卷积分为三个分支,一分支进行特征点可见性预测以及位置回归,另外两个分支分别提取图片的局部特征(有助于应对服饰变形和遮挡问题)和全局特征。Li等[28]采用多任务深度学习框架来学习表示,提出了用于不平衡学习的多重深度卷积神经网络。陈彦杰[29]利用了Faster RCNN[20]的框架,首先定位服装的位置,然后利用关键点定位对服装进行特征点(landmark)定位,抽取各特征点附近的服装特征作为局部特征,最后和全局分支的特征进行特征融合作为最终的特征表示。

虽然上述方法融合了局部和全局特征且都在一定程度上提高了检索的mAP,但是检索出的服装款式相似而颜色差异较大。在服饰上,色彩起到了视觉醒目的作用,人们首先看到的是颜色,其次才是其样式、纹理等,所以颜色在服装图片分类检索中是一个重要属性,是评判检索优劣的重要指标之一。而通过深度网络获取的特征涵盖的颜色信息较少,所以本文提出一种新的服装图像检索方法,即以ResNet50[17]为基础网络,提取出其深层征和颜色特征,融合全局特征和局部特征进行检索,综合考虑服装图片的多种特征。在一个较大规模的服装图像数据集deepfashion[27]的一个子集上进行,综合利用ResNet50提取图像的两种特征:深层网络特征和颜色特征,利用ResNet50全局平均池化(Global Average Pooling,GAP)层降低模型的参数数量,与平均池化后的原图对比获取颜色特征,融合颜色特征和深层网络特征,获得较好的特征表达能力,有益于取得较好的检索准确率。

1 基于深度网络的多特征融合服装图像检索框架

基于深度网络的多特征融合服装图像检索包括特征提取和相似性度量两个过程,如图1所示。特征提取过程中,先将数据集中的图片输入到预训练好的网络模型中,提取出通过网络层输出的深层特征,再使用聚合方法融合其他的特征信息作为图像的全局特征表示,存入到特征库中;相似性度量过程,是将待检索的服装图片输入到与数据集相同的神经网络中,并使用同种聚合方法,获取待查询服装图片的全局特征向量,通过比较待查询图片特征向量与特征库中向量的距离,来进行相似度的排序,按距离升序排列返回检索结果。特征提取方法的好坏直接影响了检索的准确率,这是本文研究的重点。

图1 基于深度网络的多特征融合服装图像检索框架

2 融合颜色特征和残差网络深度特征的方法

2.1 模型设计

针对直接提取全连接层的特征进行服装图像检索而带来的颜色效果不鲜明的问题,充分提取服装图片的特征,提高其检索的平均准确率,提出一种融合颜色特征和深度特征的服装图像检索方法。因实验数据集较大,网络层的加深有利于训练大型数据集,但有时深层网络训练时出现过拟合效果反而没有浅层网络好。针对这种情况,残差网络[17]随之出现在各种计算机视觉领域被广泛应用,解决了网络层越多效果反而越不明朗的退化现象以及网络层增加梯度爆炸等问题,且ResNet50[17]网络自身融合了多层网络结构,具有一定的层次性。所以本文实验预训练网络模型以其为基础,去掉其最后的两层全连接层,增加FC1层和FC2层,分别输出512维和30维(本实验数据集选取了30种类别的图片)的特征向量。融合颜色特征的深度网络模型如图2所示。

图2 融合颜色特征的深度网络模型

2.2 方法概述

(1)将训练数据集以224×224大小输入到ResNet50为基础的网络模型中。

(2)融合深层特征和颜色特征得到图片全局特征,并建立特征库。提取FC1层512维向量作为深度特征向量;网络层的最后一层卷积层提取特征图进行平均池化,得到一个矩阵,记录最大的10个值的位置,对原图的RGB同样做平均池化得到矩阵,根据以上选出的10个位置,取出原图池化后矩阵相应位置的RGB值,得到一个10×3的二维矩阵,将其标准化后转换为一个30维的向量,作为图片的颜色特征;将得到的两种向量进行串行合并,输出542维向量作为图片最终的全局特征表示,保存在特征库中。

(3)使用K-means算法对特征库中的向量进行聚类,设置类簇数K=30(服装数据集类别数维30)。

(4)用相同方式获取待检索图片的全局特征向量。

(5)依次计算聚类中心的向量与待检索图片向量量的距离(为负数),得到与目标图片特征向量距离最近的N个结果对应的图片作为检索结果显示。N可取值为5、10、20三个参数。

2.3 深层网络特征提取

向深度卷积网络输入一个C×H×W的三维张量,C表示特征的通道数,初始值为3;H和W分别表示输入图片的高和宽的像素大小。在图2中,图片经过多层卷积操作,每一层卷积的输入为上一层的输出,计算方法如下:

(1)

(2)

经过卷积后的特征图维数较高、参数较多,增加了计算的时间和难度,所以池化层作为一个重要操作出现在卷积操作之后,其不仅减小了网络模型的计算难度,而且提升了模型的泛化能力。残差网络采用了平均池化(mean-pooling)对邻域内特征点求平均值,池化操作公式如下:

(3)

式中:down()为池化操作过程,池化操作输出结果乘以权重β加上偏置b之后,再经过激活函数f()输出最终结果。

如图2所示,以ResNet50[17]为主网络模型,其最后的卷积层输出若干个7×7的卷积结果,去掉其最后的两层全连接层,加入两个全连接层:FC1层和FC2层,分别输出512维和30维(本实验数据集选取了30种类别的图片)的特征向量。对网络模型进行微调,使用已有的ResNet50模型及参数,来训练全连接层的参数,得到一个拟合服装图片数据集的网络模型,提取FC1层的512维的向量,作为本文的深层网络特征。FC1层融合了ResNet50网络中三个模块的网络特征,使提取的深层特征具有一定的有效性和层次性。

2.4 服装颜色特征提取

网络模型的最后一层卷积层中有2 048个7×7卷积,因此可以直接利用卷积层后的特征图提取信息较强位置的RGB值。经过几十次卷积操作之后保留的特征图的信息更加具有针对性,对其进行平均池化后得出7×7的矩阵,在其中选择最大的10个值,并记录其位置。然后将原图的RGB值做平均池化,池化为7×7的矩阵,根据上一步得到的10个值最大的位置,选出图片中相对应的10个RGB值得到3×10维的颜色特征,将该矩阵标准化处理,z-score标准化公式如下:

(4)

式中:x表示真实值;μ表示矩阵的平均值;σ表示标准差。之后将矩阵转换为一个30维向量。最后将全连接层得到的512维向量与30维颜色向量进行并行连接,得到一个542维的特征向量,作为最终的特征表示。

3 实 验

3.1 数据和参数准备

为了验证本文所提出方法的效果,本实验选用了Category and Attribute Prediction Benchmark作为数据集,其包含20多万数量级的50种类别的服装图片,本实验从其子集中抽取6万训练集、2万测试集和2万验证集进行试验,其中包含30种类别的图片。实验采用Python编译并实现。

特征库中所有图像的深度特征均是基于Pytorch框架的网络层所提取的,这些网络参数是在ImageNet数据集上预先训练好的。

3.2 评价指标

在检索策略中,通常采用平均精度均值(mean Average Precision,mAP)来判断检索效果的优劣,一次检索完成后,与待检索图片相似的图片数量占检索出图片总数量的比例即为检索准确率。定义如下:

(5)

(6)

3.3 实验结果与分析

为判断融合服装颜色特征和深层网络特征的图像检索方法的性能优越性,本文展开了一系列对比实验,分别以ImageNet上预训练的网络模型:VGG16、GoogleNet、ResNet50为基础进行微调,并提取倒数第二层全连接层的特征,然后以ResNet50网络结构为基础提取两种特征并进行融合(ResNet50+Color)。以四种方法进行实验对比,同时都采用K-means聚类进行检索,根据实验检索返回的前5、10、20幅图片来计算准确率,实验结果如表1所示。可以看出,在服装数据集上,选择的几种卷积神经网络模型中,ResNet50的效果更好。所以本文选择以ResNet50为基础模型,并进行微调,同时增加了颜色特征,本文改进方法的实验结果明显优于没有增加颜色特征的方法,相比之下检索mAP在N=5,10,20时分别提升了4.45%、6.85%、2.49%。因为融合的多种特征比单一的特征更能表达图片的信息,所以本文提出的方法能得到更优的检索结果。

表1 算法模型的检索mAP比较 %

因服装数据集类别较多,所以从30种类别中抽取了8种,在四种不同的算法下进行实验,每种服装图像N=5时的检索准确率如图3所示。从单个类别的服装来看,由于每种类别服装图片数量不同造成准确率有所波动,但是本文方法的平均检索准确率依然高于其他方法。

图3 不同方法下每类服装的mAP(N=5)

ResNet50与ResNet50+Color的特征提取检索对比结果如图4所示,其中:Score表示待检索图片向量与检索出的图片向量的距离计算结果,结果取负数,Score为0表示两幅图片相似度最高,负数越大表示相识度越低。可以看出,只提取全连接层特征,服装的款式虽然相似,但是颜色差异较大;(c)和(d)融合了两种特征之后,不论是服装的颜色还是款式,都能得到预期的效果,所以融合两种特征明显提高了服装图像检索的mAP,比单一的特征更能表示图片信息。

(a)只提取ResNet50全连接层特征检索结果

表2为N=5时只提取ResNet50全连接层特征和提取两种特征并进行融合检索的准确率和时间对比。可以明显看出,融合了颜色特征和深层网络特征之后进行检索虽然提高了检索精度,但是检索时间增加了,原因是使用两种特征融合增加了特征表示向量的维度,所以在进行相似性度时耗时要长一些。

表2 ResNet50与ResNet50+Color方法检索的mAP与时间比较

4 结 语

本文提出的融合颜色特征和深度特征服装图像检索算法,通过ResNet50预训练网络模型提取服装图片自身深层网络特征和颜色特征,将两个特征向量进行并行连接,最终通过K-means对特征进行聚类检索,从而提高检索效率,减小时间开销。实验对比结果显示,本文算法的mAP明显要高于直接使用ResNet50深度网络提取的单一特征算法,且显示的检索图片效果款式和颜色相似性明显,检索时间虽然比单一特征提取耗时长,但是相差并不大,对检索没有造成很大的影响。深度学习需要大量的数据量支持,后续可以增加服装图片量或者换其他数据集进行实验验证,优化网络模型,以进一步提高检索的准确率。

猜你喜欢
检索向量卷积
基于全卷积神经网络的猪背膘厚快速准确测定
向量的分解
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
聚焦“向量与三角”创新题
CNKI检索模式结合关键词选取在检索中的应用探讨
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
英国知识产权局商标数据库信息检索