基于灰度域特征增强的行人重识别方法

2022-01-05 02:32龚云鹏曾智勇
计算机应用 2021年12期
关键词:集上灰度全局

龚云鹏,曾智勇,叶 锋

(福建师范大学计算机与网络空间安全学院,福州 350117)

(∗通信作者电子邮箱zzyong@fjnu.edu.cn)

0 引言

视频分析及图像侦查技术在安防、智慧城市、民生服务等方面发挥了愈来愈强大的作用。行人重识别(Person Re-Identification,ReID)是对行人进行跨摄像头检索,从而判断图像或者视频序列中是否存在特定身份行人的技术[1]。这项任务的挑战在于不同摄像头拍摄的图像往往包含由视角、人体姿态、光线变化、遮挡等变化引起的显著的类内变化,即同一行人图像的表观可能会发生了巨大的变化,使得行人间的类内(同一个行人)的差异可能大于类间(不同行人)差异,因此,寻找更加鲁棒的特征与度量方法来有效地解决上述问题,已经成为ReID的主要目标之一。

本文提出的方法通过模拟行人样本的颜色信息丢失并从数据增强的角度强调样本的结构信息,促进模型学习到更稳健的特征。灰度图像可以看作是丢失了一些颜色信息但保留了空间结构的RGB 图像。在人类认知上,人类通过灰度图片就可以很好地辨别不同的行人。因此,探究如何充分利用灰度信息,减少颜色信息偏差对ReID 的影响是一个重要的问题。为了探究灰度图像在ReID 任务中的所能起到的作用,本文设计了如下的灰度贡献率测试实验:

通过图像的灰度变换将可见光RGB 图像构成的数据集A1 转换成由灰度图像构成的数据集A2,然后分别用A1 和A2在同一个基准模型上训练和测试,并把模型在RGB 数据集和其对应灰度数据集上相应性能评价指标的比值当作灰度信息的贡献率,如图1所示。

图1 灰度贡献率实验示意图Fig.1 Schematic diagram of experiment on grayscale contribution rate

表1 则展示了在ReID 三个数据集上测试得到灰度图像在各数据集上对模型性能的贡献度,其中:Rank-1、Rank-5、Rank-10表示按相似度排序的查询结果中第1、5、10个返回结果的平均准确率,mAP 表示平均精度均值(mean Average Precision)。可以看出,灰度图像对检索精度的贡献率占87%以上。值得一提的是,在Rank10 中,灰度图像对检索精度的贡献率高达95%以上。

表1 不同数据集上在各评价指标上的灰度贡献率 单位:%Tab.1 Grayscale contribution rate on each evaluation index on different datasets unit:%

图2直观地展示了利用灰度进行数据增强(图2(a))和利用生成对抗网络(Generative Adversarial Network,GAN)进行数据增强(图2(b))这两种数据增强方式的对比。如图2(a)中第一行彩色图像和第二行灰度图像所示(第一列图像给出来正常情况下的对比,其余列为具有颜色偏差的情况下的对比),各数据集中普遍存在着行人对比度低的着装、暗色系和灰色系着装、行人的移动而引起的图像模糊或分辨率低、光线变化等引起的颜色偏差等问题,这些因素使得图片本身会更接近于灰度图片。由于颜色偏差问题客观存在且不可避免,即使颜色偏差不是趋向于介于黑白的灰度形式而是看起来整体图像偏向于某一色调,总体情形也是相似的,因为这种情况下模型在判别过程中所依赖的颜色信息都已经不再可靠,而图像结构信息就显得尤为重要。这也直观地揭示了为什么在评价指标Rank-10 上灰度图像对检索精度的贡献率能够高达95%以上。这些证据表明灰度图像的空间结构信息在ReID检索任务中具有很大的潜力。

如图2(b)所示,Zheng 等[5]提出的DGNet 利用GAN 为图像上的每一个行人换上其他行人的衣着,生成了更多样化的数据来降低颜色变化对模型的影响,有效提升了模型的泛化能力。该结果表明,通过减少模型训练过程中对颜色信息的过度拟合,可以有效提高模型的泛化能力。实际上,本文提出的局部灰度转换(Local Grayscale Transformation,LGT)方法通过随机将RGB 图像中的某些区域转换为灰度也可以达到相同的目的。

图2 两种数据增强方式对比Fig.2 Comparison of two data augmentation approaches

基于对灰度贡献率的探索,本文提出了一种有效的数据增强方法来模拟行人图像颜色信息的丢失来提高特征的鲁棒性,所提方法包括全局灰度转换(Global Grayscale Transformation,GGT)、局部灰度转换(LGT)以及这两者的组合。该方法有以下的优点:

1)它是一种轻量级方法,可以在不改变学习策略的情况下与各种卷积神经网络模型相结合;

2)它是现有数据增强的一种补充方法,当组合其他方法使用时,本文方法可以进一步提高模型识别精度。

本文的主要工作如下:

1)针对ReID 提出了一种有效的数据增强方法,充分利用灰度图像的结构信息和RGB 图像的颜色信息,两者的互相补充有效解决了ReID 训练过程中颜色偏差所带来的不良影响,提升了现有模型的性能上限。

2)通过大量实验和分析验证了本文方法能有效提升ReID 性能。本文方法可以为ReID 未来的研究提供一个有效增长的方向,并在多个基准和具有代表性的数据集上验证了所提方法的有效性。

1 相关工作

自深度学习被引入到ReID 领域后,短短几年间就取得了快速的发展,先后公开的数据集很快就被不断提出的模型和方法逼近识别精度的上限。诸如的随机裁剪、随机翻转等众所周知的简单数据增强技巧在分类、检测和ReID 领域发挥了重要作用。利用GAN[6]来增加训练数据也是ReID 研究的一个活跃领域[3,7-8],该类方法能增加训练数据的多样性,从而在一定程度上提升模型的泛化能力。此外,最近的研究提出了一些有针对性的方法来从不同的角度帮助模型提高泛化能力。随机擦除[9]在训练过程中模拟真实场景中频繁遇到的遮挡问题,在一定程度上有效解决了识别任务面临遮挡问题时泛化能力不足的缺陷,成为公认有效的方法。Fan 等[10]发现学习率对ReID 模型的性能有很大的影响,为了取得更好的性能它采用了一种预热策略来引导网络尽可能跳出局部最优解。Zhong 等[11]提出的k倒数编码来对检索得到的结果进行重新排序以提升模型精度,这一技巧被称之为re-Rank,同样是一种公认提升模型性能的方法。Circle Loss[12]从统一的相似度配对优化角度出发,统一了分类学习和样本对学习两种基本学习范式下的损失函数,在Market-1501数据集上取得了CVPR2020的最高识别精度。IANet(Interaction-and-Aggregation Network)[13]针对ReID 图像空间位置不匹配的问题,通过设计空间交互聚合模块和通道交互聚合模块实现自适应地确定感受野和增强特征表示,以克服卷积神经网络难以应对建模人体姿态和尺度的巨大变化这一固有局限。AdaptiveReID[14]通过将可训练的标量变量作为正则化因子来实现正则化因子的反向传播进行自适应更新。据我们所知,该方法在MSMT17数据集上取得了目前的最高识别精度。此外,还有其他一些方法[15-19]从空间通道相关性、局部信息匹配、注意力方面来改善模型性能,虽然以上这些方法各不相同,但它们分别从不同的角度和环节提高了ReID 模型的泛化能力。这激励我们打开思维,从更多的角度寻找方法来解决问题。

2 全局灰度转换与局部灰度转换

由于灰度图像的结构信息对ReID 模型性能有很大影响,为了充分利用灰度结构信息并降低ReID 模型对颜色信息的过度拟合,本文提出了随机灰度转换,它包括全局灰度转换(GGT)、局部灰度转换(LGT)以及这两者的组合。通过在训练数据中以一定的概率将输入图像进行随机灰度转换让模型更充分地挖掘灰度信息的潜力以增强模型的泛化能力。本文方法的框架如图3所示。

图3 本文方法框架Fig.3 Framework of the proposed method

2.1 全局灰度转换

全局灰度转换在数据加载过程中随机抽取K个身份,对每个身份抽取m个RGB 样本图像来组成一个训练批组。用集合表示为表示训练批组的第i个样本图像,yi表示样本图像的类别标签。然后以一定的概率随机将整个批组的训练图像进行全局灰度转换,最后再输入到模型中进行训练。对于每个RGB 样本图像的灰度转换可以由如下公式实现:

其中:t(⋅)是全局灰度图像转换函数,通过在原始的可见光RGB 图像的R、G、B通道上应用灰度变换函数执行逐像素累加计算实现。转换后的图像标签和原来保持一致。用xg表示转换后得到的灰度样本图像,则有如下公式:

2.2 局部灰度转换

局部灰度转换在训练中同样按一定概率进行。对于原始的RGB 图像I,假设随机灰度转换的概率为p,则保持不变的概率为1-p。该方法在图像中随机选择一个矩形区域,并用其对应的灰度图像中相同的矩形区域的像素进行替换。其中Sl和Sh为最小和最大的矩形区域的面积比例,通过Sg=Rand(Sl,Sh)×S得到限定在最小和最大比例之间的随机矩形区域的面积大小Sg。rg是一个系数,用来将得到的随机矩形宽、高的具体数值以确定矩形的形状,它被限定在(r1,r2)区间。根据经验,本文以Sl=0.03,Sh=0.4,r1=0.3,r2=1/r1作为基础设置。(xg,yg)为随机得到的该矩形的左上角坐标,如果这个坐标会导致随机生成的矩形超出图片范围,则重新确定矩形的面积、形状和位置坐标,直到找到了一个符合要求的矩形。最后对原始RGB 图像中的目标区域使用灰度像素进行替换,由此产生了不同灰度替换区域的训练图像。如图4所示,这个过程中训练图像的整体结构没有遭到破坏,方框指出了灰度转换的部分。该方法实现了数据的多样化,并保留了RGB 图像的空间结构信息。根据上述过程,本文建立局部灰度转换算法如下:

图4 局部灰度转换示意图Fig.4 Schematic diagram of local grayscale transformation

输入 RGB 图像I,图像的宽W和高H,图像的面积S,局部灰度转换概率pr,灰度转换面积比例范围(Sl,Sh),形状比例区间(r1,r2)。

输出 局部灰度转换图像I*。

1)由Rand(r1,r2)得到一个属于(0,1)区间的随机数p1,若p1>pr则直接返回原图像。

2)while True

2.1)通过计算Rand(Sl,Sh)×S得到目标矩形区域的面积大小Sg。

2.2)由Rand(r1,r2)获得(r1,r2)区间范围内的一个随机数rg,并通过计算Sqrt(Sg×rg)和Sqrt(Sg/rg)得到目标矩形区域的宽Wg和高Hg。

2.3)分别由Rand(0,W)和Rand(0,H)随机得到目标矩形的左上角坐标(xg,yg)。

2.4)如果由目标的左上角坐标(xg,yg)和其宽Wg高Hg构造出来的矩形区域在图像范围内,则将可见光图像上的目标区域替换为灰度;否则重新生成目标区域的宽高和其左上角坐标。

2.5)返回局部灰度转换图像。

2.3 损失函数

除此之外,xv和xg使用一个共享身份分类器φ进行训练。使用分类器φ识别,对其身份标签yi的预测概率表示为。身份损失表示如下:

综上所述,进行随机灰度转换时总体损失表示如下:

3 实验比较与分析

本文在三个基准模型上进行实验来验证所提方法的有效性,它们分别是ReID Baseline[20]、Strong Baseline[21](SB)和FastReID[22](FR)。ReID Baseline 和Strong Baseline都基于ResNet-50[23]骨干网络实现,FastReID 基于IBN-ResNet101[24]骨干网络实现。

3.1 数据集和评价指标

本文在ReID 的三个具有代表性的数据集上进行对比实验,它们分别是MTMC17、DukeMTMC和Market-1501数据集。

MSMT17数据集是2018年提出的更接近真实场景的大型数据集,总共包含4 101 个独立人物,涵盖了多场景多时段。该数据集共包含15 个摄像头,其中包含12 个户外摄像头和3个室内摄像头。在一个月里选择了具有不同天气条件的4 天进行数据采集,每天采集3 h,涵盖了早上、中午、下午三个时间段。

DukeMTMC 数据集是一个大规模标记的多目标多摄像机行人跟踪数据集,于2017 年提出。它提供了一个由8 个同步摄像机记录的新型大型高清视频数据集,具有7 000多个单摄像机轨迹和超过2 700多个独立人物。

Market-1501 数据集于2015 年构建并公开。它包括由6个摄像头(其中5 个高清摄像头和1 个低清摄像头)拍摄到的1 501个行人。

以上数据集是目前开源ReID 数据集中最大的3 个数据集,它们总体包含了多季节、多时段、高清与低清摄像头,具有丰富的场景和背景以及复杂的光照变化,因此也是最具代表性的。

ReID 最主要的两个性能指标是首选准确率(Rank-1)和平均准确率(mAP)。其中Rank-1 表示每个查询图片对应的第一(最相似)返回结果的平均准确率;mAP 表示返回查询结果的平均精度均值,查询中正确的结果越靠前得分就越高。

3.2 超参数设置

训练过程中有两个超参数需要确定,其中一个是全局灰度转换概率pg。取超参数pg分别为0.01、0.03、0.05、0.07、0.1、0.2、0.3、…、1,使用ReID Baseline 基准在Market-1501 数据集上进行实验,对每个参数取值进行3 次独立重复实验取平均值得到的最终结果如图5。从图5 中可以看出,当pg=0.05时,模型的性能在评价指标Rank-1和mAP上都一致地取得了最大值,最佳结果在Rank-1 和mAP 上比基准提高了0.7个百分点和1.9 个百分点;在同样使用reRank(表示对检索结果使用了重排序技术)的条件,此时Rank-1 和mAP 比基准提高了1.5 个百分点和1.7 个百分点。当pg>0.2 时,模型性能会受到负面影响。

图5 全局灰度转换中不同超参数下的模型性能Fig.5 Model performance in global grayscale transformation under different hyper-parameters

另一个需要确定的超参数是局部灰度转换概率pl,在Market-1501 数据集上进行实验得到的最终结果如图6 所示。从图6中可以看出,当pl=0.4和pl=0.7时模型可以取得较好的性能,而当pl=0.4 时模型的综合性能最好,最佳结果在Rank-1 和mAP 上比基准提高了1.2 个百分点和3.3 个百分点;在同样使用reRank 的条件下,此时Rank-1 和mAP 比基准提高了1.5 个百分点和2.1 个百分点。不论pl取何值都不会对模型的性能带来负面的影响。

图6 局部灰度转换中不同超参数下的模型性能Fig.6 Model performance in local grayscale transformation under different hyper-parameters

3.3 性能比较

局部灰度转换与全局灰度转换的最佳结果相比,精度在Rank-1 和mAP 上分别提高了0.5 个百分点和1.4 个百分点;在同样使用reRank 的条件,mAP 提高了0.4 个百分点。这表明局部灰度替换在不使用reRank时优势更明显。然而图6也表明局部灰度替换所带来的性能提升不够稳定,具有比较明显的波动变化,而全局灰度转换所带来的性能提升比较稳定。因此本文通过结合两者来提升性能表现的稳定性。

在结合使用全局灰度转换与局部灰度转换时,由于全局灰度替换的性能表现比较稳定,并且在pg=0.05 时取得最佳性能,因此本文实验固定全局灰度替换的超参数值为pg=0.05,再确定局部灰度替换的超参数。使用ReID Baseline 基准在Market-1501 数据集上进行两者的结合实验,结果如图7所示。从图7 可以看出,两者结合使用后模型性能的提升表现更为稳定且波动更小,并且在局部灰度转换的超参数取值pl=0.4时,模型的综合性能表现最佳。因此本文在接下来的实验中设置超参数为pg=0.05,pl=0.4。

图7 全局灰度转换与局部灰度转换结合的模型性能Fig.7 Model performance with combining global grayscale transformation with local grayscale transformation

本文方法与先进方法在三个数据集上的性能比较如表2~4 所示,其中:+GGT 表示使用全局灰度转换,+LGT 表示使用局部灰度转换,+GGT&LGT 表示上述两者的结合使用;+reRank 表示对检索结果使用了重排序技术;括号内数值表示相对于原始基准所提升的性能,如表2 的SB+GCT(94.6%)与SB(94.5%)相比,Rank-1提升了0.1个百分点。

表2 Market-1501数据集上不同方法的性能比较 单位:%Tab.2 Performance comparison of different methods on Market-1501 dataset unit:%

Strong Baseline 和FastReID 这两个基准训练时默认使用了随机翻转、随机裁剪、随机擦除等数据增强方法,本文方法在使用它们的基础上能进一步提升模型精度,这表明本文的方法可以与其他数据增强方法结合,并且它们是互补的。据笔者所知,FastReID 上应用本文方法在MTMC17 数据集上取得了目前的最高检索精度。

表3 DukeMTMC数据集上不同方法的性能比较 单位:%Tab.3 Performance comparison of different methods on DukeMTMC dataset unit:%

除此之外,Strong Baseline 和FastReID 这两个基准默认使用Circle Loss 作为损失函数来进行模型训练,这表明本文的方法可以与该损失函数结合,并且它们是互补的。另外Strong Baseline 的报告表明,Circle Loss 的使用帮助模型性能在Rank-1和mAP 指标上分别提升0.4个百分点和0.2个百分点。从表2 可以看出本文所提出的局部灰度转换(LGT)所带来的性能提升更大。

从表2到表4还可以看出,FastReID 明显优于当前的先进方法,本文方法可以在其基础上帮助模型显著提升性能,这验证了本文方法的有效性和通用性。

表4 MSMT17数据集上不同方法的性能比较 单位:%Tab.4 Performance comparison of different methods on MSMT17 dataset unit:%

3.4 跨域实验

一种方法的跨域性能表现可以检验该方法是否切实提高了模型所提取特征的鲁棒性。为了进一步探究本文方法在跨域实验中的表现,使用全局灰度转换在Strong Baseline 上进行以下跨域实验,结果如表5所示。

在表5 中,本文使用Market-1501 数据集和DukeMTMC 数据集进行跨域性能评估。其中:+REA 表示在模型训练中使用了随机擦除的技巧,-REA 表示关闭它;M→D 表示在Market-1501 上训练模型然后在DukeMTMC 上评估模型;D→M 同理。实验结果表明,随机擦除虽能显著提高ReID 模型的性能,但会造成模型在跨域测试时性能显著下降,而本文所提的全局灰度转换(GGT)能显著提高REID 模型的跨域性能,这表明本文方法有助于增强特征的鲁棒性。

表5 全局灰度转换与随机擦除的跨域性能比较 单位:%Tab.5 Cross-domain performance comparison of global grayscale transformation with random erasing unit:%

4 结语

本文提出了一种简单有效的行人重识别数据增强方法,该方法既不需要像GAN 那样进行大规模训练也不会引入噪声。通过样本图像的随机灰度转换可以增加训练样本的数量和多样性,并让图像的结构信息和颜色信息在模型训练中相互拟合,从而减少颜色偏差对ReID 的不利影响。本文通过在多个数据集和测试基准上进行实验,验证了所提方法的有效性。

猜你喜欢
集上灰度全局
航空滤光片阵列多光谱图像条带灰度调整算法
基于改进空间通道信息的全局烟雾注意网络
领导者的全局观
关于短文本匹配的泛化性和迁移性的研究分析
天津港智慧工作平台灰度发布系统和流程设计
Arduino小车巡线程序的灰度阈值优化方案
落子山东,意在全局
师如明灯,清凉温润
统筹全局的艺术
几道导数题引发的解题思考