基于元学习的深度哈希检索算法

2022-07-29 08:48韩亚茹闫连山姚涛
计算机应用 2022年7期
关键词:哈希类别检索

韩亚茹,闫连山,姚涛

基于元学习的深度哈希检索算法

韩亚茹1,闫连山2*,姚涛1

(1.鲁东大学 信息与电气工程学院, 山东 烟台 264025; 2.西南交通大学 信息科学与技术学院,成都 611756)( ∗ 通信作者电子邮箱 lsyan@home.swjtu.edu.cn)

随着移动互联网技术的发展,图像数据的规模越来越大,大规模图像检索任务已经成为了一个紧要的问题。由于检索速度快和存储消耗低,哈希算法受到了研究者的广泛关注。基于深度学习的哈希算法要达到较好的检索性能,需要一定数量的高质量训练数据来训练模型。然而现存的哈希方法通常忽视了数据集存在数据类别非平衡的问题,而这可能会降低检索性能。针对上述问题,提出了一种基于元学习网络的深度哈希检索算法。所提算法可以直接从数据中自动学习加权函数。该加权函数是只有一个隐含层的多层感知机(MLP),在少量无偏差元数据的指导下,加权函数的参数可以和模型训练过程中的参数同时进行优化更新。元学习网络参数的更新方程可以解释为:较符合元学习数据的样本权重将被提高,而不符合元学习数据的样本权重将被减小。基于元学习网络的深度哈希检索算法可以有效减少非平衡数据对图像检索的影响,并可以提高模型的鲁棒性。在CIFAR-10等广泛使用的基准数据集上进行的大量实验表明,在非平衡比率较大时,所提算法的平均准确率均值(mAP)最佳;在非平均比率为200的条件下,所提算法的mAP比中心相似度量化算法、非对称深度监督哈希(ADSH)算法和快速可扩展监督哈希(FSSH)算法分别提高0.54个百分点,30.93个百分点和48.43个百分点。

深度学习;哈希算法;非平衡数据;元学习;图像检索

0 引言

在过去的二十年里,互联网的快速发展为人类开创了一个全新的时代。特别是移动互联网的迅速发展,越来越多的用户开始用手机或笔记本上网,这也表明了移动互联网正逐渐渗透到人们生活、工作的各个领域。数据的来源有很多种,如天气感应器、社交媒体网站、网上银行和手机信号。微信、支付宝、位置服务等丰富多彩的移动互联网应用迅猛发展,正在深刻改变信息时代的社会生活。近几年,更是实现了3G经4G到5G的跨越式发展。随着互联网行业的快速发展,各行各业积累的数据都呈现出爆炸式增长趋势,这些数据中不仅有文本,还有图像、音频、视频。据统计,每天网友在互联网上传超过10亿张图片;淘宝网的会员每天上传的图片数量超过1亿;Facebook注册用户超过10亿,每月上传超过10亿的图片。上述例子都充分证实各行各业产生了大量数据,人类进入了“大数据”时代。在这个时代里,用户如何在海量、高维的数据中高效而精确地检索到需要的信息,成为研究的一个重点问题。

近几年深度学习也被应用于大规模图像哈希算法中,基于深度的哈希算法要达到较好的检索性能,需要有一个庞大且质量好的数据集来训练模型;但是现实生活中大部分数据集会存在数据偏差。最为典型的三种偏差为:1)类别非平衡,即极少数类别很容易被采集到,但大多数类很难被采集到;2)数据噪声,数据本身会带有噪声;3)标签噪声,由于获取标签的代价太高而进行简单的网络搜索来标注数据,所以会存在很多错误的标签,也会造成训练上的困难。

其中,非平衡数据在现实生活中普遍存在,如癌症患者诊断、破产预测[4]和信用卡欺诈检测[5]等。如果数据集中的类别分布极不均衡,达到了一个或多个数据类别的样本数量远远多于另一个或多个数据类别的样本数量,这样的数据就叫作类别非平衡数据。例如在医疗图像分析中,出于诊断目的搜索相似的图像(就相似的解剖结构而言)可充当“虚拟同行评审”[6]。从过去病例的档案中检索相似图像对诊断图像非常有益,但是大部分现有的真实数据集都存在数量大、数据类别非平衡等特点。当面对非平衡数据集,模型在训练过程中会更倾向于关注多数类样本,忽略少数类样本,很容易将少数类样本划分为多数类,这样会导致最终模型的效果下降。一般少数类样本往往才是研究的重点对象,这意味着模型正确预测少数类样本的类别标签的能力比多数类样本更为重要。所以如何有效处理非平衡数据在图像检索中的产生的影响对相关研究者是一个具有挑战的课题。

元学习(meta-learning),又叫learning to learn,即学习如何学习。良好的机器学习模型通常需要使用大量样本进行训练。相比之下,人类能够更快、更有效地学习新的概念和技能。元学习旨在通过训练一些少量样本来学习新技能。元学习的诞生促使机器学习向另一侧面突进,用更接近人类和更具有效率的方式来实现人工智能。

受元学习[7-8]发展的启发,近年来人们提出了一些从数据中学习自适应加权方法的方法,使学习更加自动化和可靠[9-10]。针对数据集类别非平衡问题,本文提出了一种基于元学习(meta-learning)的深度哈希检索算法,该算法可以直接从数据中自动学习加权函数。该加权函数是只有一个隐含层的多层感知机(Multi-Layer Perceptron, MLP),在少量无偏差元数据的指导下,加权函数的参数可以和模型训练过程中的参数同时进行优化更新。它可以有效地改善模型的鲁棒性,减小非平衡数据对图像检索效率的影响。

本文的主要工作如下:

1) 提出了一种基于元学习的哈希检索算法,利用元学习从数据中自动学习一个权重损失函数,由于该权重网的通用逼近能力,它可以很好地拟合权重函数。

2) 所提算法分为两路并行网络。一路是元学习网络模型,一路是图像检索网络模型。在少量无差别的元数据的指导下,加权函数的参数可以和模型训练的参数同时进行优化更新。通过该算法可以有效降低类别非平衡对图像检索准确率的影响。

3) 实验结果表明,所提算法在基准数据集上的性能优于大部分现有的图像检索算法,证明了所提算法的有效性。

1 相关工作

近年来,哈希算法以其在存储空间和计算时间上的优势引起了众多研究者的关注。目前,研究者们已经提出许多图像检索哈希算法,这些算法可以分为两大类,无监督哈希算法和监督哈希算法。

1.1 无监督哈希算法

正文内容无监督哈希方法主要通过保持原始数据的几何机构学习哈希函数,在训练过程中不适用任何监督信息。Weiss等[11]在2008年提出的谱哈希(Spectral Hashing, SH)是经典的简洁哈希码之一。谱哈希对图像特征向量的编码过程可看做是图分割问题,首先它借助对相似图的拉普拉斯矩阵特征值和特征向量的分析对图分割问题提供一个松弛解,然后通过对特征向量进行阈值化产生二进制哈希码。Gong等[12]在2011年提出的迭代量化(ITerative Quantization, ITQ)哈希[12]利用主成分分析(Principal Component Analysis, PCA)降维后,通过最小化量化误差,学习一个旋转矩阵,得到性能更好的哈希函数。最近,一些基于深度学习的无监督哈希被相继提出。Shen等[13]在2018年提出了相似性自适应离散优化哈希(Similarity-Adaptive and Discrete optimization Hashing, SADH)。该方法交替地保留数据相似性并加强哈希码和深度哈希函数的兼容性。Greedy Hash设计了一个哈希编码层,使特征从欧几里得空间编码到汉明空间编码时的余弦距离差最小。它采用贪心原则解决优化问题。结合深度表示和哈希学习,无监督深度哈希方法可以提高图像哈希码的表示能力。然而,目前的非监督深度哈希学习的二值哈希码仍存在判别语义不足的问题。

1.2 监督哈希算法

对于超参数的选择,一般监督哈希算法通过利用监督信息(例如类标签、成对相似性或数据点的相对相似性)来学习二进制哈希码。传统学习中为了处理线性不可分的问题,Kulis等[14]提出了二进制重建嵌入(Binary Reconstructive Embeddings, BRE)。有内核的监督哈希(Supervised Hashing with Kernels, KSH)[15]的设计理念是让相似的数据对应的哈希码之间的汉明距离尽可能地小。在优化的时候,KSH采用一次优化哈希码的一位的按位优化策略,最终生成简短而有效的哈希码。监督离散哈希(Supervised Discrete Hashing, SDH)[16]通过设计新的目标函数,并使用循环坐标下降法来离散地求解哈希码。传统方法中特征提取主要依赖人工设计的提取器,需要有专业知识及复杂的调参过程,同时每个方法都是针对具体应用,泛化能力及鲁棒性较差,因此研究者提出了基于深度学习的跨媒体哈希方法。深层语义排列哈希(Deep Semantic-preserving and Ranking-based Hashing, DSRH)[17]提出了深度多标签图像检索任务中的语义排序问题,设计了一个采用三元排序损失函数进行训练的深度哈希方法。深度监督哈希(Deep Supervised Hashing, DSH)[18]设计了一种卷积神经网络架构。采用成对的图像作为模型训练的输入,同时对实值输出进行正则化以逼近所需的离散值。深度监督离散哈希(Deep Supervised Discrete Hashing, DSDH)[19]设计了一种同时利用分类信息和相似关系作为监督信息进行哈希学习的深度哈希算法。在这些方法中,在明确语义标签的监督下,学习到的哈希码可以获得识别能力。虽然这些有监督信息的哈希算法已经在检索方面取得了较好的效果,但是它们并未考虑到图像检索中的非平衡数据的问题,在检索任务中出现非平衡数据集时有可能会降低图像检索的性能。本文针对图像检索中的非平衡问题展开研究,利用元学习算法来减小非平衡数据在图像检索中产生的影响。

1.3 非平衡数据常用处理办法

面对非平衡数据集,常用的办法是对样本进行重加权[7,20]。该方法是给每一个样本误差前面加上一个权重,权重的作用就是放大或缩小样本发挥的作用。其次还可以对样本进行重采样[21],对样本数量较少的类别进行过采样,但容易拟合到少数类别的样本,无法学到更鲁棒易泛化的特征,往往在非常不平衡数据集上表现更差。对样本数量较多的类别进行欠采样,但这样会造成该类别的信息损失严重,导致欠拟合的发生。单类学习的主要思想是只训练多数类样本,进而形成一个对该类别的数据模型,最后从测试样本中识别出多数类样本。单类支持向量机(One-class Support Vector Machine, One-class SVM)[22]在高维特征空间中得到一个最优超平面实现多数类别与坐标原点的最大分离,仅需要多数类别数据集作为训练样本,在一定程度上可以减少时耗,但容易引起对训练集中少数类样本的过拟合而导致泛化能力下降。

非平衡数据在现实生活中是常见的,在分类领域中有许多工作关注这个问题[23-24],但据作者所知,在检索领域很少有人关注。以下章节会详细介绍我们关于非平衡数据问题所做的工作。

2 基于元学习网络的深度哈希算法

为了解决图像检索中的非平衡数据集问题,本文提出了一种基于元学习网络的深度哈希检索算法。通过设计一个从训练损失到样本权值的加权函数,该方法不需要手动预先指定权重函数及额外的超参数,可以直接从数据中自适应地学习显式加权函数。

2.1 元学习算法

本文算法的目标是在元学习过程中自动学习超参数。为了实现这一目标,本文算法将当作一个只有一层隐藏层的多层感知机,该多层感知机包含100个节点,如图1所示。

本文称这个权重网络为元学习权重网络,其中每一个隐藏节点使用ReLU(Rectified Linear Unit)激活函数,输出使用Sigmoid激活函数,保证输出位于[0,1]区间。尽管简单,这个网络被认为是几乎任何连续函数的通用逼近器,因此可以适应广泛的权重函数,包括传统研究中使用的权重函数。

2.2 图像检索中的元学习网络

其中是步长。

图像检索生成哈希码过程 文献[25-26]中的研究表明,输入图像的全连接层的6~8层的特征激活可以作为视觉特征,该特征在小规模的图像检索、类别中取得不错的性能。当面对大规模数据时,由于该特征是高维向量,会大幅度影响检索的效率和性能。研究者提出将特征向量转化为二进制编码的方法,可以降低计算代价,减少存储空间。转化为二进制编码后,可以利用汉明距离或哈希进行快速比较。

代表检索数据集。每幅图像对应的二进制编码,。

Fig .3Image retrieval process

3 实验与结果分析

在本章中,首先介绍3个常见的图像数据集,然后在公共数据集CIFAR-10、CIFAR-100和STL-10上展示了本文算法的实验结果,并与几种方法作比较。

3.1 数据集

CIFAR-100数据集与CIFAR-10数据集相似,不同的是它有100类图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)。

3.2 评价指标

依据邻域内相关工作,本文采用广泛使用的评价标准:平均准确率均值(mean Average Precision, mAP),现已广泛应用在哈希检索研究中[27]。准确率(Precision)仅考虑返回样本中正确的样本数量,并没有考虑正确样本的顺序。准确率的定义如下:

对于一个检索系统来说,返回的样本是有先后顺序的,而且越相似的样本排序越靠前越好。因此学者们提出了平均查准率(Average Precision, AP)的概念,AP的定义如下:

3.3 对比方法及实验细节

本文选取几种较为先进的方法进行对比实验。这些方法包括快速可扩展监督哈希(Fast Scalable Supervised Hashing, FSSH)算法[28]、非对称深度监督哈希(Asymmetric Deep Supervised Hashing, ADSH)算法[29]、中心相似度量化(Central Similarity Quantization for efficient image and video retrieval, CSQ)算法[30]等。对于上述方法,本文使用原作者提供的代码。所有方法的参数均按照其论文中的建议设置。对于CIFAR-10和CIFAR-100数据集,本文及对比方法均使用50 000幅训练图像和10 000幅测试图像。对于STL-10数据集使用5 000幅训练图像和8 000幅测试图像。所有实验均进行多次,最终的实验结果是在多次实验的基础上取平均得到。

实验环境是一台服务器,该机器的相关信息如下:Intel Xeno CPU E5-2609 v4@1.70 GHz,32 GB内存。

由于本文基于元学习网络的深度哈希算法主要针对图像检索中的非平衡问题,在3个常用数据集(CIFAR-10、STL-10和CIFAR-100)上,先在平衡数据分布下测试4种码长(16 bit,32 bit,48 bit,64 bit)的码的mAP@all;其次在非平衡数据分布下将哈希码位数设置为32位,数据数量设置为5种情况,非平衡比率分别为200、100、50、20、10。非平衡比率指的是数据量最大的类别和数据量最小的类别的比率,实验设置完毕后再测试32 bit的mAP@all。

为了证明所提出的深度哈希算法的有效性,本文在平衡数据集上测试4种码长(16 bit,32 bit,48 bit,64 bit)的码的mAP@all。实验结果如表1所示。

从表1的实验结果可以观察到如下的现象:

1) 本文提出的基于元学习的深度哈希算法在大部分情况下取得最佳的检索效果,这证明了本文算法是有效的。

2) 在对比算法中FSSH的代码是Matlab版本,ADSH、CSQ及本文算法的代码是Python版本。在训练时间方面,FSSH需要最少的时间就可以完成训练,但是在CIFAR-10和STL-10(类别数是10)数据集上的检索效果比其他算法差很多,在分类数较多的CIFAR-100数据集(类别数是100)上的检索效果比ADSH的效果好。

3)尽管ADSH、FSSH和CSQ的训练时间比本文提出的算法短,但是它们的检索结果远差于基于元学习的深度哈希算法。因此,在牺牲一点额外时间的代价下,本文算法可以更好地完成在3个基准数据集上的检索任务。

表1平衡数据集上4种码长的码的mAP@all 单位:%

Tab.1 mAP@all of four hash codes with different lengths on balanced datasets unit:%

在非平衡数据集上进行了对比,实验结果如表2所示。

从表2的实验结果可以观察到如下的现象:

1) 在CIFAR-10和STL-10数据集上,ADSH在非平衡率为10的情况下的检索结果优于其他3种算法,但是随着非平衡比率的增大,可以清晰看出本文算法的检索结果明显优于其他3种对比方法。

2) 在CIFAR-100数据集上,ADSH、FSSH、CSQ以及本文算法的检索数据结果都比较低,造成这种结果的原因可能是CIFAR-100分类数较多,该数据集有100个类别。在这种情况下,本文算法的实验结果依然优于其他对比算法,可以说明基于元学习的深度哈希算法可以有效减小非平衡数据在图像检索中产生的影响。

4 结语

互联网的快速发展带来了大规模的图像数据,如何从海量的数据中搜索到用户需要的图像成为一个迫切需要解决的问题。近年来,基于深度学习的哈希算法被广泛应用于图像检索。基于深度学习的哈希算法要想达到较好的检索性能,需要一定数量的高质量训练数据来训练模型。但是大部分真实数据集存在数据类别非平衡问题,即样本数量较少的类别容易被忽略。为减小非平衡数据在图像检索中产生的影响,本文提出了一种基于元学习网络的深度哈希算法,该算法可以直接从数据中自动学习加权函数,该权重函数是只有一个隐含层的多层感知机,在少量无偏差元数据的指导下,加权函数的参数可以和模型训练过程的参数同时进行优化更新。在算法的理论基础上,本文进行了大量的实验证明,并与多种对比算法进行比较。实验结果表明,基于元学习网络的深度哈希检索算法能够有效减少长尾数据对图像检索的影响,并提高模型的鲁棒性。未来,在此基础上还可对该算法进行深入探讨,改善网络模型,争取更有效地减小长尾数据在图像检索任务中的影响。

[1] 张楚涵,张家侨,冯剑琳. AKNN-Qalsh: PostgreSQL系统高维空间近似最近邻检索插件[J]. 中山大学学报(自然科学版), 2019, 58(3): 79-85.(ZHANG C H, ZHANG J Q, FENG J L. AKNN-Qalsh: an approximate KNN search extension for high-dimensional data in PostgreSQL[J]. Acta Scientiarum Naturalium Universitatis Sunyatseni, 2019, 58(3):79-85.)

[2] 陈诚,邹焕新,邵宁远,等. 面向遥感影像的深度语义哈希检索[J]. 中国图象图形学报, 2018, 24(4): 655-663.(CHEN C, ZOU H X, SHAO N Y, et al. Deep semantic Hashing retrieval of remote sensing images[J]. Journal of Image and Graphics, 2019, 24(4): 655-663.)

[3] DATAR M, IMMORLICA N, INDYK P, et al. Locality-sensitive hashing scheme based on-stable distributions[C]// Proceedings of the 20th Annual Symposium on Computational Geometry. New York: ACM, 2004: 253-262.

[4] 康松林,刘楚楚,樊晓平,等. WOS-ELM算法在入侵检测中的研究[J]. 小型微型计算机系统, 2015, 36(8): 1779-1783.(KANG S L, LIU C C, FAN X P, et al. Research on intrusion detection based on WOS-ELM algorithm[J]. Journal of Chinese Computer Systems, 2015, 36(8): 1779-1783.)

[5] ZIĘBA M, TOMCZAK S K, TOMCZAK J M. Ensemble boosted trees with synthetic features generation in application to bankruptcy prediction[J]. Expert Systems with Applications, 2016, 58: 93-101.

[6] KHATAMI A, BABAIE M, KHOSRAVI A, et al. Parallel deep solutions for image retrieval from imbalanced medical imaging archives[J]. Applied Soft Computing, 2018, 63: 197-205.

[7] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. Human-level concept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332-1338.

[8] FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1126-1135.

[9] JIANG L, ZHOU Z Y, LEUNG T, et al. MentorNet: learning data-driven curriculum for very deep neural networks on corrupted labels[C]// Proceedings of the 35th International Conference on Machine Learning. New York: JMLR.org, 2018: 2304-2313.

[10] WU L J, TIAN F, XIA Y C, et al. Learning to teach with dynamic loss functions[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 6467-6478.

[11] WEISS Y, TORRALBA A, FERGUS R. Spectral hashing[C]// Proceedings of the 21st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2008: 1753-1760.

[12] GONG Y C, LAZEBNIK S, GORDO A, et al. Iterative quantization a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2916-2929.

[13] SHEN F M, XU Y, LIU L, et al. Unsupervised deep hashing with similarity-adaptive and discrete optimization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 3034-3044.

[14] KULIS B, DARRELL T. Learning to hash with binary reconstructive embeddings[C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2009: 1042-1050.

[15] LIU W, WANG J, JI R R, et al. Supervised hashing with kernels[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 2074-2081.

[16] SHEN F M, SHEN C H, LIU W, et al. Supervised discrete hashing[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 37-45.

[17] YAO T, LONG F C, MEI T, et al. Deep semantic-preserving and ranking-based hashing for image retrieval[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2016: 3931-3937.

[18] LIU H M, WANG R P, SHAN S G, et al. Deep supervised hashing for fast image retrieval[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2064-2072.

[19] LI Q, SUN Z N, HE R, et al. Deep supervised discrete hashing[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 2479-2488.

[20] DONG Q, GONG S G, ZHU X T. Class rectification hard mining for imbalanced deep learning[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 1869-1878.

[21] LIU X Y, WU J X, ZHOU Z H. Exploratory undersampling for class-imbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2009, 39(2): 539-550.

[22] MALDONADO S, MONTECINOS C. Robust classification of imbalanced data using one-class and two-class SVM-based multiclassifiers[J]. Intelligent Data Analysis, 2014, 18(1): 95-112.

[23] ZHANG Z L, LUO X G, GARCÍA S, et al. Cost-sensitive back-propagation neural networks with binarization techniques in addressing multi-class problems and non-competent classifiers[J]. Applied Soft Computing, 2017, 56: 357-367.

[24] SUN Y, LI Z L, LI X W, et al. Classifier selection and ensemble model for multi-class imbalance learning in education grants prediction[J]. Applied Artificial Intelligence, 2021, 35(4): 290-303.

[25] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2012: 1097-1105.

[26] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 580-587.

[27] ZHEN Y, YEUNG D Y. A probabilistic model for multimodal hash function learning[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012: 940-948.

[28] LUO X, NIE L Q, HE X G, et al. Fast scalable supervised hashing[C]// Proceedings of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2018: 735-744.

[29] JIANG Q Y, LI W J. Asymmetric deep supervised hashing[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 3342-3349.

[30] YUAN L, WANG T, ZHANG X P, et al. Central similarity quantization for efficient image and video retrieval [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 3080-3089.

[31] WANG J, KUMAR S, CHANG S F. Semi-supervised hashing for large-scale search[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(12): 2393-2406.

[32] GUI J, LIU T L, SUN Z N, et al. Fast supervised discrete hashing[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(2): 490-496.

[33] HUANG C, LI Y N, LOY C C, et al. Learning deep representation for imbalanced classification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 5375-5384.

[34] ZHAO F, HUANG Y Z, WANG L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1556-1564.

[35] YANG H F, LIN K, CHEN C S. Supervised learning of semantics-preserving hash via deep convolutional neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(2): 437-451.

[36] LI X, LIN G S, SHEN C H, et al. Learning hash functions using column generation[C]// Proceedings of the 30th International Conference on Machine Learning. New York: JMLR.org, 2013: 142-150.

[37] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8689. Cham: Springer, 2014: 818-833.

[38] OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring mid-level image representations using convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1717-1724.

[39] WANG J D, ZHANG T, SONG J K, et al. A survey on learning to hash[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 769-790.

[40] LAI H J, PAN Y, LIU Y, et al. Simultaneous feature learning and hash coding with deep neural networks[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3270-3278.

[41] SHU J, XIE Q, YI L X, et al. Meta-weight-net: learning an explicit mapping for sample weighting[C/OL]// Proceedings of the 2019 Conference and Workshop on Neural Information Processing Systems. [2021-02-21].https://papers.nips.cc/paper/2019/file/e58cc5ca94270acaceed13bc82dfedf7-Paper.pdf.

[42] LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 27-35.

[43] LU X Q, ZHENG X T, LI X L. Latent semantic minimal hashing for image retrieval[J]. IEEE Transactions on Image Processing, 2017, 26(1): 355-368.

[44] LIN K, LU J W, CHEN C S, et al. Learning compact binary descriptors with unsupervised deep neural networks[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1183-1192.

[45] NI B B, YAN S C, KASSIM A. Learning a propagable graph for semisupervised learning: classification and regression[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(1): 114-126.

[46] 柯圣财,赵永威,李弼程,等. 基于卷积神经网络和监督核哈希的图像检索方法[J]. 电子学报, 2017, 45(1):157-163.(KE S C, ZHAO Y W, LI B C, et al. Image retrieval based on convolutional neural network and kernel-based supervised Hashing[J]. Acta Electronica Sinica, 2017, 45(1): 157-163.)

[47] 王珊,王会举,覃雄派,等. 架构大数据:挑战、现状与展望[J]. 计算机学报, 2011, 34(10): 1741-1752.(WANG S, WANG H J, QIN X P, et al. Architecting big data: challenges, studies and forecasts[J]. Chinese Journal of Computers, 2011, 34(10): 1741-1752.)

[48] 艾列富,于俊清,管涛,等. 大规模图像特征检索中查询结果的自适应过滤[J]. 计算机学报, 2015, 38(1): 122-132.(AI L F, YU J Q, GUAN T, et al. Adaptively filtering query results for large scale image feature retrieval[J]. Chinese Journal of Computers, 2015, 38(1): 122-132.)

[49] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.

HAN Yaru, born in 1995, M. S. candidate. Her research interests include multimedia image retrieval, artificial intelligence, machine learning.

YAN Lianshan, born in 1971, Ph. D., professor. His research interests include information photonics and future communication network, internet of things and industrial internet, artificial intelligence.

YAO Tao, born in 1981, Ph. D., associate professor. His research interests include multimedia analysis and computing, computer vision, machine learning.

Deep hashing retrieval algorithm based on meta-learning

HAN Yaru1, YAN Lianshan2*, YAO Tao1

(1,,264025,;2,,611756,)

With the development of mobile Internet technology, the scale of image data is getting larger and larger, and the large-scale image retrieval task has become an urgent problem. Due to the fast retrieval speed and very low storage consumption, the hashing algorithm has

extensive attention from researchers. Deep learning based hashing algorithms need a certain amount of high-quality training data to train the model to improve the retrieval performance. However, the existing hashing methods usually ignore the problem of imbalance of data categories in the dataset, which may reduce the retrieval performance. Aiming at this problem, a deep hashing retrieval algorithm based on meta-learning network was proposed, which can automatically learn the weighting function directly from the data. The weighting function is a Multi-Layer Perceptron (MLP) with only one hidden layer. Under the guidance of a small amount of unbiased meta data, the parameters of the weighting function were able to be optimized and updated simultaneously with the parameters during model training process. The updating equations of the meta-learning network parameters were able to be explained as: increasing the weights of samples which are consistent with the meta-learning data, and reducing the weights of samples which are not consistent with the meta-learning data. The impact of imbalanced data on image retrieval was able to be effectively reduced and the robustness of the model was able to be improved through the deep hashing retrieval algorithm based on meta-learning network. A large number of experiments were conducted on widely used benchmark datasets such as CIFAR-10. The results show that the mean Average Precision (mAP) of the hashing algorithm based on meta-learning network is the highest with large imbalanced rate;especially, under the condition of imbalanced ratio=200, the mAP of the proposed algorithm is 0.54 percentage points,30.93 percentage points and 48.43 percentage points higher than those of central similarity quantization algorithm, Asymmetric Deep Supervised Hashing (ADSH) algorithm and Fast Scalable Supervised Hashing (FSSH) algorithm.

deep learning; hashing algorithm; imbalanced data; meta-learning; image retrieval

This work is partially supported by National Natural Science Foundation of China (61872170).

1001-9081(2022)07-2015-07

10.11772/j.issn.1001-9081.2021040660

2021⁃04⁃25;

2021⁃09⁃01;

2021⁃09⁃07。

国家自然科学基金资助项目(61872170)。

TP183

A

韩亚茹(1995—),女,山东济南人,硕士研究生,主要研究方向:多媒体图像检索、人工智能、机器学习; 闫连山(1971—),男,山东烟台人,教授,博士,主要研究方向:信息光子学与未来通信网络、物联网与工业互联网、人工智能; 姚涛(1981—),男,山东烟台人,副教授,博士,主要研究方向:多媒体分析与计算、计算机视觉、机器学习。

猜你喜欢
哈希类别检索
哈希值处理 功能全面更易用
Windows哈希值处理不犯难
文件哈希值处理一条龙
CNKI检索模式结合关键词选取在检索中的应用探讨
一起去图书馆吧
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
简析基于概率预测的网络数学模型建构
英国知识产权局商标数据库信息检索
巧用哈希数值传递文件