基于近邻算法的GAN生成图像质量评价*

2022-01-23 13:35齐苏敏赵镥瑶
关键词:集上分数图像

石 珂, 齐苏敏, 赵镥瑶, 王 妍

(曲阜师范大学网络空间安全学院,273165,山东省曲阜市)

0 引 言

生成对抗网络(Generative Adversarial Networks,GAN)[1]是2014年Goodfellow等人提出的一种深度学习模型,在计算机视觉、自然语言处理等领域影响广泛. GAN除了可以生成十分逼真的图像[2],还可以在半监督学习[3]、图像修复[4]、图像到图像转换[5]等领域发挥重要作用. GAN生成图像质量评价(Generated Image Quality Assessment,GIQA)[6]即对GAN生成的图像进行评价,判断生成图像获取过程中产生的图像失真[7,8]是否影响观察者的信息获取和主观感受. 尽管各种各样的GAN模型不断被提出,但不同的GAN模型生成图像质量参差不齐,并不是所有生成图像的质量都能够满足需求. 目前使用范围最广泛的GAN评价指标,如Inception Score (IS)[9]、Fréchet Inception Distance (FID)[10]和Mode Score (MS)[11]均关注生成模型的评价,不能实现对单张生成图像的质量评价. 对GAN模型生成图像进行主观质量评价不仅需要耗费大量人力、物力,而且效率低下. 本文提出一种生成图像质量评价方法,实现自动、客观、高效地评价GAN模型生成图像的质量.

目前生成图像质量评价方法主要从2种不同角度提出:(1)基于学习的生成图像质量评价方法及基于数据的生成图像质量评价方法[6]. 基于学习的生成图像质量评价方法使用卷积神经网络(Convolutional Neural Networks,CNN)模型回归生成图像的质量分数,通过半监督学习的方式利用多个二进制分类器作为回归器学习生成图像质量评价,解决了不同生成模型可能存在的不同退化的问题,可以应用于各种不同的模型和数据库. (2)基于数据的生成图像质量评价方法可以分为参数化方法和非参数化方法,参数化方法采用高斯混合模型(Gaussian Mixture Model,GMM)捕获真实数据的概率分布,通过真实数据的概率分布估计生成图像的概率作为其质量分数,但是,模型所选密度可能不能捕获复杂的数据分布;非参数化方法通过计算生成图像与其K近邻(K-Nearest Neighbor,KNN)之间的距离获取生成图像的概率,这种方法的局限性是空间占用率大、计算成本高、算法运行效率低.

本文从基于数据的角度出发,提出一种基于近邻算法的生成图像质量评价方法,该方法结合近似最近邻(Approximate Nearest Neighbor,ANN)算法和K近邻算法,在缩短图像相似度计算时间的同时保证计算精度. 首先使用卷积神经网络模型提取生成图像与真实图像特征信息,其次利用ANN算法获取同生成图像比较相似的真实图像组成相似图像候选池;最后通过KNN算法在相似图像候选池中选取与生成图像相似度最高的N张图像获取生成图像质量分数. 实验表明本文方法可以有效解决生成图像质量评价方法在计算速度与计算准确性之间的矛盾. 本文主要贡献如下:

1)基于近邻算法提出一种生成图像质量评价方法,缩短了图像相似度计算时间. 通过ANN算法在低维空间内查找生成图像的近邻获取相似图像候选池,缩小生成图像对比范围,降低计算量;再利用KNN算法获取图像相似度,提高计算精度. 和现有的工作相比,本文方法的运行时间大幅减小,耗费时间仅为其他方法的1/9~1/28.

2) 在多个经典数据集上与现有的图像质量评价方法进行比较,验证了本文方法的准确性,评价结果和人类主观评价结果的一致性达到80%以上,符合人类视觉感知.

1 相关工作

1.1 图像质量评价

图像质量评价(Image Quality Assessment,IQA)通过对图像进行特性分析,研究判断图像在获取、传输、压缩等处理过程中产生的图像质量失真是否影响观察者的信息获取和主观感受,从方法上可分为主观图像质量评价方法和客观图像质量评价方法:主观图像质量评价方法基于观看者对图像的感知评价图像,常使用的方法包括平均主观得分(Mean Opinion Score,MOS)和平均主观得分差异(Differential Mean Opinion Score,DMOS);客观图像质量评价方法则基于数学计算模型对图像质量进行预测,依据参考图像是否存在被分为三大类:全参考图像质量评价(Full Reference Image Quality Assessment,FR-IQA)、半参考图像质量评价(Reduced Reference Image Quality Assessment,RR-IQA)[12-14],无参考图像质量评价(No Reference Image Quality Assessment,NR-IQA)[15]. 全参考图像质量评价在评价图像质量时存在原始图像作参照,常用的方法包括均方误差(Mean Squared Error,MSE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[16]和结构相似性(Structural Similarity,SSIM)[17]. 半参考图像质量评价使用参考图像的部分信息对待测图像进行评价,常用的方法包括基于原始图像特征的方法[18,19]、基小波域统计模型的方法[20]、基于多尺度几何分析的方法[21]. 生成图像质量评价与半参考图像质量评价存在相似性,两者均通过获取参考图像的部分特征信息对图像进行质量评价,不同之处是生成图像质量评价关注点在GAN模型生成的图像,而非自然图像,且GAN生成图像可能包含一些针对生成模型的特定失真,如棋盘格图案、不合理结构等. 无参考图像质量评价完全脱离了对理想参考图像的依赖,是适用范围最广泛的质量评价方法,一般基于图像统计特性建立相应的图像分析模型,通过计算待测图像的表现特征获取图像质量评价结果.

1.2 近邻算法(NN)

最近邻(Nearest Neighbor,NN)算法被广泛应用于文本信息检索、图像信息查询[22]等领域.NN的工作原理是:给定一个包含数据集及目标数据的尺度空间,找出数据集中与目标数据最相似的样本数据.

K近邻(KNN)是1967年Cover和Hart提出的一种监督学习算法[23,24].KNN的工作原理是:基于某种距离度量找出训练集中与给定测试样本最靠近的K个训练样本,基于这K个“邻居”的信息进行预测,常用的距离计算方法包括欧式距离、曼哈顿距离和闵可夫斯基距离[25].

近似最近邻(ANN)算法可以解决NN和KNN存在的运行效率低和维数灾难[26]问题. ANN的核心思想是获取待测数据可能是近邻的数据项,而非只局限于获取待测数据最可能是近邻的数据,希望在牺牲可接受范围内精度的情况下提高运算速度、节约存储空间. ANN一般采用哈希方法、树方法、矢量量化方法和近邻图方法,通过缩短距离计算时间或者减少距离计算次数提升距离计算效率.

局部敏感哈希(Locality Sensitive Hashing,LSH)[27]是ANN中的经典算法,LSH的基本思想类似于一种空间域转换思想,如果两个数据在原始数据空间相似,将其进行相同的哈希变换,则经过哈希变换后的数据仍具有很高的相似度;相反,如果两个数据本身不相似,那么经过哈希变换后其仍不具有相似性.

2 基于近邻算法的生成图像质量评价

本文从基于样本的角度出发,通过计算生成图像与真实图像的特征相似度获取图像质量分数,进而对生成图像进行评价,流程如图1所示. 首先,通过卷积神经网络提取真实图像和生成图像特征并利用LSH算法将其转换为二进制向量,减少时间与空间复杂度;然后,基于ANN算法获取生成图像的近邻,构成相似图像候选池,降低计算量;最后,基于KNN算法在相似图像候选池中获取与生成图像特征最相似的真实图像,获得生成图像质量分数,提升计算精度.

2.1 图像特征的二进制编码

(1)

将真实图像数据集的图像特征及其对应的二进制编码存为H5(Hierarchical Data Format,HDF5)文件,以类似文件系统的层次结构存储数据,实现不同类型的数据存储及快速访问. 获取图像特征二进制编码的流程图,如下页图2所示.

输入:图像数据集D;特征提取函数F(·);哈希函数H′ 输出:图像特征向量数据集M;图像二进制编码数据集H1: for each(i∈D) do2: m′=F(i) ∥获取图像特征向量3: M={m1,m2,…,mN}4: for j=1,2,…,s5: hij=H′(mtj)=1, if mij>00, others{6: hi={hi1,hi2,…,his}7: H={h1,h2,…,hN}8: return M,H

2.2 生成图像质量分数

针对GAN生成图像可能包含的特定失真,如棋盘格图案、不合理结构,利用卷积神经网络进行特征提取,获取可以充分代表生成图像Ig的图像特征mIg,通过阈值二值化激活函数H′获得mIg对应的二进制编码hIg,计算hIg和真实图像二进制编码hi∈H之间的汉明距离,获取相似图像候选池P. 若hIg和hi之间的汉明距离低于阈值T,则将hi对应的真实图像加入相似图像候选池P,P={i1,i2,…,ic},c是满足要求的真实图像数.

(2)

计算生成图像与相似图像候选池P中全部真实图像之间的余弦相似度,并将相似度得分按降序排列,获取排名前N的真实图像. 生成图像Ig的质量SIg可以表示为排名前N的图像相似度分数的均值:

(3)

获取生成图像质量分数流程如图3所示.

输入:图像特征向量数据集M;生成图像Ig;阈值T;图像二进制编码数据集H;特征提取函数F(·);相似图像候选池P;哈希函数H′ 输出:生成图像质量分数SIg1: P=Ø2: mIg=F(Ig) ∥获取生成图像特征3: hIg=H′(mIg)4: for each (h′∈H) do5: if |hIg-hi|

3 实验结果与分析

本节使用公开的GAN模型数据集和生成图像质量评价数据集评估提出的生成图像质量评价方法.实验在Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz计算机上运行,模型的训练使用Tesla P100 GPU,采用的编程语言为Python3.6,深度学习框架为Pytorch1.5,统一计算架构CUDA10.1. 所有图像特征均由ImageNet训练的初始模型[28]提取,本文的NN-GIQA方法,将FFHQ数据集和Cityscapes数据集中的近邻N设置为1,LSUN-cat数据集中的近邻N设置为3 500.

3.1 数据集

实验使用GAN经典数据集FFHQ[29]、LSUN[30]、Cityscapes[31],以及生成图像质量评价数据集LGIQA评估提出的生成图像质量评价方法.

Flickr-Faces-HQ(FFHQ)是一个高质量的人脸数据集,包含70 000张分辨率为1 024×1 024的PNG格式高清人脸图像,图像在年龄、种族和图像背景上丰富多样且差异明显,在人脸属性上也拥有非常多的变化,拥有不同的年龄、性别、种族、肤色、表情、脸型、发型、人脸姿态等,囊括普通眼镜、太阳镜、帽子、发饰及围巾等多种人脸周边配件.

LSUN是一个使用深度学习获取的具有类别标签的大型图像数据集,主要包含了卧室、厨房、客厅、教室等10个场景类别,猫、鸟、飞机、公交车等20个对象类别. 每个场景类别中包含大约100万张标签图像,每个对象类别中包含超过100万张标签图像.

Cityscapes是一个新的大规模数据集,包含来自50个不同城市的街道场景图像. 包括分辨率为1 024×2 048的5 000张精细标注图像及20 000张粗糙标注的图像,其中,精细标注的图像中包括2 975张训练图,500张验证图和1 525张测试图.

LGIQA是Gu等人收集的一个由多个人类观察者注释的数据集,包括3个数据子集,分别是LGIQA-FFHQ,LGIQA-LSUN-cat和LGIQA-Cityscapes. 3个数据子集均先由来自PGGAN生成图像、StyleGAN生成图像和真实图像的1 500个图像对构造,通过向3个人类观察者演示图像对,让其选择图像对中具有更好质量的图像,抛弃三者意见不一致的图像对,形成具有974个图像对的LGIQA-FFHQ数据子集、1 206个图像对的LGIQA-LSUN-cat数据子集和1 102个图像对的LGIQA-Cityscapes数据子集.

3.2 可视化实验结果与分析

图4 LGIQA数据集上排名前5的高质量图像

为了更直观地显示本文算法的评价效果,图4~图6展示了LGIQA数据集中的图像及其NN-GIQA得分. 图4展示了利用NN-GIQA得到的LGIQA的每个子集中图像质量分数最高的前5张图像,图5展示了LGIQA的每个子集中图像质量分数最低的前5张图像,图6展示了数据集注释中的图像对及其NN-GIQA得分. 图6中图像对自左至右分别来自LGIQA-FFHQ、LGIQA-LSUN-cat、LGIQA-Cityscapes,每对图像按照人类观察者的注释进行排序,两者中图像质量分数较高者在左测,图像质量分数较低者在右侧,图像下方为其NN-GIQA分数. 对比图4的高质量图像和图5的低质量图像,以及图6中的图像对及其对应的NN-GIQA得分,可以清晰表明本文方法符合人类视觉感知,图像质量排名结果与人类评估一致.

图5 LGIQA数据集上排名前5的低质量图像

LGIQA-FFHQ LGIQA-LSUN-cat LGIQA-Cityscapes图6 LGIQA数据集中图像对及其NN-GIQA得分

3.3 算法评价与分析

为了验证本文方法的准确性及运行效率,实验将本文提出的方法与自然图像质量评价方法及最近提出的生成图像质量评价方法进行了比较. 使用Gu等人提出的评价方法对本文提出的GIQA算法进行算法准确性评价,通过NN-GIQA获取生成图像质量分数,对每一对图像进行质量排序,检查排序结果是否与人类评价结果的注释一致,从而获取算法的准确性,通过算法准确性判断图像质量评价方法是否符合人类视觉感知.

自然图像质量评价方法:选择经典的无参考图像质量评价方法DeepIQA[32],RankIQA[33],NIMA[34]与本文提出的方法进行比较,使用作者发布的DeepIQA模型与NIMA模型在数据集上进行测试,使用RankIQA的退化策略,并按需求进行微调,在数据集上训练IQA模型并进行测试.

生成图像质量评价方法:包括基于学习的方法及基于数据的方法. 基于学习的方法包括通过一个卷积神经网络模型回归生成图像质量分数的IR-GIQA,使用一个二进制分类器确定生成图像是否真实的BC-GIQA,及使用多个二进制分类器学习生成图像质量评价的MBC-GIQA. 基于数据的方法包括使用一个高斯模型获取真实数据概率分布进而评价生成图像质量的SGM-GIQA,采用高斯混合模型捕获真实数据概率分布进而评价生成图像质量的GMM-GIQA,及通过计算生成图像与其K近邻之间的距离来评价生成图像质量的KNN-GIQA.

表1显示了不同图像质量评价方法在LGIQA数据集上的准确率比较结果,通过对比可以发现,NN-GIQA方法的评价准确率在LGIQA数据集上均优于自然图像质量评价方法,说明自然图像质量评价方法在生成图像质量评价方面不适用. 在LGIQA-FFHQ及LGIQA-LSUN-cat数据集上,本文提出的方法均取得了最优的效果,分别比目前最好的GMM-GIQA方法提高了3.8%和0.4%. 在LGIQA-Cityscapes数据集上,NN-GIQA的准确率高于大多数基于学习的方法,并与基于数据的方法达到了可比的效果,实验证明了本文方法对生成图像质量评价的准确性,评价结果与人类评价结果相符. 此外,本文方法在不同数据集上准确性均达到80%以上,体现了本文方法的泛化性.

表1 不同图像质量评价方法在LGIQA数据集上的准确率

运行效率是现有生成图像质量评价方法的瓶颈之一.表2显示了GMM-GIQA、KNN-GIQA、NN-GIQA在LGIQA数据集上运行时间的比较,比较结果清晰表明本文提出方法在运行时间上大大低于GMM-GIQA及KNN-GIQA,NN-GIQA显著地提升了生成图像质量评价方法的运行效率. 对LGIQA-FFHQ数据集,本文提出的NN-GIQA的运行时间仅为GMM-GIQA运行时间的1/19,KNN-GIQA运行时间的1/28. 对LGIQA-LSUN-cat数据集,NN-GIQA的运行时间为GMM-GIQA运行时间的1/9,KNN-GIQA运行时间的1/13. 对LGIQA- Cityscapes数据集,NN-GIQA的运行时间为GMM-GIQA运行时间的1/20,KNN-GIQA运行时间的1/18.

表2 不同图像质量评价方法在LGIQA数据集上的运行时间(s)

4 结 论

本文提出了一种基于近邻算法的生成图像质量评价方法,实现了对不同GAN模型在不同数据集上生成图像的质量评价. 实验结果表明本文方法在多个数据集上表现效果良好,获得的评价结果与人类评价结果一致,且与现有方法相比,本文方法极大限度地提高了计算效率,提升了计算精度. 但当生成图像边界存在部分扭曲时,本文方法得到的生成图像质量评价结果会与人类评价结果产生分歧,这个问题将是进一步需要研究的工作.

猜你喜欢
集上分数图像
关于短文本匹配的泛化性和迁移性的研究分析
浅析p-V图像中的两个疑难问题
分数的由来
基于互信息的多级特征选择算法
巧用图像中的点、线、面解题
有趣的图像诗
把握物理难点,分数更上一步
……的近似分数的若干美妙性质
师如明灯,清凉温润
奇妙分数与特殊数列自动生成