基于知识图谱的我国图像检索研究进展可视化分析

2019-01-11 08:56沈同平

通化师范学院学报 2019年2期

沈同平，董尹，俞磊

图像检索技术是图像处理和应用的关键技术，如何有效、准确地检索图像资源，成为学术界研究的热点之一.基于文本内容的图像检索技术（Text-Based Image Retrieval，TBIR）和基于内容的图像检索技术（Content-Based Image Retrieval，CBIR）是图像检索研究领域的重要技术.但这两种技术无法解决图像检索过程中的语义鸿沟问题，一些新的图像检索技术不断出现，如基于联想和基于深度学习算法的图像检索算法等等.本文以文献计量学为视角，结合可视化分析软件Citespace，检索中国知网2008—2017年发表的图像检索文献，绘制国内图像检索研究知识图谱，揭示近十年来图像检索研究领域过去的关注点、现在的热点以及未来的发展趋势，为促进图像检索领域的快速发展提供数据支撑和理论支持.

1 数据来源和研究方法概述

1.1 数据来源

CNKI（中国学术文献网络出版总库）是全球最大的中文数据库，以CNKI数据库为检索来源，可以保证研究数据的全面性和准确性.本文研究的检索期刊论文的时间范围限定在2008年1月至2017年12月，检索时间为2018年2月.检索方式选择专业检索；将“图像检索”限定在“主题”字段进行精确检索，共检索到有关图像检索的文献为2579篇，剔除新闻、期刊目录、通知、会议等与研究主题无关的文献7篇.将2572篇图像检索文献数据按照Refworks格式进行保存.

1.2 研究方法

本文采用知识图谱分析方法，揭示学科发展规律和未来态势.首先从CNKI检索所需文献资源，并按照Refworks格式进行保存.研究采用基于Java语言和引文分析理论的可视化软件Citespace，利用Citespace软件通过绘制共词聚类图谱、时区图谱等可视化方式，分析学科研究现状、研究热点以及学科未来演变趋势等等.

2 国内图像检索可视化分析

2.1 文献年代分布

论文载文量的变化，在一定程度上反映该学科的理论水平和发展速度［1］.笔者对CNKI数据库检索的2572篇文献进行统计，并利用Excel软件绘制出图像检索文献年代分布折线图（如图1所示）.

图1 文献数量年度分布图

图1的数据表明，2008—2017年图像检索研究领域总体呈下降趋势.虽然平均每年的发文数量约为257篇.但是图像检索领域的学术关注度呈下降趋势，学科领域进入瓶颈期，但不代表图像检索领域会停滞，反而会随着数字图像技术急速发展，如人脸识别、自动驾驶等技术的发展，图像检索领域将会面临新一轮的发展.

2.2 作者-机构分析

核心作者的确定可以依据普赖斯定律，即研究领域最高产作者的发文量来确定核心作者范围.

根据核心作者计算公式，我们将发表3篇或3篇以上论文的作者确定为核心作者.发文量≥8的高产作者和发文数量如表1所示.孙君顶发文量排名第一，17篇；赵珊发文量排名第二，15篇；木拉提·哈米提排名第三，发文量为12篇；彭进业发文量排名第四，11篇；毋小省排名第五，发文量为11篇.

表1 高产作者-机构发文统计

借助Citespace可视化软件，绘制作者-机构共现网络图.图中节点半径越大，表示该研究机构发文量越多，是主要研究力量.

图2 高产作者-机构图

从图2可知，国内图像检索研究的机构主要是高校，其中河南理工大学计算机科学与技术学院、辽宁师范大学计算机与信息技术学院、西北大学信息科学与技术学院以及辽宁工程技术大学电子与信息工程学院是主要研究机构.笔者研究的文献数据从2008—2017年，时间跨度有10年，图像检索研究领域的学者和机构有可能会出现研究方向转移现象，为了更加准确把握图像检索最新的研究学者和研究机构，笔者通过Citespace软件对作者和机构分别进行突现算法检测，突现检测结果如表2和表3所示.

表2 作者突现强度

表3 机构突现强度

结合表1、表2和表3，我们发现，图像检索研究领域在2008—2017十年期间，研究作者和研究机构发生了变化.在2013年左右，国内图像检索研究形成了一个相对稳定的研究团队，主要是以河南理工大学计算机科学与技术学院的孙君顶、赵珊和毋小省为主，研究成果颇丰.2014—2017年，国内图像检索领域形成了新的研究团队，主要以新疆医科大学医学工程技术学院的阿布都艾尼·库吐鲁克、木拉提·哈米提、伊力扎提·阿力甫、杨芳和员伟康为主，主要研究新疆地区特色草药和疾病的医学图像检索.同时，南京理工大学计算机科学与工程学院和合肥工业大学计算机与信息学院等机构最近几年在图像检索领域也取得了较多的研究成果.

2.3 期刊分析

期刊载文分析主要反映学科研究文献的期刊分布情况，其中核心期刊的载文量水平较高，更能反映学科研究水平.因此本文的期刊分析，都以核心期刊为主，表4是排名前16位的核心期刊.

表4 图像检索核心期刊分布

从表4看出，图像检索的期刊总体上都属于计算机期刊，如《计算机工程与应用》《计算机科学》《计算机应用》等，符合图像检索领域的研究特点，图像检索离不开计算机技术支撑.同时，在核心期刊发文量是1347篇，而发文总量是2572篇，占比是52.37%，表明图像检索领域文献的研究深度和研究质量都具有较高的水平.

2.4 基金分析

统计分析各基金项目尤其是国家级基金项目对某一学术主题的支持情况，可以掌握该领域的学术地位以及受重视程度，表5列出2008—2017年图像检索研究领域资金资助情况.

通过对文献基金数据分析，2572篇文献共有1513项各类基金资助，资助比例达到58.83%；其中，国家级基金项目，如国家自然科学基金和国家社会基金等，共有1133项，资助比例达到44.05%.这些数据表明，图像检索研究领域得到国家以及各省市的重视，因为图像检索的成果可以直接应用于人工智能、无人驾驶、医学图像管理、计算机应用和自然地理等各个方面.

表5 图像检索基金分布

2.5 研究热点和趋势分析

2.5.1 关键词共现知识图谱

关键词是对文章主题的高度概括和凝练，是文章的核心和精髓.高频关键词常用来确定研究领域的热点方向.因此，我们对图像检索相关文献的关键词进行分析，利用Citespace软件绘制高频关键词共现图谱，探寻图像检索研究领域热点方向（如图3所示）.

图3 高频关键词共现网络图谱

在图3中，每一个圆形节点代表一个关键词，节点越大表示关键词出现的频次越高；不同颜色的节点代表不同的年份；节点之间的连线，表示关键词之间共现系数，连线越多，表明关键词之间相互联系越紧密.我们选取2008—2017年间出现频次在47次以上的关键词，得到图像检索研究热点关键词频次统计表（如表6所示）.

表6 图像检索高频关键词频次统计

为了更好地展现国内图像检索研究的时间分布及相互间关系，笔者按照时区分析方法构建高频关键词时区图谱（如图4所示）.

图4 高频关键词共现时区图谱

在对图3和图4进行关键词共现网络知识图谱分析的基础上，结合高频关键词频次统计表（表6）进行分析.我们发现，国内图像检索研究的主题主要围绕图像检索算法、图像特征提取和图像语义研究等方面展开，并且将研究热点划分为以下方面：

（1）图像检索算法研究.随着数字图像技术迅速发展，传统的基于文本内容检索的TBIR技术逐渐被CBIR技术取代.基于图像内容的检索技术（CBIR），需要理解图像的颜色、纹理、布局等语义信息，同时还要对动态视频、音频等其他形式多媒体信息进行检索，图像算法研究逐渐成为图像检索的研究热点之一.彭天强等提出一种基于深度卷积神经网络和二进制哈希编码的算法，利用深度卷积神经网络算法学习图像隐含关系，提取图像特征，学习图像特征和哈希函数，然后在低维汉明空间中实现对大规模图像数据的有效检索［2］.周燕等从压缩感知理论角度出发，提出一种基于精细化稀疏自适应匹配追踪算法.首先对图像的颜色信号和纹理信号进行压缩感知、分块测量，然后利用MSAMP算法进行分块重构，在图像检索时，通过计算图像的整体相似度和对差量的稀疏性进行估计，减少迭代次数，加快图像检索速度［3］.闫允一等提出了一种基于稳定兴趣点和纹理特征的图像检索算法.首先利用优化的Hessian检测器检测图像中的稳定兴趣点，然后利用Gabor小波变换提取图像的纹理特征，通过比较不同图像之间兴趣点和纹理之间的差异来衡量图像之间的相似度，从而实现图像检索［4］.李军等提出结合视觉注意机制和递归神经网络的图像检索算法，首先提取图像的底层特征，然后提取图像的局部特征，最后用视觉注意LSTM（attention LSTM）产生一组向量描述所研究的图像.通过匈牙利算法计算图像之间的相似度，从而实现图像检索任务［5］.图像检索技术由基于文本内容的TBIR技术发展为基于图像内容检索的CBIR技术，提高了图像检索的质量，也对图像检索算法提出更高要求.图像内容包括各种信息，如纹理、颜色、特征等.如何准确描述图像内容信息，实现图像精确检索，成为图像检索算法研究的热点问题之一.目前，很多学者从不同角度提出图像检索算法，能够实现基本的图像检索任务，但图像检索准确度还有待进一步提升.

（2）图像特征提取研究.图像的底层特征包含颜色、纹理、平面空间对应关系、外形，或者其他统计特征.图像特征的提取与表达是基于内容的图像检索技术的基础.在现实中，人们对相似颜色的感观与算法提取的颜色特征仍然存在一定的差距，同时颜色特征不能反映颜色信息的空间分布等特点；利用形状特征对图像检索时，获得的形状特征还是会丢失原图的部分形状信息.因此，如何准确描述图像特征信息，满足不同用户需求，是图像检索领域的一大热点研究问题.张鑫等提出一种利用等面积的矩形环来提取颜色特征的图像检索方法.首先对图像按照等面积的矩形环划分策略行分块，提取累加子块颜色作为图像颜色特征，然后，按照矩形环依次减小规则确定权值，并对两幅图像子块颜色特征之间的距离进行加权累加得到两幅图像的相似度量，从而实现图像检索.该图像检索算法比传统的颜色特征检索算法具有更高的检索效果［6］.洪天昊等提出一种基于纹理特征的图像检索方法，在RGB颜色空间提取纹理特征描述子，使用局部直角均值模式对邻域像素进行重新编码和进行降维处理，取直方图作为特征向量，从而实现图像检索过程［7］.焦丽丽等提出一种综合采用改进的不变矩和二维极坐标傅里叶描述子对形状特征进行描述的算法，采用线性加权求和的方式计算综合相似度，将具有较高相似度的结果集返回给用户，实现图像检索过程［8］.张伟等构造了在平移缩放旋转下保持不变的基于度量矩阵特征值的图像空间关系描述子.研究表明这种描述与人的主观视觉心理相一致，在平移缩放旋转下以及小噪声下具有较强的鲁棒性，具有较好的类别可分离性［9］.图像特征信息描述的准确度，直接影响图像检索质量.采用单一的图像特征表示方法，运算速度快，检索精度低；融合多特征表示方法，检索精确度高，但计算量大.如何合理描述图像信息，实现基于图像特征的检索，是目前图像检索研究的热点之一.

（3）图像语义研究.相同的图像因人的视觉特征差异性，会形成不同的图像认知.由于这种对图像相似性的判别依据存在差异，造成人类理解的“语义相似”与计算机理解的“视觉相似”产生“语义鸿沟”现象.赵鹏等提出一种融合主题和视觉语义的图像自动标注方法，该方法用概率潜在语义分析（PLSA）模型拟合出主题集合，然后根据图像的高维视觉特征建立主题集合中每个主题的高斯混合模型（GMM），以准确描述其视觉语义信息，减小了语义鸿沟，提高了图像自动标注的准确性［10］.胡步发等提出一种双模态及语义知识的三维人脸表情识别方法.首先自动提取准确的三维人脸表情低层视觉特征，然后，采用AHP和G1相结合计算高层语义知识向量，最后，采用K-NN算法将低层视觉特征和高层语义知识融合，缩小低层视觉特征和高层语义知识之间的语义鸿沟，提高人脸表情的识别率［11］.朱娜娜等提出一种基于改进FCM算法和贝叶斯分类的图像自动标注算法，首先采用灰度直方图方法对图像分割并提取图像区域的纹理特征，然后利用FCM算法实现对分割后图像区域的聚类效果，建立图像区域和语义概念间的关联模型，通过比较测试图像和训练图像间的最大相似度实现测试图像的自动标注［12］.不同学科领域的图像数据，语义表达和描述都存在差异，这就不可避免产生“语义鸿沟”现象.目前各种图像检索算法无法消除用户视角和机器理解之间的差异，需要在现有图像语义研究的基础上，探索新的图像语义描述理论和方法.

2.5.2 突发性检测算法探寻学术前沿

Citespace软件的膨胀词探测（Burst Detection）技术和算法，通过探测关键词词频的时间分布，将其中词频变化率高的词从大量的关键词中探寻出来，依靠词频的变化趋势预测学科未来的发展趋势和发展规律.因此，笔者利用探测词技术对高频关键词进行突变检测，表7列出突变强度最高的前8位关键词，突变强度越高表明该研究主题越活跃，也是未来发展趋势和研究热点.

表7 图像检索关键词突变排序

结合高频关键词共现时区图谱（图4）和关键词突变检测表（表7），我们可以发现，关键词深度学习、大数据和稀疏编码属于深度学习领域；关键词多特征融合、SIFT特征和局部特征属于多特征融合领域，因此，国内图像检索研究学术前沿主要体现在以下四个方面：

（1）相关反馈研究.指的是一种人机交互的过程，在图像检索过程中，人的主观感觉融合到检索工程中，通过用户不断输入图像检索的目标信息，计算机系统最终确定采用何种特征表示和匹配算法，使图像检索结果更加符合用户视觉特性.张振花等将相关反馈技术引入图像检索中提高系统的检索性能.提出将粒子群优化算法引入基于内容的图像检索之中，通过用户对检索结果进行评价，图像检索系统通过学习来动态修改各特征的权值，从而达到模拟人类的思维，提高图像检索系统的检索性能［13］.郭士会等提出一种基于模糊语义相关矩阵（FS-RM）的相关反馈算法.该算法根据用户对检索结果的反馈调整模糊语义相关矩阵中的权值，从而捕捉用户的检索企图，通过对模糊语义相关矩阵中数据的学习不断修正语义矩阵，达到低层视觉特征到高层语义特征的过渡，最终提高了查询的准确度［14］.

（2）多特征融合.单一的图像特征（颜色特征、纹理特征和形状特征等）不能准确完整地描述图像所包含的数据信息，通用性比较差.虽然多特征融合检索，无疑会增加图像检索算法的复杂度.但可以更加准确地描述图像，提高图像检索的效果.因此，结合多种特征融合进行图像检索的方法成为该领域学者近几年研究关注的新热点.钱生等提出了一种基于条件随机场和图像分割的显著性检测方法.该方法综合利用边界信息、局部信息以及全局信息，从图像中提取出多种显著性特征，在条件随机场框架下融合这些特征，结合区域标注结果和交互式图像分割方法实现显著性区域的精确检测［15］.随婷婷等提出了一种基于CLMF的深度卷积神经网络，该模型结合视觉显著性、多特征融合和CNN模型实现目标对象的识别.首先利用加权Itti模型获取目标候选区，然后利用CNN模型从颜色、亮度多特征角度提取目标对象的特征，经过加权融合供目标识别.实验表明，本算法优于单一特征图像检索算法［16］.曾宪华等提出了一种自适应的多特征多核的哈希学习算法，该算法能够自适应学习多特征融合的权重系数和多核融合的权重系数，将多特征和多核的优点进行了双重融合，既解决了单特征所包含的信息量单一不足的问题，又能够弥补单核学习能力上的不足，具有多特征自适应融合和多核学习的双重优点［17］.

（3）深度学习算法.深度学习算法，让计算机可以从外界输入的大量数据中学习到规律，从而进行识别判断.因此，可以将深度学习算法引入图像检索研究领域，将图像的局部感知区域作为网络的输入，信息再依次传输到不同的层，每层通过一个数字滤波器去获取对平移、旋转和缩放具有不变性的显著特征.用于提取图像深层特征的内在隐含关系，实现对大规模高维图像数据进行有效检索.孙艳丰等提出了基于Fisher准则的深度学习算法，首先采用卷积神经网络自动提取图像的结构信息等特征，在反向传播权值调整时，采用了基于Fisher的约束准则.在权值的迭代调整时既考虑误差的最小化，又同时让样本保持类内距离小，类间距离大，从而使权值能更加快速地逼近有利于分类的最优值，当样本量不足或训练迭代次数不多时可有效地提高系统的识别率［18］.赵鹏等提出一种基于深度学习的手绘草图识别方法，该算法根据手绘草图缺失颜色、纹理信息的特点，使用大尺寸的首层卷积核取代自然图像识别中常使用的小尺寸首层卷积核，获得更多的空间结构信息.利用训练浅层模型获得的模型参数来初始化深层模型对应层的模型参数，以加快收敛，减少训练时长.加入不改变特征大小的卷积层来加深网络深度等方法以减小错误率［19］.谢锦等提出一种自动学习提取交通标志不变特征的道路交通标志分类方法.首先基于慢特征分析的深度学习框架自动学习得到每个阶段的特征映射矩阵，然后基于各阶段特征映射矩阵提取交通标志图像第一阶段特征和第二阶段特征，并将其联合输出作为交通标志的特征，最后使用支持向量机进行交通标志分类［20］.

（4）图像自动标注技术.图像自动标注（ATA）技术可以利用已标注的图像集或其他可获得的信息自动学习语义概念空间与视觉特征空间的关系模型，并用此模型标注未知语义的图像；而且通过在图像的高层语义特征和底层特征之间建立一种映射关系，它可以解决一定程度的“语义鸿沟”问题［21］.但由于图像标签的缺失性和多义性的存在，造成了图像自动标注的复杂性.采用何种图像自动标注技术，提高图像检索精度，是图像检索未来研究趋势.顾昕等提出一种基于文本和内容的图像检索算法.该算法采用稠密的尺度不变特征转换（DSIFT）构造视觉单词的方式来描述图像内容，依据基于概率潜在语义分析（PLSA）模型的图像自动标注方法获取的视觉语义对查询图像进行初步检索，在此结果集上对筛选出的语义相关图像按内容相似度排序输出［22］.李志欣等提出了一种混合生成式和判别式模型的图像自动标注方法.首先采用连续的概率潜在语义分析模型对图像进行建模，可得到相应的模型参数和每幅图像的主题分布.将这个主题分布作为每幅图像的中间表示向量，那么图像自动标注的问题就转化为一个基于多标记学习的分类问题.在判别式学习阶段，使用构造集群分类器链的方法对图像的中间表示向量进行学习，在建立分类器链的同时也集成了标注关键词之间的上下文信息，因而能够取得更高的标注精度和更好的检索效果［23］.

3 结语

本文通过文献计量学方法对2008—2017年国内图像检索研究领域进行了可视化知识图谱分析.我们发现：国内图像检索研究领域的研究团队和研究机构也发生了一定的变化；同时图像检索研究领域研究热点主要围绕图像检索算法、图像特征提取和图像语义研究等方面展开，取得了丰硕的研究成果.利用膨胀词探测（Burst Detection）技术和算法对图像检索未来的趋势进行分析，发现当前图像检索领域的相关反馈研究、多特征融合检索、深度学习算法以及图像自动标注技术成为新的研究前沿.