检索应用中地理信息资源相似度计算方法研究

2017-03-30 08:51贾奋励宋国民高云亮
测绘工程 2017年6期
关键词:计算方法检索数值

段 帅,贾奋励,宋国民,高云亮,盖 森

(1.信息工程大学 地理空间信息学院,河南 郑州 450001,2.南京陆军指挥学院,江苏 南京 210045)

检索应用中地理信息资源相似度计算方法研究

段 帅1,贾奋励1,宋国民1,高云亮1,盖 森2

(1.信息工程大学 地理空间信息学院,河南 郑州 450001,2.南京陆军指挥学院,江苏 南京 210045)

在地理信息资源检索应用中,资源属性间相似关系的计算还不够深入,地理信息资源的精准推荐及检索可视化应用尚难以实现。针对该问题,统一采用“相似度”对资源属性间的相似关系进行表达。资源的属性类型大部分为文本,其中具有语义差异,文中提出复合文本的相似度算法对文本类型属性进行匹配,并给出数值类型属性的“相似度”映射方案。在此基础上,实现资源时间、空间属性的相似度计算。基于所提出的相似度算法进行地理信息资源检索实验,实现地理信息资源属性间相似关系的量化,促进信息可视化在地理信息资源检索中的应用。

地理信息资源;资源检索;相似计算;相似度

地理信息资源主要指用于描述地理信息的各种空间数据,包括各种矢量数据、栅格数据、文本描述数据及多媒体数据等。在当今数字时代,数字化地理数据的数据量正在快速增长[1],在各国政府、国际组织、企业和部门的普遍重视与长期建设下,其积累量已达到相当规模,各类地理信息资源共享服务平台纷纷投入建设[2]。如美国联邦地理数据委员会(FGDC)交换中心(CleaningHouse)、欧委会启迪地理门户网站(INSPIRE geoportal),我国的地球系统科学数据共享平台、地理空间数据云等。

地理信息元数据标准是地理信息资源在共享应用中的主要描述依据。如ISO/TC211元数据标准(ISO19115)、《地理信息 元数据》(GB/T19710)、DIF数据交换目录等,这些元数据标准在地理信息资源的描述项目及描述方式上存在一定的差异。同一资源属性可能采用不同的描述方式及不同的度量单位,并且地理信息资源属性类型大部分都是文本,其中含有大量的语义成分[3]。资源的属性需要进行一定的匹配和计算,才能给用户提供较准确的检索结果。

然而,在地理信息资源共享应用中通常采用关键字匹配的方式,在属性计算方面通常只涉及到空间范围的计算,而资源其它属性间的相似关系却很少涉及,地理信息资源的相似推荐及检索可视化等应用还难以实现。这样,一方面用户难以发现感兴趣信息;另一方面,一些资源成为少人问津的“暗信息”[4]。

基于以上背景,本文面向地理信息资源检索应用,采用相似度对地理信息资源属性间的相似关系进行量化表达,促进资源更精准的推荐及信息可视化在地理信息资源检索中的应用。

1 地理信息资源属性的相似度概念

地理信息资源检索应用是将与检索条件相匹配的资源进行聚集并展示的过程,实质上是基于资源属性将相似的资源在逻辑上进行聚集。采用相似度对地理信息资源属性间的相似程度进行量化,以便于对相似的资源进行聚集,促进检索结果更好地排序及信息可视化对资源间相似关系的表达。下面对相似度的概念及其表达范围进行分析。

相似度定义:用于描述地理信息资源属性间的相似程度,统一采用介于0至1之间数值进行表达,当相似关系最强时,设定其相似度为1;当相似关系最弱时,其相似度为0。

地理信息元数据标准提供给地理信息资源的描述项多达400余项,实际应用中通常选取其中十几项或几十项作为资源的描述。两个资源对象可基于其中任一描述项计算出两者的相似关系。对地理信息资源设定统一描述项已在另一文中作详细叙述,具体包括了资源的基本特征、时空特征及深度内容特征3个方面,本文的研究重点是对描述项的相似度进行计算。面向地理信息资源检索应用,需要明确相似度的表达范围,下面对资源的描述项进行分析。

资源的描述项按照类型可划分为文本类型和数值类型两种。地理信息资源大部分属性为文本类型,如资源名称、采集工具、主题、关键字等;其余少量属性的类型为数值类型,如时间、空间范围、存储大小、价格等。文本类型属性需要进行文本相似度计算,得到更加准确的匹配结果;数值属性中的时间、空间范围需要进行特殊的计算处理,而存储大小、价格等属性,需要将数值之间的关系转换为相似度。

2 资源属性的相似度计算方法

文本和数值属性的相似度计算是进行其它相似关系计算的基础,本节将针对文本、数值两种类型属性的相似度计算方法进行研究,并给出资源空间属性、时间属性的相似度计算方法。

2.1 文本相似度计算

文本的相似度计算能够促进资源的模糊匹配,提高资源的查全率,从而为用户推荐更多相似的资源结果。下面对常见的文本相似度算法进行介绍,并针对地理信息资源检索应用给出具体的计算方法。

2.1.1 常见的文本相似度计算方法

2.1.1.1 字符串匹配算法

字符串相似度[5]可以用来衡量两个字符串的相似程度,它利用两个目标字符串的公共子串的长度,根据相应公式得出相似程度。对于两个字符串P,T,分别可表示为P={P1,P2,P3,…,Pn},T={T1,T2,T3,…,Tm}。对P,T的元素进行匹配,所有匹配对(Pi,Tj)的集合表达为Rs,两个字符串相似度可以表示为

Sim(P,T)=

其中:Sim(P,T)表示两个字符串P,T的相似度;|•|表示内部集合的元素个数;若Rs集合为空,则Sim值为0;当P,T完全相同,Sim为1。

2.1.1.2 词语的相似度计算方法

1)基于语料库的词语相似度计算。该方法通过统计大规模语料库,根据词语间信息量或者词语共现频率来计算词语相似度。按照语料库的类型具体分为传统大规模语料库和Web语料库[6]。该方法适宜用于计算两个词语的相关性,如“军人”和“武器”两个概念,两者意义上差别很大却具有很强的相关性。但基于语料库的方法依赖于语料库,算法复杂且存在数据稀疏的问题,其应用并不广泛。

2)基于《同义词词林》的词语相似度计算。梅家驹等人于1983年编纂了《同义词词林》,这本词典中包括了词语的同义词及同类词,哈工大在其基础上进行拓展,在原有三层分类体系基础上增加两层,形成了五层分类体系。并给每个词7个位置编码及一个标记,具体编码如表1所示。

3)基于《知网》的词语相似度计算。《知网》并非将所有的“概念”归结到一个树状的层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述。其具体概念的定义如下:

表1 词语“影像”的编号示例[7]

概念:是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。

义原:是用于描述一个“概念”的最小意义单位。《知网》中的义原可以分为三类:基本义原、语法义原、关系义原。

2.1.1.3 上述方法的对比

表2对上述几种方法的优缺点进行总结。

2.1.2 兼顾语义的复合文本相似度计算方法

综合字符串匹配的思想和词语相似度计算方法,本文提出兼顾语义的复合文本相似度计算方法。

2.1.2.1 算法思路

为对资源属性进行良好的语义处理,提出一种兼顾语义的复合文本相似度计算方法,具体算法流程如图1所示。

表2 文本相似度计算方法对比

图1 文本相似度算法流程

步骤1:分词。对于待比较的两个属性值A与B,考虑到A,B可能为复合词语或短语,在进行比较时先采用分词工具对复合词汇A,B进行分词,分别得到A,B的属性向量A(a1,a2,…,am)和B(b1,b2,…,bn)。

步骤2:匹配。将两个属性向量中的每个元素进行一一匹配,形成m×n个配对的元素,如下所示:

(a1,b1)(a1,b2)…(a1,bn)

(a2,b1)(a2,b2)…(a2,bn)

…………

(am,b1)(am,b2)…(am,bn)

步骤3:词语相似度计算。对上述匹配对中的每个元素进行词语相似度计算。首先判断配对(ai,bj)中两个元素是否相同,若相同,则其相似度为1;若不同,则利用词语相似度算法进行计算,得到m×n特征矩阵M,表示如下:

步骤4:提取。首先遍历相似度特征矩阵,提取矩阵中最大的元素Max1,并删除其所在的行与列,得到(m-1)×(n-1)的矩阵M1。重复该步骤,每次提取矩阵中的最大元素Maxi,并去除该元素所在的行与列,直到矩阵元素只剩下一行或一列为止。得到min(m,n)个元素集合并记为Max:

Max={Max1,Max2,…,Maxmin(n,m)}.

步骤5:基于字符串匹配思想,对于两个待匹配的属性,以分词后的元素作为最小单位进行匹配,且语义相似度的值范围为(0,1),因此结合属性的相似度计算,将两个概念中的相似度计算公式调整为

2.1.2.2 词库调整

由于地理信息资源检索是特定领域的检索,需要对领域特有的词汇进行检验,对缺乏的专业领域词汇进行添加,以满足地理信息资源检索应用。《同义词词林》及《知网》两种词库都不包含“摄影测量”、“遥感影像”这类的词语。鉴于《同义词词林》的词语结构相对简单,易于调整,采用《同义词词林》的词库进行文本相似度计算,并对词汇进行添加及调整。

1)添加词汇。对地理信息资源检索应用的核对核心词汇进行分析,添加缺少的词汇。例如,添加“图像 1 Dk31A01=”、“图像 1 Dk31A01=”、“图像1 Dk31A01=”、“航拍1 Dk31A02=”至“同义词词林.txt”文件中。

2)调整词汇距离。对词语相似度进行测试,对明显偏差的词汇距离进行修改。例如,对记录“摄影 3 Ae17C07# Hh03A01= Df04A05#”,添加“Df04A05#”编码以减少与词汇“遥感”的距离。

2.2 数值属性相似度计算

数值类型的属性主要包括资源的存储大小、价格、分辨率等,这类属性采用“数值+单位”的形式进行表示。实现数值距离向相似度的映射,具体分为以下两个步骤。

步骤1:转换为统一的计量单位,计算两个待匹配数值的差值。

同一属性可能具有不同的表示单位。如存储大小可能采用KB、MB、GB、TB几种单位进行表示,进行匹配时首先将其换算为统一单位,再计算两个数值的差值,这里将差值记为D。

步骤2:对差值进行分阶,映射为0~1间的相似度。

对步骤1中计算出的差值D进行分阶,将每一阶的范围映射为相似度。以数据储存大小属性为例,表3对其相似度映射方法进行分析。

需特别指出的是,数值型属性间差值的分阶方法并不固定,具体应用中可参照该属性的特征以及数据库中该属性的密集程度。

2.3 时间相似度计算

地理信息元数据标准对资源的时间信息通常采用“时间点”和“时间段”两种方式进行表达。如“时间点”主要采用“年—月—日”的形式进行描述;时间段包括起始时间点与终止时间点来表达。学术界将点时间看作一个极短的段时间[8]。基于该思想,取时间段的中点作为时间段的简化表示,便于统一计算。如图2所示。

表3 资源存储大小的相似度映射

图2 时间映射示意图

将时间段映射为时间轴的点之后,可以统一计算时间的间隔值D,采用上节中数值属性相似度的计算方法,对时间间隔进行相似度映射,在此不再赘述。

2.4 空间相似度计算

空间关系可细分为水平空间关系、资源方向、方位以及拓扑等多个类别。考虑到资源方向、方位、拓扑及垂直空间上的复杂关系在检索中并不常用,因此重点研究地理信息资源检索中水平空间的相似关系。资源水平空间的描述可能采用直角坐标系、大地坐标系、地名、邮编、行政区划等多种类型的描述方式。因此,实现资源水平空间关联关系的计算首先要实现多种描述方式的统一映射。

本文将水平空间的多种描述方式统一映射为大地坐标系的表达,并采用空间重叠度和空间距离两个参数对资源的空间相似度进行度量,具体如图3所示。

图3 水平空间描述方式的统一映射与计算

重叠度:从检索的角度,设区域A为待比较资源的水平空间区域或搜索范围,区域B为待比较区域,区域B与区域A的重叠度σ(A,B)表示为

其中:SAB为区域A与B的公共面积,SA为区域A

的面积。

空间距离:仅仅采用空间重叠度往往还难以发现足够多的资源,在此采用空间距离这一参数对相似度进行补充。

设区域A中心点经纬度为(LonA,LatA),区域B中心点经纬度为(LonB,LatB)。对经纬度进行规范化处理:东经取正值(Lon),西经取负值(-Lat),北纬(90-Lat),南纬(90+Lat),经处理后的坐标分别表示为(MLonA,MLatA)和(MLonB,MLatB),空间距离计算公式为

Distance(A,B)=R×Arccos(sin(MLatA)×

sin(MLatB)×cos(MLonA-MLonB)+

cos(MLatA)×cos(MLatB))×PI/180.

其中:R为地球平均半径;PI为圆周率。根据空间重叠度与空间距离公式,资源的水平空间总体相似度可表示如下:

其中:W1,W2分别对应空间重叠度与空间距离的权重;N为距离的调整因子。水平空间相似度在理论上可以超过1,当相似度超过1时,调整其相似度值为1。

3 实验验证

采用本文提出的地理信息资源属性的相似度计算方法,开发原型试验系统进行检索实验。系统中地理信息资源的元数据库中包含了主题内容、时间、空间等详细的属性信息。原型系统提供单一要素检索和多要素检索功能,采用两个功能分别进行两组检索实验。

3.1 单要素检索实验

设定检索项为“主题”,检索关键字为“山脉”,检索结果如图4所示。

图4 主题检索结果

表4对检索结果进行统计,表中的匹配度代表资源与当前检索条件的相似度。

表4 检索结果统计

对比可知,匹配度为100%的记录中其主题包含了“山”、“山地”,与检索词汇“山脉”概念相一致;“海岛”、“岛礁”与其的相似度为79%,而湖泊、森林、城市等与“山脉”距离较远。检索系统对每一页的检索结果以图形进行显示(见图5),初步实现了检索结果的可视化表达。

图5 检索结果的图形显示

3.2 空间范围检索实验

设定3个检索条件:资源类型为“影像”,“主题”为“河流”,“地名”为“郑州”,其检索结果目录及图形显示分别如图6、图7所示。

图6 多要素检索结果

图7 多要素检索可视化显示

表5对图中的检索结果进行统计。当有多个检索条件时,检索系统计算出对应属性的相似度,求取平均值作为总体相似度。当资源对象的相关属性与3个检索条件完全匹配时,其总体相似度为100%;当满足其中两个检索条件,相似度约为66%;表5中匹配度为59%的资源,其空间范围属性与“空间范围”检索条件的相似度为1,并且其包含的主题“湖泊”与检索条件“河流”在概念上相似,其相似度更高,该资源的总体相似度较高。

表5 多要素检索结果统计

两组检索实验证明,统一采用相似度对地理信息资源属性的相似关系进行计算,有利于对属性相似关系的统一量化,促进资源的精确排序及信息可视化对检索结果的表达;验证了文本属性、空间属性的相似度算法的有效性,促进资源的相似发现,提高了查全率。

4 结束语

面向检索应用,对地理信息资源属性的相似度计算方法进行研究。统一采用介于0至1的相似度值对资源属性的相似关系进行统一表示。提出了复合文本的相似度算法对资源文本类型属性进行匹配,并给出数值属性的相似度映射方案。在其基础上,完成资源的时间、空间属性的相似度计算。采用提出的属性相似度计算方法进行检索实验,实验证明,本文所提出的属性相似度计算方法能够促进资源属性间相似关系的量化,促进资源的精确排序及相似资源的发现。

本文采用图形方法对检索结果进行可视化显示,该表达方式还比较简单。在本文研究的基础上,将信息可视化方法与地理信息资源检索进行深入结合是下一步研究工作的重点。

[1] 龚健雅,耿晶,吴华意,等.地理信息资源网络服务技术及其发展[J].测绘科学技术学报,2013,30(4):353-360.

[2] 陆海英,花存宏.地理信息资源共享服务平台建设构想[J].地理信息世界,2009,7(4):19-23.

[3] 宋国民,贾奋励.地理空间数据共享机制研究[J].测绘学院学报,2002,19(2):134-136.

[4] 刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15.

[5] 牛永洁,张成.多种字符串相似度算法的比较研究[J].计算机与数字工程,2012,40(3):14-17.

[6] 李慧.词语相似度算法研究综述[J].现代情报,2015,35(4):172-177.

[7] 刘丹丹,彭成,钱龙华,等.《同义词词林》在中文实体关系抽取中的作用[J].中文信息学报,2014,28(2):91-99.

[8] 侯志伟,诸云强,高星,等.时间本体及其在地学数据检索中的应用[J].地球信息科学学报,2015(4):379-390.

[责任编辑:刘文霞]

On the method of similarity computation of geographic information resources in the retrieval

DUAN Shuai1, JIA Fenli1, SONG Guomin1,GAO Yunliang1,GAI Sen2

(1.Information Engineering University,Zhengzhou 450001,China, 2.Nanjing Army Command College,Nanjing 210045,China)

In the retrieval of geographic information resources, as the computation of relationship between the attributes of resources is not deep enough, it is difficult to recommend the geographic information resources accurately and display the results in a visual form. In view of the above problems, this paper uses relationship to express the similarity between resource attributes. The mostly-used type of attributes is text, which has much semantic difference.So a similarity algorithm is proposed to match the text attributes, and to obtain the similarity mapping scheme of numerical attributes.On this basis the similarity of time and space attributes are calculated. Based on the proposed similarity algorithm, geographic information resources retrieval experiments are carried out,which will realize the quantification of resource similarity relation and application of information visualization in geographic information retrieval.

geographic information resources; resource retrieval; similarity algorithm; similar degree

引用著录形式:段 帅,贾奋励,宋国民.检索应用中地理信息资源相似度计算方法研究[J].测绘工程,2017,26(6):53-59.

10.19349/j.cnki.issn1006-7949.2017.06.010

2016-05-06;

2016-06-01

国家自然科学基金资助项目(41371382);信息工程大学地理空间信息学院硕士学位创新与创优论文基金(ZS201505)

段 帅(1990-),男,硕士研究生.

P208

A

1006-7949(2017)06-0053-07

猜你喜欢
计算方法检索数值
浮力计算方法汇集
数值大小比较“招招鲜”
专利检索中“语义”的表现
随机振动试验包络计算方法
基于Fluent的GTAW数值模拟
不同应变率比值计算方法在甲状腺恶性肿瘤诊断中的应用
基于MATLAB在流体力学中的数值分析
一种伺服机构刚度计算方法
国际标准检索
国际标准检索