面向多本体语义相似度计算的改进研究

2018-01-18 06:51余朦朦刘宇刘雅婷

现代计算机 2017年35期

余朦朦，刘宇，刘雅婷

（1.武汉科技大学计算机学院，武汉 430065；2.武汉市科学学研究所，武汉 430023）

0 引言

语义相似度的计算是自然语言处理的关键问题之一，在问答系统、机器翻译和文本主题抽取等领域有着非常广泛的应用[1]。虽然目前研究人员已提出了多种基于单本体的语义相似度计算方法[2]，但是单一领域本体的知识覆盖度限制了相关方法的性能。针对上述问题，Montserrat等人[3]提出了基于多本体的语义相似度计算方法。通过利用多个本体所提供的语义线索，Montserrat法的计算结果更准确，即更为拟合领域专家的评估结果。

鉴于运用多本体计算概念对的语义相似度较为复杂，Montserrat法采用了依据不同情况分别处理的解决方案：1.仅某一本体包含概念a和b，两者的语义相似度直接利用单本体计算获得；2.a和b都同时出现在多个本体，选取各本体计算结果的最大值作为a和b的语义相似度；3.无本体同时包含a和b，利用多本体中上位概念的匹配概念对计算a和b的语义相似度。图1展示了生物医学本体FMA（Foundational Model Of Anatomy）和 NCI（National Cancer Institute）的部分匹配概念对。显然，计算Ana_str和Org_Che的语义相似度满足Montserrat法的情况3——FMA和NCI不同时包含 Ana_str和 Org_Che。从图 1可见，Ana_str和Org_Che不仅上位概念中包含匹配概念对FMA（Thing）:NCI（Thing），而且下位概念中也包含匹配概念对 FMA（Pho）:NCI（Pho）和 FMA（phospha）:NCI（phos⁃pha）。因此，仅利用上位概念中的匹配概念对，而没有借鉴下位概念中的匹配概念对，Montserrat法无法充分利用多本体所提供的语义线索。针对Montserrat法中情况3的处理方式所存在的不足，本文提出了改进的面向多本体语义相似度的计算方法，记为I-SSCMO。

图1 FMA和NCI的部分匹配概念对

1 改进的计算方法

设概念a和b分别隶属于本体A和B，则本论文所涉及的相关定义描述如下。

定义1（上位概念集合）本体A中概念a的上位概念集合，记为 U（A,a）。

定义2（下位概念集合）本体A中概念a的下位概念集合，记为 L（A,a）。

定义3（匹配概念集合）本体A与本体B的匹配概念集合，记为 M（A,B）。在图 1 中，M（FMA,NCI）包含所有箭头线所连接的概念对。

定义4（匹配上位概念集合）本体A中a的上位概念与本体B中b的上位概念相匹配的概念集合，记为MU（A（a）,B（b））。在图 1 中，MU（FMA（Ana_str）,NIC（Org_Che））={FMA（Thing）:NCI（Thing）}。

定义5（匹配下位概念集合）本体A中a的下位概念与本体B中b的下位概念相匹配的概念集合，记为ML（A（a）,B（b））。在图 1 中，{FMA（Pho）:NCI（Pho）,FMA（phospha）:NCI（phospha）}为 Ana_str 和 Org_Che的匹配下位概念集合。

定义6（公共上位概念集合）本体A中概念a与本体B中概念b的公共上位概念集合为

在图 1 中，CU（FMA（Ana_str）,NIC（Org_Che））={FMA（Thing）,NCI（Thing）}。

定义7（公共下位概念集合）本体A中概念a与本体B中概念b的公共上位概念集合为

在图 1 中，CL（FMA（Ana_str）,NIC（Org_Che））={FMA（Pho）,NCI（Pho）,FMA（phospha）,NCI（phos⁃pha）,FMA（pholin）,NCI（pholinl）}。

在上述定义的基础上，I-SSCMO法首先利用多本体中匹配上位概念集合所提供的语义线索，计算概念对的语义相似度，其具体计算方法如公式（3）所示。

然后，I-SSCMO法利用匹配下位概念集合计算语义相似度，具体计算方法如公式（4）所示。

通过综合上述两种语义相似度，A本体中概念a与B本体中概念b的语义相似度可由公式（5）获得。

其中，w∈[0,1]。w为加权因子，调控U_Sim(A(a),B(b))和 L_Sim(A(a),B(b))对最终结果Sim(A(a),B(b))的影响。当w为0时，表示仅利用匹配下位概念集合所提供的线索计算语义相似度；当w为1时，表示仅利用匹配上位概念集合所提供的线索计算语义相似度。

I-SSCMO法的伪代码如下所示：

输入：本体A和本体B，待评估的概念对（a,b），加权因子w

输出：概念对（a,b）的语义相似度

1:IF概念对（a,b）属于Montserrat法的情况1和情况2

2: RETURN Montserrat法的计算结果；

3:ELSE

4:分别获取a和b的上位概念集合和下位概念集合；

5:获取概念对（a,b）的匹配上位概念集合和匹配下位概念集合；

6:获取概念对（a,b）的公共上位概念集合和公共下位概念集合；

7: 根据公式（3）计算 U_Sim（A（a）,B（b））；

8: 根据公式（4）计算 L_Sim（A（a）,B（b））；

9: 根据 U_Sim（A（a）,B（b））、L_Sim（A（a）,B（b））和加权因子 w 计算 Sim（A（a）,B（b））；

10:RETURN Sim（A（a）,B（b））；

11:END IF

2 实验及评估

为了验证I-SSCMO法的有效性，本文利用两对本体进行了实验：生物医学本体FMA和NCI、经济领域本体STW（The Thesaurus for Economics）和社会科学本体 TheSoz（The Thesaurus for the Social Sciences）。需要说明的是，尽管STW和TheSoz属于不同的领域，但它们之间有很大部分的重叠域。由于I-SSCMO法主要改进了Montserrat法情况3的计算方法，本实验从FMA和NCI、STW和TheSoz中分别选取了30对概念对。这些概念对不仅满足情况3的条件，而且均具有匹配下位概念。在人工评判环节，分别由多名医学和经济专业人员对概念对的相似度按照5个等级打分（0表示两个概念不相关，4表示两个概念相同），并以平均值作为人工评判的最终结果。最后，本文将Montserrat法和I-SSCMO法的计算结果与人工评判的结果进行了比较，并运用皮氏积矩相关系数的计算方法来评估结果的准确度，具体如公式（6）所示。r的取值范围为[0,1]，并且r值越大意味着计算结果越拟合人工评判的结果，此时相应方法能够获得更为准确的语义相似度。

其中，Xi为Montserrat法或I-SSCMO法计算第i对概念对的语义相似度，Yi为人工评判的第i对概念对的相似度，X可为Montserrat法或I-SSCMO法计算结果所组成的数组，Y为人工评判结果所组成的数组，Xˉ和Yˉ分别是X数组和Y数组的平均值。

鉴于加权因子w对I-SSCMO法的影响，本实验从[0,1]中选取了11个w值，以评估在w不同的取值情况下I-SSCMO法的结果准确度。图2展示了在计算FMA和NCI中概念对时Montserrat法或I-SSCMO法的性能比较。Montserrat法不受加权因子w的影响，因此其准确度始终是0.6579；当w=0.8时，I-SSCMO法的准确度达到最大值0.6602。图2的结果说明，在FMA和NCI中匹配下位概念所提供的语义线索有限，I-SS⁃CMO的性能改进不显著。图3展示了在计算STW和TheSoz中概念对时Montserrat法或I-SSCMO法的性能比较。同样，Montserrat法的准确度始终是0.5101；当w=0.9时，I-SSCMO法的准确度达到最大值0.5702，性能提升较为明显。综合图2和图3的结果，可以发现：1.在计算多本体中概念对的语义相似度时，相对于匹配下位概念而言，匹配上位概念所提供的语义线索更为有效，即w应取较大值；2.对不同多本体处理时，应当根据具体情况选取w的值，即处理FMA和NCI时应取0.8、处理STW和TheSoz时应取0.9；3.对于彼此之间差异较大的本体对，考虑匹配下位概念所提供的语义线索是有效的，能够提供更为准确度的结果。

图2 计算FMA和NCI中概念对时的性能比较

图3 计算STW和TheSoz中概念对时的性能比较

3 结语

针对基于多本体的语义相似度计算方法所存在的问题，本文提出了综合考虑匹配上位概念和匹配下位概念所提供语义线索的相似度计算方法。在FMA和NCI、STW和TheSoz上的实验表明，通过选取合适的加权因子w，改进的方法I-SSCMO能够在一定程度上获得更准确的结果。在将来的研究中，我们将考虑如何更为充分地利用匹配下位概念提供的语义线索、加权因子w的优化取值等问题。

[1]张沪寅,刘道波,温春艳.基于《知网》的词语语义相似度改进算法研究[J].计算机工程,2015,41（2）:151-156.

[2]孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010,26（1）:51-56.

[3]Batet M,Sánchez D,Valls A,et al.Semantic Similarity Estimation from Multiple Ontologies[M].Applied Intelligence,2013：29-44.