基于MLS方法的本体算法

2015-02-24 02:45何国英高炜
红河学院学报 2015年5期
关键词:顶点本体排序

何国英, 高炜

(1.云南师范大学经济与管理学院,昆明650500;2.云南师范大学信息学院,昆明650500)

基于MLS方法的本体算法

何国英1, 高炜2

(1.云南师范大学经济与管理学院,昆明650500;2.云南师范大学信息学院,昆明650500)

MLS模型作为一种逼近模型被广泛应用于数据光滑、数值分析和统计等诸多领域.文章将MLS模型用于最优本体函数的计算,将本体图中每个顶点映射成实数后,通过顶点对应实数间的差值来确定它们的相似度.将新本体算法应用于GO本体和物理教育本体,通过实验结果表明新算法对特定应用领域的相似度计算和建立本体映射是有效的.

本体;相似度计算;本体映射;MLS方法

顺着大数据时代的到来,日常的信息处理数据量日趋庞大,各种学习算法被广泛应用于本体相似度计算和本体映射.设本体用其图结构G=(V,E)表示.其中一类本体学习算法是通过样本的学习得到一个得分函数f:.该得分函数将本体图中每个顶点映射成实数,而概念对应顶点之间的相似度则通过计算顶点对应实数间的差值的大小来判定.此类技术的优点在于:直观性强,适合大数据本体相似度计算和大数据本体之间的本体映射的创建.

[1]通过排序学习方法得到本体顶点集上的得分函数f,并将此方法应用于在不同本体之间建立本体映射;[2]从本体图边权重的计算入手,通过图学习方法得到实值得分函数,进而得到对应的本体算法;[3]和[4]则是利用正则化模型得到最优本体函数f,并分别得到对应的本体相似度计算和本体映射算法;[5]提出k-部排序半监督学习算法,将k-部排序和半监督算法相融合,并应用于本体相似度计算.文献[6-7]对这些本体算法的收敛性进行了理论上的分析.

本文尝试将其他的学习算法应用于本体相似度计算和本体映射.将MLS(Moving least-square)方法应用于得分函数f的计算,并由此得到新的本体算法.组织结构如下:首先介绍MLS方法的基本思想和对应计算模型;其次对基于MLS方法的新本体相似度计算和本体映射算法进行描述;最后将此算法应用于生物学“GO”本体和物理教育学本体,通过实验数据的对比分析来说明MLS方法对于特定领域本体相似度计算和本体映射的构建是有效的.

1 MLS方法介绍

首先,将本体图中每个顶点的对应信息分别用一个n维向量来表示.为了方便标记,本文中使用v来表示顶点以及它对应的向量.这样,本体顶点集合V可以假设成的紧子集.设标记集合.选取样本集S={(v1,y1),(v2,y2),…,(vm,ym)}.学习的过程是通过样本集S的学习得到本体得分函数f:.

(2)存在常数cq>0,使得对任意,都有成立

三是粗度。就是主从分明。前面讲过,主枝粗度不能超过同部位主干粗度的1/3,结果枝组粗度不能超过同部位主枝粗度的1/4。

这里,H是假设空间,一般取再生核希尔伯特空间.>0称为比例参数.

2 本体算法描述

由以上分析,我们得到基于MLS方法的本体算法,其整体描述如下:

算法A:基于MLS方法的本体相似度计算算法

A1:对本体图进行预处理.将本体图中每个顶点的信息用一个向量表示.

A2:选取样本集,计算标记从而得到S.

A3:通过模型(1)得到最优本体函数f.

A4:通过计算两顶点对应实数的差值来计算本体顶

点之间的相似度.

算法B:基于MLS方法的本体映射算法

B2:选取样本集,计算标记从而得到S.

B3:通过模型(1)得到最优本体函数f.

B4:通过计算来自不同本体的两顶点对应实数的差值来计算不同本体顶点之间的相似度.

B5:根据B4得到的相似度,选择映射策略生成本体映射.

3 实验

在这一节中,我们将基于MLS方法的本体算法应用于两个具体领域.通过两个具体的实验来分析新算法对于本体相似度计算和本体映射的有效性.

3.1 本体相似度实验

第一个实验是采用生物GO本体O1(http:// www.geneontology.org,大致结构可参考图1)来验证算法A的效率.该本体结构是一个树性结构,其顶点被分成“Molecular function”、“Biological process”和“Cellular component”三个分支.通过本体顶点相似度计算,可以了解不同分子功能、化学细胞结构和生物过程之间的联系,从而帮助生物学家和基因研究者了解基因和化学结构以及分子化学作用之间的相互联系.因此,对GO本体的研究对生物学、医学和制药学都有重要的意义.本实验结果采用P@N[8]平均准确率来衡量.

图1 GO本体O1

另外,分别将本体回归算法[9]、快速排序算法[10]和标准本体排序算法[1]作用于GO本体.将这三种算法得到的P@N准确率与本文算法A得到的准确率进行比较,部分数据如下:

表1 实验1部分数据

由表1准确率对比可知,算法A对于GO本体的效率明显高于本体回归算法、快速排序算法和标准排序算法.

3.2 本体映射实验

本文的第二个实验是采用下面两个“物理教育”本体O2和O3来验证算法B的效率.这两个本体是将中学物理教育中的一些基本教学元素通过它们的从属关系串联成本体结构图.通过相似度计算从而在这两个物理教育本体之间建立本体映射,有助于了解由物理教育学元素以不同的方式构成的不同结构图之间的元素相互联系,从而可以帮助教学工作者进行物理教学元素的统筹以及设计整体教学规划方案.

图2 “物理教育”本体O2

图3 “物理教育”本体O3

同样地,分别将本体回归算法、快速排序算法和标准本体排序算法作用于“物理教育”本体,将这三种算法得到的P@N准确率与本文算法B得到的准确率进行比较,部分数据如下:

表2 实验2部分数据

由表2准确率对比可知,算法B对于“物理教育”本体O2和O3间建立本体映射的效率明显高于本体回归算法、快速排序算法和标准排序算法.

4 结束语

本体作为一种结构化数据表示模型,被应用于工程科学的各个领域,比如生物基因科学和教育学中.不同的机器学习方法可以产生不同的本体函数算法,本文尝试将MLS方法应用于本体相似度计算和本体映射.通过MLS方法得到本体函数进而使用本体函数值来计算本体图中不同概念对应顶点之间的相似度,同时在多本体图之间通过得到的相似度建立本体映射.事实证明,该方法对于特定应用领域的本体相似度计算以及构建本体映射是有效的.

[1]高炜,兰美辉.基于排序学习方法的本体映射算法[J].微电子学与计算机,2011,28,(9):59-61.

[2]高炜,梁立,张云港.基于图学习的本体概念相似度计算[J].西南师范大学学报(自然科学版),2011,36,(4):64-67.

[3]高炜,梁立.基于超图正则化模型的本体概念相似度计算[J].微电子学与计算机,2011,28,(5):15-17.

[4]高炜,朱林立,梁立.基于图正则化模型的本体映射算法[J].西南大学学报(自然科学版),2012,34,(3):118-121.

[5]高炜,梁立,徐天伟,等.半监督k-部排序算法及在本体中的应用[J].中北大学学报(自然科学版),2013,34,(2):140-146.

[6]高炜,张云港,梁立.Cs相似度函数下正则谱聚类的收敛阶[J].兰州大学学报(自然科学版),2011,47,(2):109-111.

[7]高炜,周定轩.与一般相似度函数相关的谱聚类的收敛性[J].中国科学:数学,2012,42,(10):985-994.

[8]Craswell N,Hawking D.Overview of the TREC 2003 web track [C].Proceedings of the Twelfth Text Retrieval Conference. Gaithersburg,Maryland,NIST Special Publication,2003:78-92.

[9]Gao Y,Gao W.Ontology similarity measure and ontology mapping via learning optimization similarity function[J]. International Journal of Machine Learning and Computing. 2012,2(2):107-112.

[10]Huang X,Xu T,Gao W,Jia Z.Ontology Similarity Measure andOntologyMappingViaFastRankingMethod[J]. International Journal of Applied Physics and Mathematics,2011,1(1):54-59.

[责任编辑鲁海菊]

Ontology Algorithms Based on MLS Method

HE Guo-ying1,GAO Wei2
(1.School of Economy and Management,Yunnan Normal University,Kunming 650500,China 2.School of Information,Yunnan Normal University,Kunming 650500,China)

Moving least-square method is an approximation method for data smoothing,numerical analysis,statistics and many other fields.We apply MLS method to get the optimal ontology function,and then each vertex is mapped into a real number.The similarity between two vertices is determined by virtue of the difference of their corresponding real numbers.The new ontology algorithm is applied to the Go and the physical education ontologies,and the experiment results show that the new algorithms with efficiency in specific applications for similarity measure and ontology mapping building.

Ontology;Similarity measure;Ontology mapping;MLS method

TP393.092

A

1008-9128(2015)05-0014-03

2014-09-15

国家自然科学青年基金资助项目(11401519);教育部科学技术研究重点项目(210210).

何国英(1986-),女,云南大理人,助教,硕士,研究方向:思想政治和课程教学及教育技术研究。

猜你喜欢
顶点本体排序
排序不等式
过非等腰锐角三角形顶点和垂心的圆的性质及应用(下)
过非等腰锐角三角形顶点和垂心的圆的性质及应用(上)
眼睛是“本体”
恐怖排序
节日排序
基于本体的机械产品工艺知识表示
专题
Care about the virtue moral education
数学问答