基于谷歌距离的汉英词表概念映射研究

2015-09-08 01:38张李义崔恒
现代情报 2015年3期

张李义 崔恒

[摘要]本文对《汉语主题词表》(工程技术版)概念与英文超级科技词表概念的映射进行研究,建立优化的汉对英有序映射模式,并采用基于谷歌距离的语义相似度算法进行实验,计算英文词之间的语义距离,导入原有汉英映射信息。通过实验分析,获得了按相似度排序的汉英映射模式,实现了多个英文词汇与汉词的对应并由高到低排列出来。该方法获得的排序结果基本满足要求,部分词语需要人工修正。

[关键词]语义相似度;汉语主题词表;谷歌距离;概念映射

DOI:10.3969/j.issn.1008-0821.2015.03.001

[中图分类号]TP391;G25 [文献标识码]A [文章编号]1008-0821(2015)03-0003-05

词表映射研究是研究和建设跨语言信息检索(Cross Language Information Retrieval,CAJR)的基础,本文的目标是通过计算映射词语的相同程度来解决跨语言搜索结果的有序排列问题,其关键在于获取语义距离和改进现在的映射规则。研究双语言或多语言的CLIR是一个热门的话题,《汉语主题词表》(工程技术版)(以下简称《汉表》)与英文超级科技词表分别用于进行中外文科技文献的知识组织,而两者的相互映射正是为了实现对中外文文献资源的跨语言检索;考虑到两个词表知识体系的差异和语义映射的复杂性,本文不进行知识概念体系、词间关系和范畴体系等方面的语义映射,主要研究基于概念的映射模型和方法。

本文以《汉表》的概念作为源(Source)概念,英文超级科技词表的概念作为目标(Target)概念,参考并修订W3C的词表映射规则,建立映射模型。《汉表》概念具有上下位、多层次关系,英文超级科技词表概念也是网状关系,在建立概念间映射关系时,只在距离最短、关系最近的概念间建立关系,没有必要将等同的概念重复给定向上或向下匹配的关系,按照需要,将词表的原词间关系导入映射信息即可确定新的映射关系。本文以标准谷歌距离(Normalized Google Distance)作为语义距离的基本计算方法,并设计了映射流程,在已有汉英词表的基础上,对映射进行排序,能有效地解决检索时汉英词语的匹配问题。在检索过程中,可以做到按相似度的高低呈现有序的检索结果,从而给用户更优的检索体验。本文通过程序进行演算获取实验结果,根据语义相似度进行排序,建立新的有序映射。endprint