利用本体技术的文本聚类模型

2014-07-09 02:31李少博邸书灵范通让
河北省科学院学报 2014年2期
关键词:本体文档预处理

李少博,邸书灵,范通让

(石家庄铁道大学 信息科学与技术学院,河北 石家庄 050043)

随着信息技术的不断发展,海量的文本数据随之产生。如何对文本进行有效的组织分类,方便人们快速、精确的进行查找已成为人们研究的热点问题。文本聚类技术的提出很好的解决了文档的组织分类问题。文本聚类技术就是将一组文档或文本信息进行比较,将比较相似的文档或文本信息归为同一类的技术,文本聚类不需要预先训练,类别在聚类过程中自动生成。文本聚类技术大都采用向量空间模型方法,将文档表示为向量,通过计算向量之间的距离度量文档之间的相似度,这种方法割断了文档原有的语义联系,导致生成的聚类结果不能满足人们的需求。

笔者在向量空间模型的基础上,引入本体技术对文档进行语义标注,保留了文档中的语义联系;同时对所有映射到本体中的概念进行压缩,移除与主题不相关的概念,进一步减少不相关概念对聚类的干扰,提升了文本聚类的性能。

1 相关工作

1.1 向量空间模型和本体研究

Ming-yu Yao等人[1]利用tf-idf技术对词进行加权,再利用空间向量模型计算文本之间相似度。该方法只是计算了词在文档中出现的次数,没有考虑词之间的联系,同时也会造成向量空间的空间维度很高。Bo-Yeong Kang,Sang-Jo Lee等人[2]提出在文档中同时考虑词和概念,并对概念聚类,选择最重要的聚类表示文档,降低了使用向量空间模型计算文本相似度时的空间维度。虽然向量空间模型能够很好的对文档进行表示,但是其在处理高维稀疏、同义词和多义词方面仍存在明显的缺陷。

随着语义网和本体研究的不断深入,本体在信息检索方面的应用研究逐渐增多,研究成果主要集中在本体表示文本和文本相似度计算两个方面。在文本表示方面,David Sánchez,Montserrat Batet等人[3]提出利用本体对概念进行分类,通过分类的概念集提取文档的特征集合。Saša Neši,Mehdi Jazayeri等人[4]提出利用领域本体对文档进行标注,文档表示为本体的集合。在文本相似度计算方面,王刚等人[5]采用本体表示文档,分别计算概念、关系、本体的相似度最终得出文本的相似度。郑晓洁等人[6]从本体概念的语义相似度、属性、实例、结构等方面计算概念的相似度。邱玉辉等人[7]提出使用有限状态自动机提取概念,并对概念语义进行扩展后,在计算本体语义相似度度量文本相似度。

1.2 WordNet词典

WordNet是一部在线词典数据库系统[8],与其他的词典不同,WordNet按照词义而不是词形来组织词汇信息。WordNet将名词、动词、形容词和副词组织为同义词集合,每一个同义词集合表示一个基本的词汇概念,并在这些概念之间建立了包括同义关系、反义关系、上下位关系、部分关系等多种语义关系,通过概念节点之间的相互链接,组成了覆盖范围很大的语义网。

综上所述,本文结合基于本体的文本表示和文本相似度计算方法,使用WordNet词典对文档进行预处理,将文档表示为本体的集合。考虑到文档中概念的多样性以及概念关系的差异性,在进行文档相似度计算之前,首先进行概念聚类操作,进一步压缩文档中的概念数量,提取出文档的核心主题,然后计算主题之间的相似度,最后利用ACH(层次聚类算法)算法完成主题聚类。

2 基于本体相似度的文本聚类模型

本文所提出模型的主要步骤为:文档预处理;语义标注;概念聚类形成文档主题;主题聚类。该模型的具体流程如图1所示。

图1 基于本体的文本聚类模型流程图

在具体介绍本模型之前,先说明以下两个定义:

定义1 概念集合C是全文概念的集合,结构表示为C={c1c2c3…cn},ci={w1w2w3…wn}。ci表示概念集合C中的子概念,wi表示描述原文档中描述子概念ci的词汇。

定义2 具有相关性的子概念ci和cj之间通过一条无向边连接,边的长度大小代表概念间联系的紧密度。

2.1 文档预处理

在将文档表示为本体的集合之前,首先需要对文档进行预处理,将文档中的句子和词进行拆分。预处理过程主要包括分词、词性标注、移除停用词。预处理完成后,生成分词结果W。

得到分词结果W后,将W中的词逐一与WordNet词典进行比对,利用WordNet词典中的概念以及概念间的语义关系生成文档的概念集合C。

2.2 概念聚类

通常情况下每一篇文档所描述都是特定的主题和内容,由于概念集C中涵盖的是文档中所有词汇映射的概念,概念集C必然会包含一些与文档主题不相关的概念。因此,为了获取能够更加准确描述文档特定主题和内容的概念集合,本文提出一种新的方法对概念集合C进行压缩:

(1)对于概念集C中每一个概念ci,计算描述概念ci的词汇数量ni;

(2)设定词汇数量阈值T1;

(3)如果ni>T1,则将概念ci列入主题集合S;

(4)利用WordNet的最短距离公式[9]计算主题集合S中的两两概念之间的相似度sim(ci,cj):

其中C,k为常数,d为路径中的分叉的数,length(ci,cj)表示概念ci和cj之间的距离。

(5)设定聚类阈值T2,当sim(ci,cj)>T2时,将相似度sim(ci,cj)最大的两个概念聚为一类,返回步骤4继续执行;否则算法结束,提取文档的主题集合S。

2.3 主题聚类

经过上述处理,文档集合中的每一个文档都对应一个主题集合Si,Si中包含的是最能代表文档主题和内容的核心概念以及概念之间的关系。文本聚类就转变为对主题Si的聚类,提高了聚类效率。采用基于层次的ACH算法进行主题聚类。主要步骤如下:

(1)将所有的主题集合S1S2…Sn看作是一类;

(2)每一个概念Si中包含概念以及概念之间的联系,根据2.2节中介绍的算法计算不同主题集合中概念的相似度sim(cij,cmn),cij表示第i个主题中的第j个概念:sim(si,sm)=∑sim(sij,smn)

(3)选择相似度最大的两个主题合并为一个新的类;

(4)重复上述步骤,直到所有的主题集处理完毕。

3 总结与展望

分析了向量空间模型应用在文本聚类的缺点,并在此基础上引入了本体技术进行文本聚类,保留了文档中原有的语义联系。同时提出了一种新的方法,根据描述概念的词汇数量以及概念相似度去除不相关概念,实现了对文档概念集合的压缩,提高了相似度计算效率。在未来的工作中,将会对本文中移除不相关概念阈值选择标准、主题相似度计算方法改进以及主题聚类算法优化做进一步的研究。

[1]Yao M,Pi D,Cong X.Chinese text clustering algorithm based k-means[J].Physics Procedia,2012,33:301-307.

[2]Kang B Y,Lee S J.Document indexing:a concept-based approach to term weight estimation[J].Information processing &management,2005,41(5):1065-1080.

[3]Sánchez D,Batet M,Isern D,et al.Ontology-based semantic similarity:A new feature-based approach[J].Expert Systems with Applications,2012,39(9):7718-7728.

[4]Nešic′S,Crestani F,Jazayeri M,et al.Concept-based semantic annotation,indexing and retrieval of office-like document units[C]//Adaptivity,Personalization and Fusion of Heterogeneous Information.LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE,2010:134-135.

[5]王刚,钟国祥.一种基于本体相似度计算的文本聚类算法研究[J].计算机科学,2010,37(9):222-224.

[6]郑晓洁,张琳.本体映射中相似度计算的改进[J].计算机科学,2013,40(12):108-112.

[7]王刚,邱玉辉.基于本体及相似度的文本聚类研究倡[J].计算机应用研究,2010,27(7).

[8]Boubekeur F,Boughanem M,Tamine L,et al.Using WordNet for Concept-based document indexing in information retrieval[C]//SEMAPRO 2010,The Fourth International Conference on Advances in Semantic Processing.2010:151-157.

[9]Budanitsky A,Hirst G.Semantic distance in WordNet:An experimental,application-oriented evaluation of five measures[C]//Workshop on WordNet and Other Lexical Resources.2001,2.

猜你喜欢
本体文档预处理
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于预处理MUSIC算法的分布式阵列DOA估计
基于本体的机械产品工艺知识表示
基于RI码计算的Word复制文档鉴别
浅谈PLC在预处理生产线自动化改造中的应用
《我应该感到自豪才对》的本体性教学内容及启示
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法