面向专利文献的中文分词技术的研究

2010-06-04 07:05张桂平刘东生尹宝生徐立军苗雪雷
中文信息学报 2010年3期
关键词:后缀分词语料

张桂平,刘东生,尹宝生,徐立军,苗雪雷

(沈阳航空工业学院 知识工程中心, 辽宁 沈阳 110034)

1 概述

专利是世界上最大的技术信息源,其包含了世界科技信息的90%~95%[1],如何充分地利用如此巨大的信息资源,使专利在科研和专利业务的诸多方面发挥重要作用,专利信息处理系统便应运而生。在中文专利信息处理系统中,专利分词是一个重要的基础环节,专利检索及专利翻译等应用都需以专利自动分词作为基础。

汉语自动分词的两大难点是切分歧义的消除和未登录词的识别[2]。专利文献用词规范,严谨,歧义切分现象相对较少,但文献中包含大量的未登录词,这些未登录词大多是专业术语。据统计,在大规模真实文本中,未登录词造成的分词精度影响比歧义切分造成的精度影响至少大5倍以上[3],如何提高专利文献中未登录词的识别率,进而提高分词系统的总体性能,是专利自动分词的一大难点。

自汉语自动分词问题被提出以来,人们提出了许多分词方法。20世纪80年代左右,人们提出了基于词典的分词方法[4],其优点是算法简单,易于实现,但在词典不完备的情况下无法识别文中大量出现的未登录词[5]。

近十多年来,随着统计方法的迅速发展,人们又提出了许多基于统计的分词方法[6-8]和统计与词典相结合的分词方法[9]。统计方法的优点在于它可以从已有的大规模语料库中进行训练,分析语言内在的特征信息,将其加入到统计模型中。对于统计分词方法,不同领域的语料对于统计模型起着决定性的作用,新闻语料与专利语料,在内容上存在着很大的差异,用新闻语料训练出来的统计模型去切分专利语料,势必得不到很好的切分结果。即使是统计和词典相结合的分词方法,其分词信息一般也只是从训练语料库和当前语句中获取,而往往忽略了要被切分文本总体的上下文信息。

随着机器学习方法在自然语言处理方面的应用,人们提出了基于字标注以及字词结合的统计分词方法[10-13,19]。这些方法的主要优势在于它能够较平衡地看待词表词和未登录词的识别问题[3]。但在实际应用中的开放测试环境下,这些方法受训练语料的限制,并不能保证切分效果同样很好;而且它根据调节窗口大小获取词的上下文信息,不能很好地利用被切分文本中的上下文信息。

目前国内汉语自动分词的研究主要集中在新闻语料上[5],比较成熟且实用的分词系统对新闻语料的分词效果很好[14-15],然而对专利语料的分词效果却不理想。本文从专利检索项目的实际需求,进行专利分词的相关技术研究,对专利文献的特点进行了详细的分析,并根据其特点,提出了一种基于统计和规则相结合的多策略分词方法。实验结果表明,该方法在封闭和开放测试下分别取得了很好结果,且对未登录词的识别也有良好表现。

本文的第2节详细分析专利文献的特点,第3节介绍本文提出的多策略分词方法,第4节介绍实验及实验结果分析,最后是本文的总结。

2 专利文献特点

本文以专利文献作为分词处理的语料,研究专利文献及文献中术语的特点,利用潜在的切分标记信息去分词,可以更好地发现未登录词。专利文献的特点主要表现在:

(1) 涉及的专业领域多,包含大量的专业术语(如“起动器”、“热保护器”等),随着科技的发展,仍会有新的术语不断出现;

(2) 专利文献形式规范、语言严谨。相对于其他普通文本,专利文献文本的格式比较固定,用语也较为规范、统一,且含有部分高频词(如“涉及”、“一个”、“发明”等);

(3) 中文专利术语存在语缀(前、后缀)现象[16]。如前缀“超”(“超高压”、“超低温”等)和后缀“器”(“分开器”、“喷雾器”等);

(4) 与人名、地名、机构名等命名实体相比,专利术语很少存在明显的上下文的前后界限词,而人名存在先生、职称等明显的界限词,地名存在省、市等界限词,组织机构名存在公司、企业等界限词;

(5) 在专利中术语嵌套现象较多,如“多功能立体电动机”,在语料中还存在有“立体电动机”、“电动机”等,术语的嵌套关系也为专利文献分词带来了困难;

(6) 同常规的命名实体相比,专利术语的长度不一,主要集中在2~6个字之间[16],且有些术语在一篇文献中多次出现。

3 统计和规则相结合的多策略分词方法

针对专利文献的特点,本文将文献中潜在的显、隐性切分标记作为规则进行文本预处理,利用后缀数组和最长公共前缀提取重复子串及词频,并结合可信度公式对候选词集进行过滤,得到该切分文本的上下文信息,基于这些信息进行粗切分,然后进行最大概率分词,最后利用术语前后缀规律进行处理。多策略分词流程如图1所示。

图1 多策略分词流程

3.1 基于规则的预处理过程

显、隐性切分标记是客观存在的。显性切分标记[17]是指标点、数字、西文及其他非汉字符号;隐性切分标记是指出现在大规模专利文献中且经处理后的高频词及出现频率高、构词能力差的单字词。利用这些切分标记,将输入文本切分成子串序列。部分切分标记如表1所示。

表1 潜在切分标记

本文从10万篇被显式切分标记处理的专利文本中抽出高频词,超过某一阈值的就看作候选高频词,由于一些候选二字高频词可能包含一个属于特别类型的字,如助词“的”和副词“了”等,且这些二字词不是字典中的词,本文利用构词规则剔除这些词,最后剩下的就是高频词。在专利语料中出现频率很高、构词能力差的单字词如“的”、“是”、“些”字等,仅能组合 “有的”、“目的”、“就是”、“还是”等少量的词语,所以它们是一个很好的切分标记,将总结出来的切分标记构成一个规则库。

3.2 统计上下文信息

从大规模语料中统计二元组获取高频词,只是从大规模语料库中获取了全局信息,而在一定程度上忽略了该切分文本的上下文信息。由于有些词在被切分文本中多次出现,如在下面的例子中,“壳体”和“耧腿”多次出现。在该切分文本中多次出现的词,包含有术语及新词。考虑这些上下文信息,可以提高未登录词的识别率。

“一种播种施肥器,包括壳体及壳体上部的料斗和壳体下部的耧腿,耧腿下端前部装有耧铧,壳体内安装的排种轮位于耧腿上方。”

基于后缀数组的方法可以高效地抽取出文中重复的字符串,本文利用该方法和最长公共前缀来提取候选重复子串及其出现的次数,然后通过候选词的筛选,最后得到上下文信息。后缀数组是作为一种文本索引结构被提出的,它记录了一个字符串中各后缀的字典序索引。通过对字符串的编码,可以用后缀数组进行字符串集序列的处理。近年来,在基因匹配、文本处理等领域中,后缀数组倍受关注。文献[18]给出了一个利用O(N)的额外空间,在O(NlgN)时间内同时构造出后缀数组及最长公共前缀信息数组LCP的算法。

定义1令S[1…n]为一有序字符集∑上的字符串,|S|=n,|S|表示S的长度。S[i]表示S中位置i上的字符。令S[i…n]为S的第i个后缀,简记为Si。如字符串S=cba,其中S1=cba,S2=ba,S3=a,则其对应的后缀数组为{3,2,1}。

定义2设两个字符串S1=“a1a2…am”和S2=“b1b2…bn”,若p≤min(m,n),且ai=bi(1≤i≤p)且ap+1!=bp+1,则称“a1a2…ap”为S1和S2的最长公共前缀。

为减少计算量,本文在预处理形成的子串序列及待切分的字符串的基础上,构造一个后缀数组,接着对后缀数据按字典序排序,并获得排序后的后缀数组的最长公共前缀,然后获取该子串序列中的候选词(出现次数至少2次,且词串长度不小于2),这些词组成候选词集,在候选词集中根据两个词之间的可信度进行处理和筛选,可信度计算公式如(1)所示:

(1)

其中w1是w的子串,tf(w)是w在该切分文本中出现的次数,本文选取的可信度区间是[0.2~0.9],若可信度高于0.9,则保留w,若可信度低于0.2,则保留w1,若可信度在区间内,则保留w和w1。根据可信度得到抽出的词,作为该切分文本的上下文信息,最后去匹配输入串,得到子串序列。为避免第三部分处理这些词,在切分子串序列中,对该切分文本的上下文信息进行标记。

3.3 最大概率分词

对前两步处理后的子串序列,由于第一部分隐性切分标记中包含了专利文献中构词差的单字词,对于子串长度为2的字串,经统计发现它们不可能再被切分,即把这些字串当作已切分成功,对子串长度超过2,且没被第二部分处理标记过的子串,利用CMU语言模型工具训练的Bigram语言模型进行最大概率切分。采用公式如(2)所示。

(2)

其中,pr(wi|wi-1)为两个词之间的共现概率。

3.4 后处理

经过以上切分形成的子串序列,子串长度为1的汉字串,一部分是构词差的单字词,一部分则是术语前后缀字,还有一部分则是不能单独出现的连续单个字。对于不能单独出现的连续单个字和术语前后缀字,分别进行相应处理,如表2所示。

表2 后处理

4 实验及实验结果分析

4.1 实验语料

本文实验所处理的语料是从国家知识产权局网站下载的中文专利名称及摘要,为了增加术语的词频,引入了专利名称,专利摘要是描述专利功能和技术特点的文本。测试语料分开放和封闭测试文本,按照IPC国际专利分类表,专利共分为八类,每类采集50篇作为专利每类的测试语料,其中开放和封闭测试各由200篇专利名称及摘要(平均包含42 502字)组成,针对测试语料参照国家分词规范进行手工标注,作为标准结果集。基于条件随机场的方法和使用CMU语言模型工具生成Bigram所使用的训练语料为包含396 941字的手工标注的2 000篇专利名称和摘要。

4.2 评测方法

专利文献中的用词一般较规范,在对专利文献进行切分时,切分歧义现象较少出现,所以本文将当前文本正确切分的标准结果集中包含的词语放入词典,如果系统针对该文本切分出的词包含于该词典中,则匹配成功,否则,匹配不成功。这种精确匹配只考虑该词是否在词典中出现,不考虑该词出现的位置。评测采用863评测所用的三个指标:准确率(P)、召回率(R)和F值。各指标定义如下:

(3)

(4)

(5)

4.3 实验结果及分析

本文分别采用网上公开的较为成熟的分词系统海量分词和计算所汉语词法分析系统ICTCLAS、条件随机场(CRF)和基于Bigram的最大概率切分的方法与本文的算法作对比实验,为了实验公正性,把使用的训练语料当作一个附加词典,添加到海量分词和ICTCLAS中;CRF的方法使用四字位标注集,使用简单的一元和二元特征模板集(如表3所示),基于字和词(专利中的隐性切分标记)进行标注;基于Bigram的最大概率切分方法使用与本文第3节一样的语言模型。为了充分测试本文算法相对其他分词系统的分词结果,分别进行了封闭评测和开放评测,评测结果采用所有测试数据的平均值。

表3 CRF方法采用的特征模板集

表4是封闭测试下各分词算法的比较结果,可以看到,本文提出的基于统计和规则相结合的多策略分词方法,充分利用了从大规模语料中获取的全局信息和该切分文本的上下文信息,并结合最大概率进行分词,后期利用汉语术语的前后缀规律进行处理,相比单纯的统计或统计和词典相结合的方法能够取得较好的分词精度及较高的F-值。

表4 封闭测试下分词算法的比较结果

表5是开放测试下各分词算法的比较结果,与在封闭测试下结果一样,本文方法的分词效果也得到很大的提高。

表5 开放测试下分词算法的比较结果

对于本文第一部分引出的例子,ICTCLAS、海量分词、CRF和基于Bigram的最大概率分词系统,都把“施肥器”、“耧腿”、“耧铧”、“排种轮”错误切分为“施肥/器”、“耧/腿”、“耧/铧”、“排/种/轮”。由于海量分词和ICTCLAS是面向一般语料的通用分词工具,没有相应的专业术语词典,所用的训练语料不是专利语料,再加上这些分词系统没有考虑被切分文本的隐性切分标记、上下文信息及术语具有的前后缀规律,导致分词效果不是很理想,但已经相当不错。

本文方法有效地利用了隐性切分标记、上下文信息及术语具有的前后缀规律,分词效果得到显著提高。但在利用上下文信息方面还可以进一步改进,例如在文本中出现“气压按摩”和“挤压按摩”时,由于都只出现一次,但“压按摩”出现两次,结果会把“压按摩”作为上下文信息,使“气压按摩”和“挤压按摩”被错误切分为“气/压按摩”和“挤/压按摩”。

5 总结

本文针对专利文献的分词需求,在深入分析了专利文献的特点的基础之上,提出了一种统计与规则相结合的多策略分词方法,获得了良好的实验结果。该方法通过引入大规模专利语料中的高频词和被切分文本的上下文信息,有效地克服了一般监督学习方法从全局训练语料库中获取全局信息,而忽略被切分文本的上下文信息的不足,后期处理中又加入了对术语前后缀词的相关处理,有效地提高了未登录词的识别正确率。

[1] 陈燕,黄迎燕,方建国.专利信息采集与分析[M]. 北京:清华大学出版社. 2006.

[2] 赵铁军,吕雅娟,于浩,杨沐昀,刘芳.提高汉语自动分词精度的多步处理策略[J]. 中文信息学报, 2001, 15(1): 13-18.

[3] 黄昌宁,赵海.中文分词十年回顾[J], 中文信息学报, 2007, 21(3): 8-20.

[4] 宗成庆.统计自然语言处理[M].北京:清华大学出版社. 2008, 5.

[5] 张春霞,郝天永.汉语自动分词的研究现状与困难[J]. 系统仿真学报, 2005(01): 138-147.

[6] 黄昌宁.统计语言模型能做什么?[J]. 语言文字应用, 2002,(1) : 77-84.

[7] 刘挺,吴岩,王开铸.最大概率分词问题及其解法[J]. 哈尔滨工业大学学报, 1998,(12): 37-41.

[8] 孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J]. 计算机学报, 2004,27(6):736-742.

[9] ZHANG HP. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model[C]//Second SIGHAN workshop affiliated with 41th ACL2003: 63-70.

[10] Neinwen Xue and Susan P. Converse. Combining classifiers for Chinese word segmentation[C]//Proceedings of the First SIGHAN Workshop on Chinese Language Processing Taipei, Taiwan: 2002: 63-270.

[11] Zhao Hai, Huang Changning, Li Mu. An Improved Chinese Word Segmentation System with Conditional Random Field [C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. Sydney, 2006: 196-199.

[12] Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff [C]//The First SIGHAN Workshop Attached with the ACL2003. Sapporo, Japan, 2003: 133-143.

[13] Xue NW. Chinese word segmentation as character tagging [J].Computational Linguistics and Chinese Language Processing, 2003,8(1): 29-48.

[14] 沈达阳,孙茂松,黄昌宁.汉语自动分词和词性标注一体化系统[J]. 中文信息, 1996,(5): 17-19.

[15] 北京大学计算语言学研究所[CP/OL]. http://icl.pku.edu.cn/icl_res/segtag98/,1998.

[16] 冯志伟.现代术语学引论[M]. 北京:语文出版社:1997: 1-1.

[17] 刘挺,吴岩.串频统计和词形匹配相结合的汉字自动分词系统[J]. 中文信息学报, 1997,12(1) : 17-22.

[18] Manber Udi, Gene Myers, Suffix arrays: a new method for on-line string searches [J]. SIAM Journal on Computing, 1993, 22(5):935-948.

[19] 宋彦, 蔡东风, 张桂平, 赵海. 一种基于字词联合解码的中文分词方法[J]. 软件学报,2009, 20(9):2366-2375.

猜你喜欢
后缀分词语料
基于归一化点向互信息的低资源平行语料过滤方法*
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
倍增法之后缀数组解决重复子串的问题
两种方法实现非常规文本替换
说“迪烈子”——关于辽金元时期族名后缀问题
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
异种语料融合方法: 基于统计的中文词法分析应用