基于语境信息的中文分词交叉歧义处理方法*

2016-10-18 04:15
关键词:歧义分词交叉

尹 倩

(安徽体育运动职业技术学院,合肥 230051)



基于语境信息的中文分词交叉歧义处理方法*

尹倩

(安徽体育运动职业技术学院,合肥 230051)

模拟人浏览句子按照语境寻找消歧证据的经验,计算歧义字段与其所在句子的语义相似度和相关度,据此作为语境计算模型,利用歧义字段与其所在句子的语境信息进行中文分词交叉歧义处理;与经典的基于统计方法相比,切分准确率有很大提高。

中文自动分词;交叉歧义;语义联系;语境计算模型

作为中文信息处理的基础工作,中文分词质量好坏直接影响后期文本挖掘、信息提取、机器翻译、智能检索的质量。计算机不同于人类处理歧义以“语义”和“关联度”作为分词经验的特点,它决定中文分词切分算法存在歧义性。有研究统计,交叉歧义大约占到了总歧义字段的90%左右[1]。

已有交叉歧义处理方法[2-8]只是独立地利用统计[2-4]或建立规则[5-8]的方法计算歧义字段内部两个连续汉字的结合程度,并没有考虑上下文的语境信息。近年来,浅层基于理解的方法[9-10]受到关注,但也仅是计算歧义字段内部的语义联系,亦未能计算歧义字段与其所在语境的关系,效果亦是不佳。而交叉型歧义的形成是跟上下文语境息息相关的,比如“和平原”,已有方法总是利用统计或建立规则,切分为“和平/原”还是“和/平原”,而未能将整个句子“山东加强河道和平原沙区生态治理”的语境考虑进来。抛开语境这一背景信息来进行歧义处理必然会遇到切分障碍。只有模拟人浏览句子,按照语境进行歧义处理的经验才能真正解决歧义问题[11],人浏览句子通常通过比较歧义字段与其所在语境的联系(语义联系和关联程度)寻找消歧证据。

1 新算法的基本思路

词语的使用不是独立的,而是放在某一语境里的。只有模拟人浏览句子考虑整个语境进行消除歧义,才能根本解决歧义问题。研究表明,语境中与其他词语表现的语义信息对消除歧义有作用,语境中与其他词语的共现信息也对歧义消除起积极作用。例如“打”和“酱油”,虽然语义相似度为0,但经常共同出现,即两者关联程度较高。

随着中文信息处理中语义计算方法和语料库语言学的成熟运用,两者结合的方法在中文关键词提取中的歧义消除领域已成功应用[12-15]。

受上述启发,此处试图通过语义相似度和语料库中词语关联程度,建立语境计算模型,用以从歧义字段所在语境求得消歧证据。比较歧义字段与语境语义联系和关联度值,值较大者认为与语境所要表达中心思想较为一致,被认为正确切分。

2 语境计算模型

计算歧义字段的语境,首先需要选定上下文的观察窗口。可以看到,语境是一个稍大的概念,计算与语境的语义联系和关联度实质为计算与语境中上下5个位置范围内各词语间的语义联系和关联度。

2.1计算与语境的语义联系

2.2计算与所在语境的关联度

按照统计学的方法,如果两个词经常共同出现在同一语境中,即认为其间关联程度较高。词共现模型是统计大规模语料库中两个词语共同出现在文章同一窗口单元(如一句话、一个自然段等)的次数,共同出现次数越多,其关联程度越紧密[17]。

2.3利用语境计算模型进行歧义处理

词共现次数为大规模语料库统计所得,范围为0至数十、数百次。语义相似度取值为0~1,要将两者迭加首先需进行归一化处理。转化函数采用经典的0-1标准化方法,转化函数为

然后通过式(1)将两者迭加起来,计算歧义字段xyz与语境L语义关联值:

SC(xy,L)=S(xy,L)+C(xy,L)

(1)

比较SC(xy,L)和SC(yz,L),值较大则视为其与语境中心思想较为一致,即为正确切分结果。

2.4基于语境信息的中文分词交叉歧义处理算法

基于语境信息的中文分词交叉歧义处理算法CACOAR(Context-based Approach to Chinese Overla-pping Ambiguity Resolution)的基本思想是:对文章进行粗切分,对于歧义字段,利用公式(1)计算歧义字段与其所在语境语义关联值并比较大小,值较大者视为正确切分结果,进而智能处理交叉歧义。

算法CACOAR描述如下:

1) 采用常用的正向、逆向最大匹配法利用词典扫描[18],若两种方法的切分结果不同,则认为存在交叉歧义字段,标记相关的歧义位置。

2) 选择与歧义字段左右5个窗口大小的上下文作为语境,定义为L,计算歧义字段与L的SC值,SC值较大的为正确切分结果。

3) 输出结果词序列。

3 实验结果及评价

为达到评价CACOAR算法的目的,首先以一句话为例分析CACOAR算法与统计方法中经典的基于互信息及t_测试差线性迭加结合方法[19]在交叉歧义识别方面的不同,见表1所示。之后给出CACOAR和基于统计方法在测试语料上切分的效果,见表2,3所示。

评价指标采用切分准确率(P)具体定义如下:

(2)

3.1数据准备

歧义字段与其所在语境的语义联系计算采用《知网》1.0版本,统计语境中词语共现次数的语料库为300篇北大计算语言所提供的已切分的《人民日报》(2003年1月)。歧义发现采用正向、逆向最大匹配算法。

3.3举例说明

句子为:“第一次世界大战后,美国总统伍德罗·威尔逊提出的十四点和平原则及马歇尔的欧洲复兴计划的共同目的是什么?”

算法通过正向和反向匹配扫描法定义歧义字段“和平原”,粗切分结果如下:第一次/世界大战/美国/总统/提出/十四点/(和(平)原)则/欧洲/复兴/计划/共同/目的。按照窗口大小[-5,+5]选择歧义字段的上下文为“世界大战/美国/总统/提出/十四点/(和(平)原)则/欧洲/复兴/计划/共同/目的”。分别计算“和平”“平原”与所在语境的语义联系和关联程度,应用公式(1)线性迭加后计算与语境语义关联值如表1所示。

表1 CACOAR算法进行交叉歧义处理示例

比较歧义字段与其所在语境语义关联值大小,即得到切分结果应为“和平/原”。在一个位置“和平原”确定正确切分,和该歧义位置相关的其他歧义位置无需再判断,可直接选择是切分还是连接。

同样,对于“警方21日上午带其中1名疑犯,到红磡案发现场了解案情。目前,香港警方已拘捕4人”。句子存在的“案发现”歧义字段,考虑与其所在语境的语义关联,即可正确切分为“案发/现场”。而传统的基于统计的方法认为“发现”在语料库中出现的概率较大,亦会错误切分。

3.3分词精度比较

由于对测试语料的分词歧义切分正确与否需人工校对,统计CACOAR算法的切分准确率是费时的。因此,实验数据为选取的6篇测试语料,表2,表3为CACOAR算法与基于统计算法在6篇语料上的实验结果。

CACOAR方法模拟人浏览句子按照语境寻找消歧证据的习惯,是一种全新的智能的方法。

表2 基于统计方法切分精度结果

表3 CACOAR算法切分精度结果

4 总 结

已有基于规则和统计的方法寻找消歧证据时抛弃了语境这一背景信息,必然会遇到语义上的障碍,因此效果不佳。此处模拟人们根据语义和以往的阅读经验从语境中寻找消歧证据的习惯,更智能且意义重大。但也应该看到,虽处理交叉歧义问题效果良好,但没有进行未登录识别,如“伍德罗·威尔逊”和“红磡”未能识别出来,因此造成分词精度提高后仍未能满意,这是因为中文分词效果由众多因素影响所致。

[1] 乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性[J].中文信息学报,2008,22(4):10-18

QIAO W,SUN M S.Statistical Properties of Overlapping Word Segmentation Ambiguities in Domain-specific Chinese Corpora[J].Journal of Chinese Information Processing,2008,22(4):10-18

[2] 金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,20(16):146-148

JIN Y,LU Q M,GAO F.The Maximum Probability Algorithm of Automatic Chinese Word Segmentation Based on Context[J].Computer Engineering,2004,20(16):146-148

[3] 任惠,林鸿飞,杨志豪.融合字特征的平滑最大熵模型消解交集型歧义[J].中文信息学报,2010,24(4):18-24

REN H,LIN H F,YANG ZH H.Solution of Overlapping Ambiguity Strings Based on Smoothed Maximum Entropy Model with Character Feature[J].Journal of Chinese Information Processing,2010,24(4):18-24

[4] 王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法[J].中文信息学报,2007,21(5):14-17,30

WANG S L,WANG B.A Chinese Overlapping Ambiguity Resolution Method Based on Coupling Degree of Double Characters[J].Journal of Chinese Information Processing,2007,21(5):14-17,30

[5] 季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统[C]∥全国第六届计算语言学联合学术会议论文集.太原:全国第六届计算语言学联合学术会议,2001:123-128

JI H,LUO ZH SH.A Chinese Name Identifying System Based on Inverse Name Frequency Model and Rules[C]∥The Sixth Joint Conference Proceedings of Linguistics Calculation.Taiyuan:The Sixth Joint Conference of Linguistics Calculation,2001:123-128

[6] 翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报(理学版),2006(2):223-228

ZHAI F W,HAO F L,ZUO W L.Crossing Ambiguity Seg-mentation Based on Statistical Rules[J].Journal of Jilin University (Science Edition),2006(2):223-228

[7] 刘禹孜.汉语自动分词中排除歧义字段算法的研究[D].重庆:重庆大学,2005

LIU Y Z.Study on Disambiguation Algorithm for Chinese Word Segmentation[D].Chongqing:Chongqing Unive-rsity,2005

[8] 魏博诚,王爱平,沙先军,等.一种消除中文分词中交集型歧义的方法[J].计算机技术与发展,2011,21(5):60-63

WEI B CH,WANG A P,SHA X J,et al.A Method about Removing Overlapping Ambiguity Producing in Chinese Matching[J].Computer Technology and Development,2011,21(5):60-63

[9] 苏勇.基于理解的汉语分词系统的设计与实现[D].成都:电子科技大学,2011

SU Y.A Chinese Word Segmentation System Based on Understanding of the Word[D].Chengdu:University of Electronic Science and Technology,2011

[10] 王广正.基于知网语义相似度计算的汉语自动分词方法的研究[D].昆明:云南师范大学,2006

WANG G ZH.The Research of Chinese Automatic Segm-entation Method Based on CNKI Semantic Relevancy Computing[D].Kunming:Yunnan Normal Univ-ersity,2006

[11] 曲维光,吉根林,穗志方,等.基于语境信息的汉语组合型歧义消歧方法[J].计算机工程,2006,32(17):13-16

QU W G,JI G L,SUI ZH F,et al.Context-based Approach to Covering Ambiguity Resolution in Chinese Word Segmentation[J].Computer Engineering,2006,32(17):13-16

[12] 刘端阳,王良芳.基于语义词典和词汇链的关键词提取算法[J].浙江工业大学学报,2013,41(5):545-551

LIU D Y,WANG L F.Keywords Extraction Algorithm Based on Semantic Dictionary and Lexical Chain[J].Journal of Zhejiang University of Technology,2013,41(5):545-551

[13] 王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4

WANG L X,HUAI X Y.Semantic-based Keyword Extraction Algorithm for Chinese Text[J].Computer Engineering,2012,38(1):1-4

[14] 刘端阳,王良芳.结合语义扩展度和词汇链的关键词提取算法[J].计算机科学,2013,40(12):264-269

LIU D Y,WANG L F.Extraction Algorithm Based on Semantic Expansion Integrated with Lexical Chain[J].Computer Science,2013,40 (12):264-269

[15] 张明,王燕,卢清.一种基于语义特征的快速人脸检索方法[J].重庆工商大学学报(自然科学版),2014,31(2):56-60

ZHANG M,WANG Y,LU Q.A Fast Face Retrieval Method Based on Semantic Features[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2014,31(2):56-60

[16] 朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279,2288

ZHU ZH Y,SUN J H.Improved Vocabulary Semantic Similarity Calculation Based on CNKI[J].Journal of Computer Applications,2013,33(8):2276-2279,2288

[17] 王庆,陈泽亚,郭静,等.基于词共现矩阵的项目关键词词库和关键词语义网络[J].计算机应用,2015,35(6):1649-1653

WANG Q,CHEN Z Y,GUO J,et al.Project Keyword Lexicon and Keyword Semantic Network Based on Word Cooccurrence Matrix[J].Journal of Computer Appli-cations,2015,35(6):1649-1653

[18] 梁胜,成卫青.基于组合型中文分词技术的改进[J].南京邮电大学学报,2013,33(6):112-117

LIANG SH,CHENG W Q.Improvement of Chinese Word Segmentation Based on Combination Method[J].Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition),2013,33(6):112-117

[19] 孙茂松,黄昌宁,邹嘉彦,等.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339

SUN M S,HUANG CH N,ZOU J Y,et al.Using Character Bigram for Ambiguity Resolution in Chinese Word Segm-entation[J].Computer Research & Development,1997,34(5):332-339

责任编辑:李翠薇

Context-based Approach to Overlapping Ambiguity Resolution in Chinese Word Segmentation

YIN Qian

(Anhui Sports Vocational and Technical College, Hefei 230051, China)

This method simulates the experience of people when searching for evidence to eliminate overlapping ambiguity using context information in Chinese word segmentation. The semantic similarity and correlation of overlapping ambiguity and its sentence are calculated. A context calculation model is set up, which resolves overlapping ambiguity in Chinese word segmentation using contextual information. Our experimental results show that compared with the traditional statistics-based approach, our algorithm has a good segmentation accuracy.

Chinese word segmentation; overlapping ambiguity; semantic correlation; context calcul-ation model

10.16055/j.issn.1672-058X.2016.0005.005

2015-11-18;

2016-02-25.

安徽省高校优秀青年人才基金重点项目(2013SQRW125ZD);安徽省高校人文社科重点项目(SK2015A659).

尹倩(1984-),女,安徽淮北人,讲师,从事自然语言处理研究.

TP391.1

A

1672-058X(2016)05-0020-05

猜你喜欢
歧义分词交叉
分词在英语教学中的妙用
eUCP条款歧义剖析
“六法”巧解分式方程
结巴分词在词云中的应用
结巴分词在词云中的应用
English Jokes: Homonyms
连数
连一连
基于关联理论的歧义消除研究
“v+n+n”结构的哈萨克语短语歧义分析与消解