基于统计方法的教育术语特征分析研究

2014-10-21 19:57闫琪琪张海军
计算机光盘软件与应用 2014年24期

闫琪琪 张海军

摘 要:领域术语特征研究是领域术语自动抽取的基础。研究抽取词典词条和领域高频术语集构建教育术语库,使用中科院分词软件和统计方法对教育术语的特征进行分析。分析结果表明教育术语字长为2-11,词长为1-6词,单词术语占教育术语库28%。对比教育、科技和法律的术语特征发现其具有显著区别,对领域术语自动抽取及信息处理相关研究具有重要理论意义。

关键词:教育术语;术语自动抽取;教育术语特征

中图分类号:G434

术语自动抽取是自然语言处理的基础性研究。目前术语研究主要针对科技名词术语展开,社会科学领域的术语研究并未得到重视,严重制约了领域术语规范化工作。除共性外,各学科领域术语又具有其各自的特征。不同领域术语特征研究将为各领域术语自动抽取提供必须的语言学基础。

领域术语特征研究对术语语言特征展开,语言特征指术语具有完整的语言含义和稳定的组成结构。目前面向术语特征的研究大都是术语的构词特征和长度特征。何燕[1]研究针对计算机领域术语语言特征构成双词模板,有效的抽取领域术语;李嵩[2]对语言学领域单词型和词组型术语词长和构词特征进行系统分析,从语言学视角形成了语言学术语集;季培培[3]从领域术语外部关联和内部构成,分别阐述术语的语言特征。

在构建教育术语库基础上,借鉴科技术语特征研究的统计方法,对教育术语字长特征、词长特征和构词特征进行系统分析,比较教育、科技和法律领域术语特征,最终形成教育术语的语言规则。

1 教育领域术语特征分析

语料来源:一是1998年《教育大辞典》;二是2002-2013年《民族双语教育》期刊2077篇。

1.1 构建领域术语库

针对两类文本语料特征采用不同方法实现术语抽取。

词典类文本,词条有清晰的边界特征。词条边界分别用标签分割。基于边界特征设计了术语抽取器自动获取术语。

教育期刊,以题目和关键词为语料,借助停用词表和词频过滤候选术语,最终得到领域术语3395条。《教育大辞典》最新修订距今已16年,教育新词汇不断涌现,合并新术语并剔除重复项,确保术语库术语的实时性。借助百度百科进行校对,剔除模糊术语。校对中发现了大量人名、地名和机构名等,考虑其蕴含的领域内涵,予以保留。最终术语库共含术语22110条。

1.2 术语长度特征分析

一是术语含字长度,术语所含汉字字数;二是术语含词长度,术语含字或词的个数。

1.2.1 术语含字长度

以统计学方法为理论基础,建立领域术语特征统计平台。教育术语字长分析结果如下:

教育术语字长为1-38,集中在2-11(大于1%),占术语库97.31%。4字术语最多有6527条,占27.82%。此外,2字、3字和6字术语也较多,与4字术语共占68.40%。结果与周浪[4]等人的研究相符,但教育术语2-6字术语仅占78.46%,显然无法涵盖领域大部分术语。

1.2.2 术语含词长度

术语预处理借助中科院分词系统,但缺乏领域词典的现状,使分词结果存在漏分和误分。为保证语料正确性,对分词结果进行人工校对。最终得到术语含词长度结果(见图1)。

教育术语词长主要为1-20词,1-6词术语最多,占98.88%。单词2词和3词术语分别为28.03%、37.83%和20.88%。研究结果与张榕等人科技术语研究基本一致。共同点是术语词长集中在2-6词,但教育术语中单词术语含量更高。

总结教育术语长度特征有以下几点:

(1)术语字长为1-38字,2-17字术语占97.31%。

(2)术语词长集中在1-6词,最长达到20词,术语含字长度与词频成反比。

(3)与科技术语类似,教育领域词组型术语占主要地位。

1.3 教育领域术语的构词规则分析

术语可分为:单词型术语和词组型术语。根据词频分布词组型术语可分为:2-4词和4词长以上术语。单词术语占28.69%,2-4词术语占63.41%,4词以上术语占5.32%。现有研究忽视低频术语,确保抽取正确率,但牺牲了召回率。

1.3.1 单词术语构词规则

单词术语词性以名词为主,占77.86%。但教育单词术语中含大量专业名词、动词、成语、机构名及人名等。这与以简单名词为主的科技单词术语构成存在差异。

1.3.2 词组型术语构词规则

2词术语共7804条,有74种构词规则。词频300次以上的构词规则有7种,覆盖率达到82.65%。

3词术语有4488条,构词规则299种,词频100次以上构词规则有10种,覆盖率为54.75%。

4词术语为1727条,4词术语构词规则有439个,词频超过40次的构词规则有7种,覆盖率为30.40%。

4词以上术语有1176条,构词规则有876种,频率10次以上只有5种,均为5词术语。

2 领域术语特征比较

科技领域[5]和法律领域术语特征[6]研究结果与教育领域术语特征研究比较后发现,虽然各领域都基本满足中文术语特征,但领域间存在显著差异。

比较长度特征,共同点是术语长度特征均符合中文术语长度特征,但法律和教育术语在2-10字和2-6词之上有扩展。

分析构词特征,各领域单词术语以名词为主,但教育单词术语存在大量习语和专用名词。法律与教育领域词组型术语类似,存在大量的形容词,而科技领域存在习语和语素词。

结合术语构词特征分析(1-6词)教育领域术语有以下特征:

特征1:单词型术语以名词、动词占主要地位,其它词性的较少。

特征2:词组型术语构成中以名词为主,动词、数词、量词等词出现频率较高,副词、区别词、连词、时间词、助词等也偶有出现。

特征3:术语词性分析发现术语首部词汇以名词、地名、名动词、人名及区别词为主,尾部词汇主要有名词、动词、名动词。区别词、形容词及机构名也可做首词,尾词可用数词、语素词等。

3 结束语

借鉴科技术语特征分析方法对教育术语库长度特征和构词特征进行分析,并对科技、法律和教育领域术语特征进行比较,最终得出教育领域术语的特征,并归纳出1-6词领域术语语言特征,为术语自动抽取奠定了理论基础,下一步拟结合术语语言特征提出一种混合策略方法提取教育领域术语。

参考文献:

[1]何燕.穗志方 等.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006(33):4-7.

[2]李嵩.语言学文献标题的术语提取研究[D].济南:山东大学,2007.

[3]季培培,鄢小燕.面向領域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010(16):124-129.

[4]周浪,张亮.基于词频分布变化统计的术语抽取方法[J].计算机科学,2009(05):177-180.

[5]韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012(19):85-89.

[6]那日松,刘青.法律领域术语特征研究[J].中国科技术语,2011(04):22-26.

作者简介:闫琪琪(1990-),女,新疆乌鲁木齐人,硕士研究生,主要研究方向:自然语言处理;通信作者:张海军(1973-),男,博士,副教授,主要研究方向为自然语言处理,信息抽取技术。

作者单位:新疆师范大学 计算机科学技术学院,新疆乌鲁木齐 830054

基金项目:国家自然科学基金项目(NO.61163045,61263044);新疆维吾尔自治区自然科学基金(NO.2012211A057);新疆师范大学重点学科招标课题(NO.12XSXZ0601);新疆师范大学研究生创新金项目(NO.20131201)。