面向高等教育领域的命名实体标注语料库构建方法

2022-07-10 13:45黄柯源张浩军李世龙李大岭王家慧
现代信息科技 2022年5期
关键词:高等教育

黄柯源 张浩军 李世龙 李大岭 王家慧

摘  要:文章以高等教育政策文件为语料,在领域专家指导下结合高等教育政策文件文本特点,制定了一套标注体系和标注规范,开展了大规模的语料标注工作,构建了一个面向高等教育领域的标注语料库。该语料库共标注了137篇政策文件,包含5 102个句子和3 639个实体。同时,通过使用模型对语料库进行实验,探讨了语料库的可信度及预标注策略的可行性。结果表明,该语料库的F1值达到75.31%,为进一步的高等教育领域实体识别研究提供了基础。

关键词:高等教育;命名实体;标注规范;语料库构建

中图分类号:TP18     文献标识码:A文章编号:2096-4706(2022)05-0095-04

Construction Method of Named Entity Annotation Corpus for Higher Education Field

HUANG Keyuan, ZHANG Haojun, LI Shilong, LI Daling, WANG Jiahui

(College of Information Science and Engineering, Henan University of Technology, Zhengzhou  450001, China)

Abstract: This paper takes higher education policy documents as the corpus, and under the guidance of experts in the field, combined with the text characteristics of higher education policy documents, formulates a set of labeling system and labeling specifications, and carries out large-scale corpus labeling work, constructs an annotation corpus for higher education field. The corpus is annotated with a total of 137 policy documents, and contains 5 102 sentences and 3 639 entities. At the same time, by using the model to conduct experiments on the corpus, the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed. The results show that the F1 number of this corpus reaches 75.31%, which provides a basis for further research on entity recognition in the field of higher education.

Keywords: higher education; named entity; labeling specification corpus construction

0  引  言

近年來,党和国家高度重视我国高等教育发展情况,高等教育领域产出成果颇丰。随着互联网中高等教育领域相关信息不断增多,亟须建立高等教育领域知识图谱,以便更准确地探析我国高等教育的发展态势,为高等教育研究者提供理论支撑。

政策文件是由国家相关部门研究制定并下发的指导性文件,其权威性与专业性被大众普遍认可。因此,本研究以高等教育政策文件为数据源,探究领域语料标注规范,构建高教领域实体识别标注语料库,为高等教育领域命名实体识别、关系抽取和知识图谱构建提供可靠的数据支撑。

1  相关工作

语料库作为信息抽取的基础,其质量直接影响实体识别和关系抽取的结果。现有的语料库构建方法分为手动构建和自动构建两种,在医学[1,2]、国防[3]、公安[4]、建筑[5]等领域均已出现公开构建且广泛应用的语料库。李雁群等[6]以《人民日报》和ACE005中文语料为基础,构建了中文嵌套命名实体识别语料库。Lowe[7]等通过收集Ubuntu社区一百万组对话内容,构建了具有人类自然对话特点与机器多次序对话特点的Ubuntu对话语料库。Hu[8]等通过收集新浪微博的中文短文本摘要,构建了包含200余万个真实短文本及作者所写摘要的微博语料库。目前,尚未发现公开发布的面向高等教育领域的命名实体标注语料库。因此,亟须构建高等教育语料库,以推动我国高等教育领域命名实体识别研究的发展。

2  面向高等教育政策文件的实体标注规范制定

2.1  标注体系

本文将语料库中实体定义为以下6类:指导思想实体、出台背景实体、目标实体、原则实体、任务实体和措施实体。本语料库在标注过程中采用基于BIO策略的字标注方法,该语料库中共包含13种标签类型,标签设置情况如表1所示。

2.2  标注准则

本文参照实体标注领域的“不重叠、不嵌套、不包含标点符号及连接词”的三个基本原则的基础上,结合高等教育政策文件的相关特点,提出了一套适用于该领域的标注准则:

(1)最大范围标注:

例1:为深入贯彻落实“习近平总书记给全国涉农高校书记校长和专家代表重要回信精神”,以新农科建设为统领,推进高等农林教育创新发展。

例1中,引号部分为指导思想实体。其中“习近平总书记给全国涉农高校书记校长和专家代表”为“重要回信精神”的定语修饰部分,遵循最大范围标注,凡遇到指导思想实体中含有定语修饰的,将其一并作为指导思想实体进行标注。

(2)除指导思想实体外,其余实体可包含标点符号:

例2:深入贯彻“党的十九大和十九届二中、三中、四中全会精神,”全面落实习近平总书记关于教育的重要论述和全国教育大会精神。

由于政策文件中需要完成的具体任务以及完成任务所需的具体措施描述的十分清晰,因此任务和措施实体往往需要包含标点符号。例2中,引号部分包含有“、”,因此不将其标注为实体。

(3)外层标注:若一句话中包含多个实体,则只标注最外层实体,其内部的实体不进行标注。

3  语料库构建过程

语料库构建的核心任务是选取一种合适的标注模式,并对语料进行标注。本文采用“领域专家+团体标注”的模式,依据第2节中所提出的标注体系及准则,对137篇高等教育政策文件进行标注,标注过程历时3个月,共有2名高等教育专家、6名硕士生和3名本科生参与标注工作。

3.1  语料选取与预处理

该语料库以教育部发布的政策文件为数据源。为保证语料质量,在人工采集时剔除回复性文件,保留正式政策文件。标注格式如图1所示,标注文本中的{...[type]}表示该段内容为一种实体,[]之间表示该实体所属的类别。

图1  语料标注规则示例

3.2  标注过程

为提高语料库质量,本文制定了多轮分组迭代标注策略。具体流程为:

(1)将9名标注人员随机分配到三个小组中,每组的3名队员独立标注同一篇文章。标注完成后,由其他小组统计该组三名队员的标注一致率,若一致率低于80%,则重复上述过程。对于不一致性标注,在征求专家的意见后对其进行修改。对于标注一致率连续3次达到80%以上的小组,停止迭代标注。

(2)在所有小组均停止迭代后,从三个小组中选取出标注质量较高的6名标注者,并随机分配到3个小组中进行二标注。即每组的两名成员独立标注同一篇文章,标注结果由标注规范制定者进行审核,统一不一致性标注,并从每组中选取标注质量好的标注者组建最终标注小组。

(3)选取30篇预处理过的政策文件作为初始数据源,交由最终标注小组进行标注。对于不一致性标注,由专家和标注人员共同讨论后进行统一。构建实体标注模型,并以上述30篇标注语料作为训练数据,开发标注工具。

(4)使用标注工具对剩余语料进行预标注,再由标注者对标注结果进行修改,得到完整的高等教育政策文件实体标注语料库。

3.3  语料库统计

3.3.1  标注数量统计

该语料库共标注了137篇政策文件,共计256 940个字符、5 102句话和3 639个命名实体。语料库的标注详情如表2所示。

3.3.2  标注一致性分析

在实体识别语料标注领域,通常选择F1值来计算标注一致性。具体计算流程(1)~(3)式所示。

(1)

(2)

(3)

表3记录了迭代标注过程中各命名实体的标注一致性,其中迭代次数为5次。

迭代标注过程中,各实体的标注一致性均逐步上升,说明标注前培训及标注规范迭代更新策略是积极有效的。其中TAS实体和MEA实体的初始标注一致率低于其他实体,其主要原因是政策文件中的方法和措施通常拥有较长的文本长度,导致标注人员无法清晰的辨识实体边界。随着迭代标注的进行,最终六种实体的标注一致性均超过了80%可信赖标注验证标准,表明该标注语料库具有较高的标注质量且是可信的。

4  实验评估

为评估本文所构建语料库的性能,本文采取句子级的划分方法语料按照8:1:1的比例随机划分为训练集、测试集和验证集,并搭建了三种主流的实体识别模型对标注语料进行初步的实验验证。采用准确率(Precision, P)、召回率(Recall, R)和F1值作为该语料库的测评指标。其测评结果如表4所示。

由表4可知,当测评语料为前三十篇时,BERT-CRF模型的实验结果优于BERT-BILSTM-CRF模型;当测评语料为最终语料时,BERT-BILSTM-CRF模型的实验结果反超BERT-CRF模型的实验结果。主要是因为:BERT是经过大量无标注语料训练的预训练模型,其本身具有很好的深度语言特征表达能力。当训练语料较少时,由BERT所生成的词向量已经具有较强的语义信息,可以直接通过CRF模型进行判别,若此时经过更为复杂的模型结构,会导致向量的部分语义信息丢失,导致实验结果的下降。而当训练语料增加时,复杂的模型结构更容易学习各类实体的特征,因此BERT-BILSTM-CRF的实验结果更优。

5  结  论

本文介绍了面向高等教育领域政策文件的语料库标注体系和标注过程。首先,依据高等教育领域专业知识选定了高教政策文件语料中的各类实体,并制定了标注规范。其次基于此规范展开大规模领域语料标注工作并开发了标注工具。目前,该语料库已完成26万余字的标注工作,共包含5 102句语料及3 639个命名实体。此外,本文通过对小组标注结果的一致性分析以及使用不同模型对语料库进行实验,探讨了所构建语料库的可信度及标注工具预标注策略的可行性。实验结果表明,该语料库的命名实体识别性能F1值达到75.31%。

参考文献:

[1] 杨锦锋,关毅,何彬,等.中文电子病历命名实体和实体关系语料库构建 [J].软件学报,2016,27(11):2725-2746.

[2] 曲春燕,关毅,杨锦锋,等.中文电子病历命名实体标注语料库构建 [J].高技术通讯,2015,25(2):143-150.

[3] 冯鸾鸾,李军辉,李培峰,等.面向国防科技领域的技术和术语语料库构建方法 [J].中文信息学报,2020,34(8):41-50.

[4] 曹若麟,杜渂.面向实体标注的公安警情领域语料库的构建 [J].电信快报,2021(3):20-24.

[5] 莫天金,李韧,杨建喜,等.公路桥梁定期检测领域命名实体识别语料库构建 [J].计算机应用,2020,40(S1):103-108.

[6] 李雁群,何云琪,钱龙华,等.中文嵌套命名实体识别语料库的构建 [J].中文信息学报,2018,32(8):19-26.

[7] LOWE R,POW N,SERBAN I V,et al. The Ubuntu dialogue corpus:A large dataset for research in unstructured multi-turn dialogue systems [EB/OL].arXiv:1506.08909  [cs.CL] (2016-02-04).https: //arxiv.org/pdf/1506.08909v3.pdf.

[8] HU B T,CHEN Q C,ZHU F Z. LCSTS:A large scale Chinese short text summariazation dataset [J/OL].arXiv:1506.05865  [cs.CL].(2016-02-19). https: //arxiv.org/pdf/1506.05865.pdf.

作者簡介:黄柯源(1997.05—),男,汉族,河南平顶山人,硕士研究生在读,研究方向:自然语言处理、知识图谱

猜你喜欢
高等教育
教学和管理层面的高等教育服务思考分析
高校双语教学现状与创新分析
在线性代数课程教学中引入MATLAB的简单介绍
教育国际化视阈下来华留学生管理干部之职业素养培育
法津实验教学的思考
新形势下加强高校师德建设的对策研究
大数据对高等教育发展的推动研究
各地区高等教育与经济发展水平协调性分析
关于应用型计算机专业培养方案的研究
基于Flash+XML技术的护理技能虚拟教学平台设计与实现