藏文文本摘要数据集

2022-07-03 14:05闫晓东王羿钦黄硕杨金朋赵小兵

中国科学数据(中英文网络版) 2022年2期

闫晓东，王羿钦，黄硕，杨金朋，赵小兵

1.中央民族大学信息工程学院，北京 100081

2.国家语言资源监测与研究少数民族语言中心，北京 100081

引言

文档摘要是一项被广泛研究的自然语言处理任务。随着人工神经网络模型的出现，摘要性能不断提高，对训练数据的要求也越来越高。在一个好的摘要系统应该理解全文，并重新组织信息，以生成连贯、信息丰富且显著简短的摘要，从而传达原文的重要信息[1-2]。大多数传统的生成式摘要方法将过程分为两个阶段[3]。首先，使用监督方法或语言知识从原始文本中提取关键文本元素。然后，通过使用语言规则或语言生成技术，对提取的不清楚的成分进行重写或解释，以生成原始文本的简明摘要。尽管人们对摘要进行了广泛的研究，但摘要的语言质量仍不尽如人意。最近，深度学习方法显示出通过利用GPU从大规模数据学习表征[4-5]和生成语言[6-7]的潜在能力。通过深度学习方法生成的摘要更接近于人工书写的摘要。高质量数据集的可用性能有效推动摘要的研究进展。然而，目前公开的、高质量的大规模摘要数据集仍然非常稀少，且不容易人工构建。例如近10年流行的英文摘要数据集DUC包括来自纽约时报和美联社有线服务的500篇新闻文章，每篇文章的参考摘要都由4位不同的人书写得到，摘要上限为75词，属于小型语料库。CNN/Daily Mail数据集[8]由新闻文章和人工撰写摘要构成320 KB大小的英文单文本摘要数据集，NYTarticles数据集[9]已广泛用于摘要研究[10-13]，是一个由《纽约时报》策划的文章和图书馆科学家撰写的摘要组成的100 KB数据集。Gigaword语料库[14]，包含950万篇左右文章，使用标题作为参考摘要。

流行的中文数据集主要有清华新闻（THUCNews）数据根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成，利用正文-标题构成摘要数据集，总共包含830 749个样本。搜狗新闻（SogouCS）数据是搜狗实验室整理的1 245 835个样本，同样利用正文-标题构成摘要数据集。以及lcsts摘要数据是哈尔滨工业大学整理，基于新闻媒体在微博上发布的新闻摘要创建，每篇短文约100个字符，每篇摘要约20个字符[15]。

目前中文开源的文摘数据集大部分都是由“文章-标题”这样的伪摘要语料构成，流行的人工摘要数据集只有数百个，且都是针对短文本数据。就我们所知在藏文文本摘要领域目前还没有公开的数据集，由于缺乏相应的数据集，藏文文本摘要任务还处于起步阶段。为了进一步推动藏文文本摘要的发展，同时为了满足相关研究人员对高质量的藏语文本摘要数据集的需求，本文构建了一个藏文文本摘要数据集，其中包含1000篇新闻内容与人工摘要对和超过3500个文章关键词（表1）。

1 数据采集和处理方法

由于藏文文本摘要没有规范的语料，并且由于机器翻译的限制，并不能直接将其他语种语料直接翻译，以免造成信息的错误传播。所以首先从各大藏文网站进行语料爬取。对爬取下来的语料需要进行数据清理，过滤掉HTML标签以及其他冗余信息，只留下新闻标题以及新闻内容。首先对爬取的原始新闻进行挑选，删除篇幅过长或过短的新闻文本，并对文本内容进行清洗。获取到清洗好的数据集后，将参与构建人员分成两组，一组负责在清洗后的数据集上进行摘要的人工构建，另一组负责验证摘要的质量，对初始摘要进行审核，对低于标准的摘要进行删除或人工复构建操作。

1.1 数据采集方法

从香格里拉藏文网站、人民网藏文版等多家新闻媒体网站上爬取20000余篇新闻文本。

1.2 数据预处理

将爬取到的语料进行挑选，删除篇幅过长或过短的新闻文本。数据集清洗时，仅进行了简单的规则清洗，采用正则表达式对新闻文本进行数据清洗，对图像标记，表格等文本、非文本数据进行删除操作。

2 数据样本描述

主要包括原始文章、人工摘要和文章主题关键词，摘要展示如表2所示。

表2 藏文文本摘要数据集样样例Table 2 Sample of Tibetan text summarization datasets

3 数据质量控制和评估

文摘的撰写由中央民族大学藏语言文学专业学生负责，藏文是他们的母语，又具备本专业文学功底，完全能够胜任摘要撰写工作。基于以下摘要构建要求对文摘进行构建：舍弃与藏文新闻主题无关的内容；简略说明次要材料；摘要紧扣中心，突出新闻重点；顺序结构严谨，摘要层次分明。此外，为了进一步提高数据集的质量，采用交叉验证对构建的摘要进行选择。获取到初始摘要后，对摘要的质量进行验证。验证组分别从语句的流畅程度、语义的完整度以及新闻的覆盖度对初始摘要进行打分，剔除低质量摘要。打分规则如表3所示。去除或对平均分数低于3.5的摘要进行重写。最终，人工校对出1000个新闻和新闻文摘对。

表3 人工摘要打分规则Table 3 Grading standards

4 数据价值

藏文是一种具有一千多年历史的拼音文字，是藏族人们交流思想的工具，是世界公认的成熟的文字之一。信息时代对藏文信息的处理提出了新的课题——用计算机来处理藏文信息。从20世纪80年代起，北京、上海、西藏、甘肃、青海等地的一些院校及科研机构纷纷开始了藏文信息处理的研究，研制开发了许多藏文信息处理系统，推动了藏文信息处理技术的发展[16]。随着科学技术的快速发展，西藏的研究和建设也进入了快速增长期。同时，由于汉英语言文字信息处理研究技术的不断迭代和更新，藏文信息处理技术也逐渐从文字信息处理[17]扩展到语言语音信息处理[18]。然而对藏语自然语言的处理还没有大规模的发展。为了藏语能够跟上信息时代社会发展的步伐，更好地满足西藏社会进步和发展的需要，促进西藏社会文明发展。藏语信息化发展已成为一项紧迫的任务。

文本摘要的目的是将原始文档压缩成几个能够涵盖文档主题的短句，通过该技术可以自动化地生成摘要，能有效缓解互联网高速发展带来的信息爆炸和信息冗余的问题。这样，无论是用户还是搜索引擎都能快速通过摘要捕获到原始文本中所包含的主要意思。藏文自动文摘的研究发展缓慢，目前还没有用于训练的大规模藏语文摘语料，且文摘的训练数据构建需要大量的时间和资源，因此最新提出来的一些神经模型只能应用在有限的领域。本研究人工构建的数据集有助于推动藏文文本摘要的发展，满足相关研究人员对高质量的藏语文本摘要数据集的需求。

致谢

特别感谢香格里拉藏文网站、人民网藏文版，云藏网以及参与本数据集工作的藏语专业人员。

作者分工职责

闫晓东（1973—），女，内蒙古自治区赤峰市人，博士，副教授，研究方向为自然语言处理。主要承担工作：数据集质量控制与综合管理。

王羿钦（1998—），女，天津市人，硕士研究生，研究方向为自然语言处理。主要承担工作：数据采集、论文撰写。

黄硕（1998—），男，山东省菏泽市人，硕士研究生，研究方向为自然语言处理。主要承担工作：数据集的预处理和整合、数据校对、论文撰写。

杨金朋（1997—），男，吉林省（市）通化市人，硕士研究生，研究方向为自然语言处理。主要承担工作：数据采集。

赵小兵（1967—），女，内蒙古自治区呼和浩特市人，博士，教授，研究方向为自然语言处理。主要承担工作：数据集质量控制。