基于国内现存文本语料库规范化的现状研究及改进

2016-11-11 02:57孙温稳

河南科技 2016年11期

关键词：语料库网页规范化

孙温稳

（郑州师范学院信息科学与技术学院，河南　郑州　450044）

基于国内现存文本语料库规范化的现状研究及改进

孙温稳

（郑州师范学院信息科学与技术学院，河南郑州450044）

当前国内对于文本可视化的研究还停留在初级阶段，存在着许多方法处理文本语料库。随着科学技术的不断发展，网络变得越来越普及，人们可以从网络上获得大量的文本资料信息，本文主要针对如何获取序列化、规范化的汉语的语料库提出了一种新的框架。

语料库；工具包；文本规范化

1　文本可视化概述

目前国内对于文本可视化的研究还处在初级阶段，主要停留在新技术的发展和新系统开发等方面。对于文本集合可视化系统，先通过文本采集模块、中文分词模块、特征词权重计算模块和XML文件组织模块构成本地数据库，然后通过可视化图形界面模块与本地数据库的接口交互，对用户的检索关键词图形化地显示结果。其中，文本采集模块在互联网上搜集网页文本，将采集到的文本作为原始数据源传入中文分词模块；中文分词模块，对文本采集模块中得到的文本内容进行分词处理，获得以词为单位的语料，并统计词频，保存在本地文本，供后续的词语权重计算模块读取词频信息计算权重；词语权重计算模块，用于对分词后的结果进行特征抽取即特征词权重的计算，将计算结果连同对应的特征词，以及所在文本的标题交给XML文件组织模块；可视化图形界面模块以上述XML文件组织模块保留在本地的结果数据为基本语料库，通过与用户的交互取得用户命令，并显示出结果。

2　文本语料库规范化概述

文本可视化涉及到信息采集，随着科学技术的逐步发展，网络也变得越来越普及。而绝大部分信息就分布在遍及世界各地大大小小的网站上，所以如何从互联网上获取信息并进行规范化就变得迫在眉睫。本文着重讲述提出一个新的框架用来处理和规范多语种文本语料库，为了扩大语料库的来源，可以直接创建互联网的接口，将网页作为语料库的直接来源［1］。

文本语料库收集需要一个加工步骤才能构成所需要的序列，这种序列可用于语音的识别和对话，比如在感知空间用多种方式交互的语音处理等。XML被构想成为一门独立的语言，其可提供一种可能性在同一个文件中能存储多种语音。对一种已知的语言，且对于相同的一个语句，可以一样地保存多种语言层次的分析。比如一篇文献的整体包括作者、标题、日期、正文等，正文部分可被划分成为一些段落和一些语句。我们可保存这些原始的语句，然后将这些语句进一步划分词、音节、短语；将文本信息格式化成XML的形式，其将为我们提供一种适用于文本文件的模本化、序列化的形式，这种形式将带来一系列的好处，快速、便利地开发和使用。比如，当需要增加、修改、提取一些新的模本时，将会变得非常容易。而且这些模本将会使从一种语言变成另一种语言变得非常容易。文本信息以标准化、模块化的形式存在，一方面能继承一些工具集中处理、加工的特性，另一方面将能够快速、特定地适用于其他工具的处理。当一种语言翻译成另一种语言时，可以继承两种语言一些共有的部分，而且使得每种语言固有的模块进行匹配［2］。

本文提出了一种通用XML格式的文本语料库和介绍了一些工具转换，规范多语种文本语料库。更具体地说，在工作中，一个基于XML的文本语料库是一套文件，包括描述（作者、标题、等）和文字内容。文件的内容将分解成段落和句子。在句子层面把原来的句子（因为这是写在源文件）进一步分解成为短语、词、语素、音节等，当然也涉及一些额外的信息，如引理、词性或类。

3　语言GAWK编写程序的应用

将原始的中文网页转化成为一个可行的电子语料库，这需要编写许多应用程序来实现。所有程序都是使用语言GAWK编写程序来实现的，包括文件的过滤、处理、加工、转化成XML形式等。同样的一件工作，以gawk程式来写会比用其他程式语言来写短很多。下面介绍所需要做的一些工作。

3.1将原始的文本信息转换成为结构化的文件

中文网页的编码一般使用GB2312，而我们的工作环境是LINUX，它不能处理使用编码GB2312的文件，所以进行编码的转换，由GB2312转换为UTF-8。可使用iconv命令将一种编码形式转换成另一种形式。具体的工作中可以创建一个工具箱，在工具箱内创建许多文件，这些文件分别实现不同的功能最终可以将原始的语料库逐步规范成所需要的序列化的语料库。下面分别介绍这些文件的功能，其中HtmltoText.awk将输入的文件utf-8编码格式的HTML文件转换成为一个特定的格式化的XML文件，在XML文件中可以建立许多标签分别用来存放网页上不同类别的信息。比如，中文网页上导航栏上的信息可以放在XML文件中的标签中，再者“<>< >‘表示网页上一个新的段落开始，’<>”表示网页上一个新的句子开始。具体目标文件内容格式如下所示（以网页作为原始的HTML文件）。

3.2将结构化的文件进一步进行其他形式的转换

Text2XML.awk将上一步生成的XML文件（exple.1）进一步规范化。在上一个步骤中将网页上的内容分成了许多段落，在这个阶段中将每一个段落分离成为多个句子。可在XML文件中继续添加一些标签，如标签中放置被分离的句子。SplitOrig2Wd.awk可将上一步分离出的句子再进一步分割成每一个中国字符，为了实现这个功能可向这一阶段生成的目标文件中增添一系列的标签如，将每个字加入到这些标签中。如、等。Stick.awk根据已创建Lexique-cn.vocab中文词典文件（这本词典主要包括2个字的词汇象中国、美国、经济等之类常用词汇）将已经分割成的中文字符（也就是每一个字）粘贴成词汇。这一步在执行过程中，有一个重要的规则需要用到，粘贴成一个词的顺序是以每一个字出现在原始句子中的先后顺序为前提的。要粘贴成2个字的词汇，如果一个句子中包含“ABC”，而字典中既有“AB”这个词，也有“BC”这个词汇，那么在粘贴成词汇时，选择的是前者即“AB”，而不是后者即“BC”。Num2Letter.awk要将上一步所产生的目标文件当中的阿拉伯数字转换成为中文形式，比如50转换成为伍拾等。Remove.awk鉴于词汇，一些文字中的标点符号，可以从文档中移除。

上面所建立的工具包主要应用于对中文文本语料库的规范化，也可以对工具包进行扩展用于加入其他一些功能或者是对其他的一些语言进行规范化。可针对其他语言与汉语的不同之处，对程序进行相应的修改，很容易就能获取一个新的模块用以处理其他语言。目前存在着许多方法处理文本语料库，但是本文描述的该工具包可获得一个完整、清洁和统一版本不同语言的文本语料库。

［1］Brigitte Bigi，Viet-Bac Le.Normalisation et alignement de corpus français etvietnamiens：Format et Logiciels［J］.JADT，2008（9）：199-207.

［2］Habert B，Fabre C，Issac F.De l'écrit au numérique：constituer，normaliser，exploiter lescorpus électroniques［J］.Paris：InterEditions-Masson，1998.

Research and Improvement on the Current Situation of the Standardization of the Existing Text Corpus in China

Sun Wenwen
（Information Science&Technology College，Zhengzhou Normal University，Zhengzhou Henan 450044）

The current domestic for text visualization research still stays in the primary stage，there are many ways to deal with text corpus.With the continuous development of science and technology，network has become more and more popular.We can get a lot of text information from the Internet，this paper focusedon how to obtain the serialization and standardization of the corpus of Chinese to propose a new framework.

corpus；toolkit；text normalization

TP311

1003-5168（2016）06-0019-02

2016-05-21

孙温稳（1974-），女，硕士，助理经济师，研究方向：人工智能。

基于国内现存文本语料库规范化的现状研究及改进

1 文本可视化概述

2 文本语料库规范化概述

3 语言GAWK编写程序的应用

1　文本可视化概述

2　文本语料库规范化概述

3　语言GAWK编写程序的应用