基于计算机的法语语料库构建及其语言评估研究

2021-06-27 03:25宋元元
电子设计工程 2021年12期

宋元元

(西安翻译学院,陕西西安 710105)

随着计算机信息技术水平的不断提升,处于计算机时代背景下,计算机系统也已经不单纯应用于专业学术场合,而是逐步渗透到社会工作、生活的各领域。但是,在普及应用计算机的过程中,如何更好掌握计算机用语对于人们的语言学习至关重要[1]。在计算机技术领域中,不规范语言翻译表现方式导致计算机无法实现统一翻译,导致阅读理解困难。以及计算机用语过于生活化,也衍生了大量多义词和新词语,再加上网络用语过于泛滥,很多时候人们会不知所云。计算机系统语料库源于拉丁语,同源法语单词“Corps”[2]。语料库在语言上表示对于某类语言情况所汇集的有限话语集合。而法语教学中也经常会听到学生抱怨,听不懂表达词语,也找不到合适的词汇[3]。而这些都是由于学生未能充分掌握法语词汇及运用技巧,所以提出基于计算机的法语语料库,并运用于学生的语言评估,旨在能够建立计算机领域内的法语语料库,并搭设学生可以在计算机平台实现法语自学的平台。

1 法语语料库的构建原则

1.1 采集代表性法语语料

在建立法语语料库时,第一步就是需要采集语料,并且保证语料库的语料具有代表性。选定明确的抽样范围并进行分层抽样、等距离抽样方式,保证可以选取具有代表性的语料[4]。

1.2 定期更新语料库

新闻作为具备一定时效性的语言,每年都会出现诸多实时新词。所以在构建法语语料库时,也需要确保可以不断更新语料库,将原本已经失去存在活力的语言删除,才能够真正保障语料库具备使用意义[5]。

1.3 运用新型软件分析数据

通过运用AntConc3.3.4w 等多种统计分析软件,目前,该软件作为广泛应用的一种数据分析软件,对法语语料库构建来讲尤为适用[6]。经过运用该软件统计小型法语语料库,并对新闻中所发生的常用词汇和具体习惯进行总结,从而形成新型词汇表,并划分不同难易程度的四类词汇等级,如图1 所示。

图1 语料库分析软件

2 关键技术

2.1 语料存储

在计算机系统中,建立法语语料库需要建立XML 文件存储格式标注。一般情况下完成存储式XML 标注,作为能够运用字节偏移量加以表示的对齐位置关系,XML 文档可以基于各关键词领域,标识对应位置,并明确标注的章、节、段、句、词等主体信息。需要分开存储生语料及XML 标注,以便后续对计算机法语语料库进行系统扩充,也会出现同一语料库作为多个XML 的文档标注,但是不同XML 文档却实现了差异化功能[7]。譬如a.xml 标注表示双语对齐,b.xml 表示句法,c.xml 表示数据挖掘,这样不仅可以有效节省存储空间,与此同时也可以最大化保护文档产权。对于XML 标注集可以划分为篇章、段落、句子、词语,如图2所示。

图2 语料存储标注功能

2.2 双语词典

建立计算机法语语料库平台,主要包括通用型、领域内两类词典,在程序编写中参照权威语言词典用书,作为通用型机型词典,而领域内则采用国外经典文书索引校对文本。在计算机双语词典的平台存储格式方面,运用XML 格式能够实现快速查找。

2.3 特征语块

特征语块定义包括:1)字符串内的句号;2)表现文本中的均匀分布文段内,突然存在的特殊句段以及具体的标记特点;3)字符串内的换行符结束段落;4)特征及多个段落、句子集合特征语块;5)细化特征语块,确保可以缩小语块操作范围;6)对分句处理协调过程中,能够自动更正误差并保证语块对齐[8]。

3 法语语料库构建实现

3.1 建设目标

在建设法语语料库平台时,为了保证语料可以在计算机各方面全面覆盖,并且对各类翻译风格充分体现,定位原始语料作为计算机词典、工具书、计算机软件、法语对照和网络用语。

为了能够对齐篇章、句子和段落,实现自动对齐语句,保证达到90%左右的对齐率,运用可拓展语料参数标记,便于自动式检索语句[9]。

3.2 平台建设方案

在建设该平台时,设计的平台结构组成包括降噪处理、提取特征语块、提取目录树、标注关键词和分词、统计词频信息并编撰词典、对齐分段、及时过滤停用词,如图3 所示。

图3 法语语料库平台建构方案

3.2.1 降噪处理

由于平台在加工语料处理时,通常会不同程度地产生一定噪音,譬如漏掉标点符号或产生不必要的换行符,以及不可识别字符。

3.2.2 提取特征语块

在法语语料平台中,标记提取特征语块,主要是实现文章结构的大致标记,为该类特征结构提供了分段便利性,并且准确对齐分句的关键前提就是能够提取特征语块。一般情况下,在互译文章中可以选择特殊标记,譬如章标题或范例,并运用已知资源获得相应的特征词块位置。

3.2.3 提取目录树

如今在建设法语语料库时,作为基本电子化书,详细目录是为了对所处位置信息能够快速查看,并且可以有效改善用户在使用过程中的自主感官,提取目录树可以为用户应用该语料库,形成更高层次的视角提供方便。目录树能够提供法语、汉语相对应的查找功能,并且以各个章节标点为依据,譬如章、节等字符标识。但同样也需要注意该步骤需要做好XML 标记,标记语料所在位置,才能保证不会在日后处理过程中发生遗漏。

3.2.4 标注关键词和分词

经过完成领域内法语词典查找,并运用最优化匹配模式,完成对应中文和法语的领域词汇,及时做好相应标记,确保法语、中文两大标记文档,均能够成功识别相应的领域词所在具体位置,并根据对应信息及时完成统计领域主要词频[10]。

3.2.5 统计词频信息并编撰词典

对于通常是原文的法语文本,经译文翻译形成的中文文本,统计通篇词频的过程中,成功将停用词过滤掉。统计词频后,一旦发现两类接近的中文和法语词频,同时又无法找到词典中对应翻译的情况下,则可以运用计算机之间存在的两个向量间的相似性计算方法,并确认是否作为互译词对[11-12]。

3.2.6 对齐分段

与词频相结合可以满足既定范围中的单词词频差值和阈值,成功标记相应锚点从而成功对齐相应分段。分段代码示例如下[13]:

3.2.7 及时过滤停用词

停用词指辅助类功能词句,譬如汉语里的的、得、地、是等,通常会高频率地出现在部分文章中,甚至可能占据较大占比,对于语料库的对齐、查找速率造成严重影响,也增加了对齐噪音,所以统计词频时就需要进行提前过滤处理[14]。

4 法语语料库语言评估实现

构建法语语料库在应用于语言评估过程中,具体的分析内容及研究的语言学内容之间存在较大相关性,通过定量分析语料库数据,可以保证用户在应用中,更针对性地选定语料库的具体范围、内容、程度以及具体数量,并对关系用词的容许性、区分关键语义名词作合理解释[15-18];也可以建立法语语料库,准确定位法语学习者在学习过程中的相关语言问题,如图4 所示。

图4 语料库语言评估架构

1)在法语语料库的词汇量方面,词汇量密切相关语言能力,越是丰富的词汇量也就形成越强的语言学习及运用能力,同时还要注意词汇量达到的可信度及应用过程中的题材因素。

2)词汇词级具体分布情况很大程度上反映了将用户具备的词汇掌握及运用能力,能够运用高级词汇的用户自然也掌握了更丰富的词汇。

3)法语语料库能够为使用者提供便捷的操作手段,并定期检测和评估法语语言学习的掌握度。

5 结束语

建构法语语料库已经成为目前法语学习中的关键组成。基于计算机程序,构建法语语料库,实现横纵不同组合,对不同个体或群体学生的法语词汇掌握能力进行语言评估,发现该法语语料库的构建能够有效提高学生对法语词汇的掌握及运用能力。