小型英汉平行语料库的建设研究与应用

2018-02-07 08:58周影
中小企业管理与科技 2018年21期
关键词:英汉语料语料库

周影

(北方民族大学,银川 750021)

1 语料库介绍

1.1 语料库的分类

语料库的英文为corpus,从字面上的意思讲,即收集语料的仓库。早期的语料库规模较小,随着计算机技术的发展和语言词汇数量的增加,其发展规模越来越大,类型也变得更加多样化,常见的语料库分为单语语料库和双语/多语语料库。单语语料库是目前开发和使用最多的语料库,它仅收集一种语言的语料。双语/多语语料库是指由两种或两种以上语言的文本构成的语料库。平行语料库是指由原文文本及其平行对应的译语文本构成的双语语料库,其双语对应程度有词级、句级和段级几种。

1.2 语料库研究现状

20世纪60年代初,第一代现代计算机语料库LOB(1961)和BROWN(1961)建成。人们对语料库的研制兴趣日益浓厚,后随着计算机技术的飞速发展,语料库研究也得到迅速发展。在双语对应语料库的对象语言上,从一开始的仅侧重于英语,发展到现在的几乎覆盖世界上所有主要语言,其所涉语种达20种之多。目前,国内外建立了许许多多规模迥异、语种多样的平行语料库,如北京外国语大学北京日本学研究中心研制的中日对译语料库;北京大学计算语言学研究所开发的主要应用于新闻的、机助翻译类的双语平行语料库;Johansson等人在挪威奥斯陆大学建立的英语和挪威语双语对应语料库等。国内平行语料库起步较晚,但发展很快。北京外国语大学中国外语教育研究中心王克非主持和研制的北外“通用汉英对应语料库”是目前世界上最大的双语语料库,容量为3000万字词,并在进一步建设中。(王克菲,2004)

2 语料库的建设

2.1 语料的选取与处理

获得英汉对照的原语料的方法有很多种。本文主要讲解的语料的获取方法为直接从网上下载流行的美剧和美国电影的字幕。下载美剧字幕作为原语料有两点好处,第一,研究人员可以直接从网上获取大量英汉对照语料,无需到处搜集,更无需手动敲打到电脑上;第二,下载近几年的美剧字幕作为原语料能帮助人们了解近几年美语的使用习惯和流行用语的使用,毕竟,语言在不断的变化,例如,“how are you”“I am fine thank you,and you”这种对话不再常见[1]。

下载好的语料需要进行去噪处理。本文处理语料使用的软件为emeditor。该软件功能强大、简单好用、支持多种配置。首先,打开原语料文档,去除时间轴和一些无关紧要的内容,只留下汉英语料以及译者和语料来源(注意:去除时间轴可用ALT键进行竖排文本选择然后右键删除,去噪时不能更改语料内容,要保持原有语料翻译风格)。去噪完成后,将汉英进行分开处理。以提取英语语料为例,使用汉语通配符[一-龥],利用查找替换去除全部汉语语料,并将汉语语料中残留的阿拉伯数字、汉语标点和多余的空格全部删除,留下英语语料即可。提取汉语语料时,方法与提取英语语料相同,英语的通配符为[a-zA-Z]。将英语语料去除后,要人工为汉语语料添加标点,因为原语料中没有汉语标点(注意:添加标点时要与相对应的英语标点保持一致)[2]。

2.2 语料的标注

本文介绍使用的标注应用程序为汉语词性标注工具。该应用程序操作简单、还可批量处理文件。将处理好的汉语语料保存在一个文件夹中,加载该文件夹,选择要处理的文件,点击开始切分标注,即可得到标注好词性的汉语语料。对英语进行标注处理,使用的应用程序为TagAnt。该应用程序操作简便,但不可批量处理,一次只能处理一个文档且只能处理utf-8格式的文档。点击input files选择要处理的英语语料,点击start即可得到标注好词性的英语语料。标注好词性后的语料,还需用emeditor做分句处理。打开语料,在每个句号、问号和叹号的句子后面加上</seg> <seg>,英汉语料处理方法相同,此处可利用查找替换操作。(注意:查找替换时要勾选“使用正则表达式”)

2.3 语料的平行匹配

本文介绍使用的匹配软件为paraconc。在平行匹配时,只能上下调动语料位置,不能更改语料内容,所以在匹配之前,要确保英汉语料在内容上没有问题。首先,点击file里的load corpus file加载英汉语料,因为本文主要讲解的是英汉双语平行语料库,所以在parallel texts处选择2,在语言处选择汉语和美语并在对应的框里分别加载相应的汉英语料,点击OK即可。然后,点击file里的view corpus alignment,选择Alignment即可查看语料。因为大部分的语料都不是对齐的,所以需要研究者手动调节,可单击右键选择merge with next segment或merge with previous segment将此行语料与下一行或上一行语料合并;还可选择split segment将此行语料调至下一行;当操作错误时,可选择undo撤销上一行为。

保存语料有两种方法。①点击file里的save workspace as,然后命名好并保存到相应位置,再次操作时打开该workspace即可,但该workspace不能移动位置,更改路径将无法打开;②点击file里的export corpus files,命名并选择保存到相应位置,在alignment style处选择tags,然后点击OK即可。应用时按照匹配的第一步骤分别加载该汉英文档。使用此保存方法在移动语料位置时,对该语料无影响。

3 语料库的应用

Paraconc具有检索动能,点击search,在弹出的搜索框内输入需要搜索的词汇即可。输入汉语关键词时,可得到大量相对应的英语的相关表达。相比于英汉词典,语料库内容更为丰富,而且有相应语境,语料更新鲜、地道,这些内容是无法从词典里搜索到的。输入英语关键词时,可得到大量词汇搭配、构词法、地道的美语例句等。英语爱好者可利用英汉平行语料库学习地道美语,通过其检索功能,学习新鲜英语词汇,了解相同词汇在不同语境下的用法,以及学习最正宗的美语表达,练就一口地道美语口语,避开中式英语的影响。

语料库中包含大量真实的语言材料及其译文,翻译工作者可通过译者的不同翻译风格对比分析,来掌握规律,从而提高自身翻译水平;英汉语言对比研究人员可对建成的语料库进行词汇检索,来得到大量检索词的常见搭配形式及其译文,可帮助研究人员更好地开展语言对比研究;词汇学家和语法学家可利用语料库进行词典编纂工作和归纳总结语法。

英语教师可利用语料库中的资源,为学生提供优秀的翻译文本,让学生平行比较源语言和译入语,帮助学生认识二者的关系。此外,英语和汉语分属于两个不同语系,它们中的大部分词语都不是一一对应的,一种句型的翻译方式也不是单一的,学生无法简单地从教材上或词典中学习到这些,教师可以利用平行语料库,让学生获得感性认识。语料库中的真实语料可为学生提供丰富的知识来源,还可作为学生的语言能力训练的测试的平台,可有效提高学生的翻译能力和外语知识水平。

4 结语

英汉平行语料库的建成可为翻译人员、语料库研究人员、英语语言学习者以及英汉语言对比分析学家等提供大量的重要的语言材料,我国从研究建库开始到现在,已能够建设并建成双语或多语语料库,为很多领域提供了重要的信息来源。但语料库的发展还有许多不足之处,由于语料库相关软件的稀缺,大型英汉语料库的建设,从最开始的语料处理操作到最后的平行匹配都需要花费大量的人力物力。平行语料库的建设与应用还有很大的发展空间,等待各位语料库爱好者去挖掘与应用。

猜你喜欢
英汉语料语料库
基于归一化点向互信息的低资源平行语料过滤方法*
从构词词源看英汉时空性差异
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
核心句理论在英汉视译断句技巧中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
英汉汉英商务口译学习词典编纂原则
语篇元功能的语料库支撑范式介入
异种语料融合方法: 基于统计的中文词法分析应用