内蒙古地方政府中、英文网站的汉英平行语料库的创建和应用❋

2020-08-31 06:26李晓旭
外语与翻译 2020年2期
关键词:汉英语料平行

李晓旭

张红

内蒙古工业大学

【提 要】随着科技的发展,计算机辅助翻译受到越来越多的关注,其中,平行语料库对于提高翻译质量、效率,以及保证译文一致性有积极作用。本文基于内蒙古几个地方政府的官方中、英文网站上的文本,尝试运用Tmxmall在线语料对齐工具、ExcelToTxt(for MDX)和MdxBuilder等软件对收集的语料进行加工和处理,以创建涉及内蒙古的民俗文化、旅游景点和企业产业的汉英平行语料库(包括翻译记忆库、术语库和电子词典)。期望通过目标语料库,研究相关政府英文网站中内蒙古文化负载词的英译特点及方法,为研究和翻译内蒙古相关文献提供参考。

1.引言

随着翻译实践的发展,越来越多的译者采用语料库来提高翻译的效率和质量,并利用语料库解决译文一致性等问题。在语言学中,语料库(corpus)通常指大量电子文本的集合。一个语料库由若干真实语言的电子文本构成,而这些电子文本按照一定标准整理并收集起来。语料库一般具有代表性,一个语料库可以代表某一种语言或文类,语料库研究的结论可以推广至相应的语言或文体。按照语言属性,语料库可以分为平行/双语语料库(parallel/bilingual corpus),即由源语文本及译语文本相对应构成的双语语料库,其双语对应包括词语间、句子间和意义单位间等几种(梁茂成、李文中、许家金2010:3-5)。平行/双语语料库对于研究语言对比、双语词典编纂、翻译等具有重要意义。汉英平行语料库对研究汉语英译有一定意义。

近年来,国内外学者和专家不断进行双语平行语料库的研究和建设,并且取得了显著的成果。目前,在翻译实践应用方面,代表性的语料库有“欧洲议会平行语料库”(European Parliament Proceedings Parallel Corpus 1996—2011),其涉及20种语言与英语之间的句级对齐。中国在英汉或汉英语料库建设方面取得了令人瞩目的成就。目前国际上库容量最大的英汉双语平行语料库,是由北京外国语大学王克非主持建设的“通用汉英对应语料库”,其库容量为3000万字词(管新潮、陶友兰2017:3-5)。内蒙古也在努力建设地区语料库。于2005年3月被批准立项的“蒙古语语料库”工程计划用20年时间建成我国第一个2亿词级的涉及蒙古语、鄂温克语等语言的大型综合性语料库,该工程由内蒙古自治区社会科学院组织实施,目的是保护少数民族语言(内蒙古社会科学院官网2017)。这些语料库的建设、应用以及相关研究,为语料库的发展奠定了基础、提供了经验。

目前,对内蒙古翻译的研究主要集中于内蒙古文化负载词和一些景点名称的翻译等方面,如《目的论视角下的少数民族特色词汇翻译——以蒙古族特色词汇为例》(陈亚杰、王新2011:79);有少数关于建立内蒙古翻译语料库的研究,如《草原文化特色词汇的汉英平行语料库的构建、应用及意义》(林杨2018:59);《内蒙古旅游与外宣资料蒙汉英三语平行语料库建设的构想》(刘娟2016:45)。本文是基于内蒙古几个地方政府的官方中、英文网站上的文本,试图建立汉英平行语料库。通过目标语料库,希望研究相关英文网站上文本翻译的策略和特点,尤其是文化负载词的翻译方法,以及译文的宣传效果,以期为研究外宣网站翻译和内蒙古文化负载词的翻译提供借鉴。

2.基于内蒙古地方政府中、英文网站的汉英平行语料库的研究设计与创建

目标语料库的创建大体分为三个步骤:首先是语料库的设计和建库规划,然后进行语料采集、对齐和降噪加工处理,最后语料检索。本研究所要建立的语料库内容主要涉及内蒙古的民俗(包括内蒙古少数民族体育运动项目、饮食和传统手工艺等)、旅游景点和企业、产业介绍;形式是基于中、英文网站的文本创建术语库、翻译记忆库和电子词典。语料库的设计主要参考并借鉴了《语料库与翻译》(管新潮、陶友兰 2017:2)、《草原文化特色词汇的汉英平行语料库的构建、应用及意义》(林杨2018:59-65)等文献中双语平行语料库的设计思路。现就术语库、翻译记忆库和电子词典的设计和创建步骤介绍如下。具体操作流程如图1所示。

图1 内蒙古政府网站语料库建设流程示意图

2.1 语料库的设计和建库规划

首先,根据研究目的和对象,本研究确定了研究范围和语料来源,明确了获取语料的方式,即选取内蒙古目前已有的几个地方政府的官方中、英文网站上的文本作为语料,创建语料库为达到可检索与分析的效果。本研究语料的主要来源为8个网站,即中国日报网英文版(China Daily Website)(2018年4月—2019年4月)“地区栏目”(Regional)下已有的4个内蒙古自治区级和地级市级的政府官方英文网站及对应的4个政府中文网站。4个内蒙古地区政府官方英文网站分别是:内蒙古自治区政府英文网、呼和浩特市政府英文网、包头市英文网以及鄂尔多斯英文网1;研究发现,这4个英文网分别是基于4个中文网站的新闻而建立的,大部分英文网站的内容是根据中文网站的相关内容进行编译、改写。所以选取同一地区的政府官方中、英文网站能实现双语语料的平行对齐。4个中文网站为内蒙古自治区人民政府网站、呼和浩特市人民政府网站、包头市人民政府网和鄂尔多斯市人民政府网2。

本研究首先分析了语料的文体和语言特征,以便更高效地建设语料库、进行语料研究。具体而言,本研究的研究对象是中、英文网站上的文本,其语言特点是语言简洁、用词较简单、表达清晰易懂,符合网络宣传的要求。其次,根据研究内容选用建设和研究语料库的工具,并考虑收集语料过程中可能会遇到的文本选取、对齐等问题。

2.1.1 内蒙古政府网站汉英语料库建立的可能性

内蒙古作为“一带一路”沿线重要省份,为响应国家文化“走出去”战略,扩大对外宣传,目前已有几个地方政府(包括内蒙古自治区、呼和浩特市、包头市和鄂尔多斯市等)建立了中、英文门户网站(大多采用从中文翻译到英文的新闻)。而各网站在栏目设置和介绍地区内容方面有相似之处,比如在介绍民俗文化(蒙古各民族的衣、食、住、行)、景点、企业和产业信息等方面有类似的地方。所以,根据地方政府中、英文网站的内容、功能和特点,整合相似的硬新闻即重复性的描述信息,从而建立汉英双语(平行)语料库是可行的。

2.1.2 语料的可靠性和代表性

目标语料库的中文语料选择内蒙古各政府官方的中文网站,因为官方网站内容相对权威,网站上的一些信息来源标注为内蒙古区情,具有可靠性。英文语料选择中国日报网站负责维护的地方政府英文网站文本,一方面是因为中国日报网站(China Daily Website)是由国务院新闻办(中共中央外宣办)主管的中国日报旗下的网站、是国家六大重点媒体网站之一,其发布的新闻都经过严格的审核,英文网站内容和质量有保障;另一方面,因为中国日报网服务于国内外读者,是海外人士了解中国的官方英文网站,有一定的读者基础。所以,基于中国日报网的权威性和影响力,选择由中国日报网站负责维护的内蒙古地方政府英文网站作为英文语料样本进行分析。

根据中国日报网(Regional栏目)的稿件编辑要求和发布流程,网站的编辑在进行编译或翻译时要根据《中国日报网体例手册》来规范用词,所选内容要符合地方政府宣传要求以及外宣标准,同时所有稿件必须由资深的外籍编辑进行审核校正后发布。外籍编辑会对待发布的译文进行修改,使译文更符合译入语的语言要求和外国读者的阅读习惯,而且外籍编辑是译文的第一位外国读者,对译文的可读性进行了保障。

2.2 语料采集、对齐和降噪加工处理

首先,网页上的文本已经电子化,所以只需将文本归纳、分类和去重,方便中、英文对齐。据统计,从4个英文网站共选取了400余篇文章,约80,000多英文单词;从4个中文网站共选取约400余篇文章,约162,800字中文。

研究发现,有些中文内容和英文译文无法完全对应,究其原因,一方面是因为网站上英文内容是译者编译(编辑和翻译)甚至改写后发布的,译者根据英文读者的阅读习惯以及英文网站的行文规则对原文本进行编辑;另一方面因为译者在选择中文信息时不仅局限于政府网站,有时为了将内容解释清楚会选择从其他网站借鉴内容,比如研究发现有些介绍内蒙古民俗文化的英文翻译内容是基于中国非物质文化遗产网3上的中文信息,有些介绍旅游景点的英文翻译是基于中国文明网4的相关中文介绍,这些网站大部分都属于机构官方网站,所以内容有一定的权威性,可以用于语料库建设。

然后,将整理好的中、英文进行初步的篇章对齐,之后导入Tmxmall在线语料对齐工具里面进行段落对齐(如下图2所示),并再次进行去重、降噪和整理标点等。由于在翻译过程中英译文经过了增译或减译等处理,所以中、英文无法实现句级对齐,主要进行段落对齐。在处理语料对齐的过程中人工整理出关于内蒙古民俗文化的特色词汇、旅游景点的名称和企业名称的汉英对照术语表,同时整理出相关词语的蒙语意思和英文翻译,将中英对照词汇分类整理到Excel表格中,然后在表格基础上生成文本文件。Tmxmall自带术语提取功能,但是研究发现Tmxmall提取的术语大多为一般词汇,鲜少有涉及内蒙古文化负载词,所以需要自己制作汉英双语对照的术语库,将术语库分类为内蒙古特色民俗文化术语库、景点名称术语库和企业产业名称术语库,并进行优化。

经过人工处理的中、英文文本,语料已经进行了降噪,基本上解决了生语料普遍存在的诸如空格和多余段落标记符等问题。因此,得到的文本较为为清洁。通过Tmxmall段落对齐后可以得到xlsx和tmx等格式的文本,作为翻译记忆库,导入SDL Trados作为翻译参考。

图2 Tmxmall在线语料对齐工具

2.3 术语库与电子词典检索

根据语料建立涉及内蒙古民俗文化、旅游景点和企业产业的名称和简介的汉英对照词典,突出内蒙古文化负载词的蒙古语意思和其英文翻译,为研究和翻译内蒙古相关内容提供参考。电子词典主要将汉英对齐的语料(xlsx格式)转换成mdx格式的词典文件,通过MDict软件和欧路词典可以进行中英文检索。具体操作流程如图3所示

图3 电子词典创建流程图

1)首先,将整理好的Excel表格中的内容填好标题导入ExcelToTxt(for MDX)软件。本研究的词典的标题分为:中文名称及其英文翻译、名称的蒙古语意思及其英文翻译和相关简介及其英文翻译。本研究需要转换的Excel包括3个工作表,分别是内蒙古文化和饮食工作表、旅游景点工作表以及企业和产业信息工作表。每次选择一个工作表进行转换,转换后生成标记过的文本,即txt格式的文本文档。见图4。

图4 ExcelToTxt(for MDX)软件

2)将标记好的txt格式的文本文档导入MdxBuilder生成mdx文件,见图5。

图5 MdxBuilder软件生成mdx文件

3)打开MDict.exe或欧路词典,添加生成的mdx文件,并分组,见图6。

图6 mdx文件导入MDict.exe

图7 利用MDict.exe软件检索

4)完成添加后形成查询列表,可以进行检索,比如输入“阿拉善佛教岩刻”,可以得到相关的介绍,见图7。词典特别标注一些文化负载词的蒙古语意思,方便理解。比如在介绍景点地名时,“呼和浩特,蒙古语意为‘青色的城’”,译为“The name Hohhot is Mongolian for‘green city’”;“辉腾锡勒,蒙古语意为‘清凉的草原’”,英译为“Huitengxile,meaning‘a cold prairie’in Mongolian”,

3.内蒙古地方政府英文网站翻译特点

内蒙古政府英文门户网站(包括内蒙古自治区政府英文网5等)的主要目标读者是外商、游客以及其他对内蒙古感兴趣的人。英文网站的内容主要是由编辑编译或翻译相关中文网站的文本资料。编译即结合编辑和翻译的方法,是按照既定的编辑方针,把用一种语言写成的新闻等资料处理成用另一种语言写的新闻等资料。英文门户网站要根据地方政府的外宣要求和宣传重点来选择稿件。网站希望通过介绍内蒙古的文化、景点、产业等宣传当地的社会人文和投资环境,从而让外国读者理解内蒙古文化,吸引外国游客和投资者前来旅游、投资,并促进内蒙古对外的经贸合作和文化交流。研究发现,内蒙古英文门户网站内容传播中的难点之一是对内蒙古文化负载词的翻译。

所谓文化负载词(culture-loaded words),是指标志某种文化中特有事物的词、词组和习语(廖七一2002:232)。内蒙古文化负载词反映了内蒙古各民族独特的文化风俗、生活方式和悠久的历史。内蒙古自治区生活着汉族、蒙古族、达斡尔族等多个民族,各民族在不断发展中形成自己的特色表达。目前对内蒙古少数民族文化负载词的翻译存在多种翻译方式,究其原因是内蒙古文化多样性,而且相关特色内容翻译没有统一规范。一些文化负载词是根据少数民族语言音译成汉语,如蒙古语音译成汉语,再由汉语译为英语,所以在英译时难免会导致一些文化因素缺失。翻译内蒙古文化负载词时做到内容和形式的统一并不容易。

研究发现,根据这些要求和目标,以及内蒙古文化负载词的特点,相关英文网站在编译内容时一般采用归化的翻译策略,同时综合各种翻译方法,如增译;许多蒙古族文化负载词采用“直译(音译)+注解”或“直译+意译”或“释译”的方法,一般采用同义词或语义相近的词解释词语背后的文化内涵和实质,力求让外国读者了解所介绍的内蒙古的文化,比如“搏克”译为“Boke,Mongolian wrestling”(innermongolia.Chinadaily.com)6、“敖包祭祀”译为“Aobao worship ceremony”7,这样翻译表现少数民族词汇意义而不局限于其语言形式,在译文中将原语词汇隐含的意思表达出来,既尊重并保留少数民族文化特色,又方便外国读者理解,起到很好的宣传效果。

根据以上研究发现,在建设目标语料库时专门列出部分内蒙古文化负载词的蒙古语意思及其英文翻译,方便译者和读者理解文化内涵,准确把握译文,如表1所示。

4.结语

随着互联网的发展,内蒙古英文门户网站成为内蒙古与世界沟通的桥梁,也是世界了解内蒙古的窗口。英文门户网站的内容和质量将影响外国读者对内蒙古的印象,网站信息的准确性和及时性会对内蒙古与世界各国在文化、经贸等方面的交流与合作造成影响。

表1 内蒙古平行语料库汉英对照表(节选)

内蒙古自治区地方政府中、英文网站汉英(双语)平行语料库涵盖内蒙古民俗、旅游、产业等几个方面汉英对照翻译语料文本。通过建立有针对性、专业性的语料库(包括电子词典等),可以方便检索相关内蒙古信息的汉英文,方便译者更好地了解内蒙古文化,以提高翻译的质量和效率。本次建库中难免存在语料信息不够完整和文本加工稍显粗略等方面的问题,有待今后进一步改进和完善。服务于中国文化“走出去”战略。构建此类语料库可以为地区汉英文翻译提供参考,更好地服务地区翻译,尤其是涉及内蒙古文化负载词的翻译。促进外国读者对内蒙古的了解和理解,有利于进一步研究地方外宣英文翻译,推动内蒙古同世界各国尤其是“一带一路”沿线国家的文化、经贸等领域的合作。

注释:

1内蒙古自治区政府英文网(http://innermongolia.chinadaily.com.cn/)、呼和浩特市政府英文网(http://en.hhhtnews.com/index.html)、包头市英文网(http://innermongolia.chinadaily.com.cn/baotou/)以及鄂尔多斯英文网(http://subsites.chinadaily.com.cn/ordosen/en/index.html)。搜索日期:2018年4月5日。

2内蒙古自治区人民政府网站(http://www.nmg.gov.cn/)、呼和浩特市人民政府网站(http://www.huhhot.gov.cn/)、包头市人民政府网(http://www.baotou.gov.cn/)和鄂尔多斯市人民政府网(http://www.ordos.gov.cn/)。搜索日期:2018年4月5日。

3 中国非物质文化遗产网(http://www.ihchina.cn/)。搜索日期:2018年4月5日。

4 中国文明网(http://bt.wenming.cn/fjms/201202/t20120222_174015.shtml)。搜索日期:2018年4月5日。

5内蒙古自治区政府英文网网址:http://innermongolia.chinadaily.com.cn/。搜索日期:2019年3月4日。

猜你喜欢
汉英语料平行
向量的平行与垂直
平行
逃离平行世界
面向低资源神经机器翻译的回译方法
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
濒危语言与汉语平行语料库动态构建技术研究
汉英中型语文词典义项精细度对比研究
再顶平行进口
汽车德汉英图解词典(五)
国内外语用学实证研究比较:语料类型与收集方法