警务翻译平行语料库的设计和构建

2016-08-15 00:55丁皓
浙江警察学院学报 2016年5期
关键词:语料语料库平行

□丁皓

(浙江警察学院,浙江杭州 310053)

警务翻译平行语料库的设计和构建

□丁皓

(浙江警察学院,浙江杭州 310053)

以语料库为基础的计算机辅助翻译(CAT)模式是提高涉外警务翻译能力的一个有效手段,而CAT的前提是警务翻译语料库建设。警务翻译平行语料库的设计和构建,可以从分析警务专业用语涉及的范围入手。警务翻译平行语料库的设计应包含语料库二个架构层次和四个警务翻译语料库子库结构;警务翻译语料库的构建,要做好语料的搜集和处理,优化双语对齐和进行语料的“噪音”处理,解决“降噪、切分、去重”这三大难题,还需要解决语料库标注等问题。

警务翻译语料库;设计;构建;双语对齐;语料噪音;语料标注

一、引言

随着涉外警务活动的日益增多和国际警务合作的进一步深化,警务翻译已经呈现出任务越来越重、翻译速度要求越来越高的趋势。为顺应这一新形势,计算机辅助翻译(CAT),以其翻译质量高,翻译速度比纯人工快的优点,越来越多地被专业译员所采用。CAT的核心是翻译记忆。“翻译记忆库则是计算机辅助翻译系统的核心和翻译工作站的主要部分,从广义来讲,它属于一种‘简单’的双语平行语料库”。[1]翻译记忆库通过积累和加工则成为翻译平行语料库。有了语料库,CAT才能起到翻译辅助的作用。语料库越大,翻译辅助的作用也就越大。但是据截至2014年有关方面的资料显示,“国内在警务英语语料库建设方面仍处于空白阶段”。[2]笔者迄今为止已经制作和搜集到一些警务语料库,但在数量和质量方面仍不能满足警务翻译的需求。为了更好、更快地完成日益繁重的警务翻译任务,笔者认为有必要进行警务专业翻译平行语料库的建设,为此提出设计和构建方案。

二、警务翻译语料库的设计

(一)语料库的层次设计。“语料库的总体设计或研制方案,是决定今后语料库研究和应用的关键。语料库如何选材,如何架构,往往决定了语料库的后续发展,甚至决定了能获取什么样的研究成果”。[3]警务翻译语料库架构设计的第一步是确定语料库应该包含哪些语料,即圈定语料库应该涵盖的专业范围。

就警务专业用语范围来说,其涉及的范围是很大的。笔者现举经历过的二个警务翻译实例:

1.证件防伪技术资料(英译汉)。The printing plate with graphics and words repel water but ab⁃sorb ink.However,the printing plate without graph⁃ics and words repel ink but absorb water.The ink on the printing plate was transferred to the rubber sheetfirst;thenundertheactionoftheprinting pressure,the ink on the rubber sheet was trans⁃ferred to the substrate.印版有图文的位置排斥水,吸收油墨;印版无图案的位置排斥油墨,吸收水。印版上的油墨先转移到橡皮布上,在印刷压力的作用下,橡皮布上的油墨再转移到承印物上。

2.介绍浙江警察学院(汉译英)。“江南忆最忆是杭州”,在浩瀚的钱塘江南岸,矗立着一所历史悠久而又充满生机的高等学府——浙江警察学院。As the saying goes,"while missing the southland,I miss Hangzhou most of all";by the bank of Qian⁃tang River,there stands the Zhejiang Police Col⁃lege with vitality and a long history.

上述译例1中,涉及的是印刷技术专业;译例2中涉及的是文学或旅游专业。对于这种“非警务专业”的语料,我们应该怎样处理?也许从“纯警务”专业的角度来看,似乎可以将这些语料排除在外。但是,从圆满完成警务工作任务的角度来说,如果碰到一个金融犯罪案件,我们是否可以说,金融不属于警务专业范围,而不处理这个案件呢?如果在翻译一篇警务文书时,里面有一句旅游方面的句子,我们是不是可以说,这不属于警务专业,因而可以略过不译呢?答案显然是否定的。如此说来,警务翻译语料库也应该包括这些领域的内容。但是如果一切与警务工作可能相关的内容都需要包含在警务翻译语料库范围内的话,其语料库几乎可以包罗万象,显然也不宜称之为“警务语料库”了。

要解决这个问题,首先要明确我们的目的是什么,因为“语料库的总体设计是与建库目的密切相关的”。[4]警务语料库的目的是为了满足警务翻译的需要,警务文件和资料可能涉及的专业五花八门,范围极为广泛,因此,服务于警务翻译的语料库专业范围也应该是越大越好。至于专业范围太大的语料库能否称之为警务语料库,这是一个“目的”和“名称”的矛盾问题。在这对矛盾中,“目的”是第一位的,必须得到满足,“名称”是第二位的,可以在满足“目的”的前提下予以解决。也就是说,以警务翻译为“目的”的语料库设计应该遵循“目的”优先并兼顾“名称”的原则。

根据这一原则,可以把语料库分为二个架构层次:第一层次是警务专业翻译平行语料库,其语料内容基本限于警务专业。它的翻译服务效能单一而有限,能在一定程度上满足警务翻译的需要,但不能完全满足警务文书或资料中带有非警务成份的翻译需要。第二层次是超大型综合翻译平行语料库,其语料内容应该包括一切专业,应能满足警务翻译和其他各类专业翻译的需要。

上述第二层次的语料库因超出了警务语料库的构建范围,且属于警务语料库的后继建设范畴,因此本文不作讨论。本文接下来着重讨论第一层次警务语料库的结构设计问题。

(二)语料库的结构设计。语料库的结构设计要先明确语料库应该包含哪些内容,弄清楚警务英语的范围有多大。“如果说通用警务英语是公安高校警务英语教学的基础,那么,从内容、形式和文体角度上看,更具有难度的专业警务英语则是公安高校警务英语高级阶段教学的目标,而学术英语是警务英语教学更高阶段的目标”。[5]通用警务英语应该包括如警务英语900句等的基本工作用语。而对于警务专业英语来说,其内容应该涵盖警务工作的各个领域及警务各分支专业。我国的公安警务分支专业主要有治安、刑侦、出入境、边防管理、禁毒、户政、消防、交通管理、网络安全、物证鉴定、涉外警务、经济犯罪侦查、法医等。而每个分支专业又设置有许多课程,如网络安全与执法专业的课程主要有:公安技术、法学、计算机科学与技术、网络空间安全、计算机网络技术、政治理论、大学英语、高等数学、信息安全技术、微机原理及应用、操作系统原理、网络安全监察管理、网络犯罪侦查、计算机取证技术、数据恢复技术等。警务英语除了应该包括这些专业的全部用语外,还需要包括这些领域更深入的学术用语。

由此可见,警务专业涵盖的领域非常之大。为了满足警务翻译中可能遇到的各种语料查询需求,警务专业翻译平行语料库的内容似乎应该包括上述警务各个分支专业的一切课程内容及各警务分支领域及相关领域的一切口头和书面工作用语。但这样做恐怕会远远超出警务专业的范围。如对法医专业来说,构建一个医学语料库也是需要的。但果真如此的话,警务语料的内涵实在太大了。由于语料库设计方案中还有第二层次的超大型综合翻译平行语料库的后续构建计划,里面应该包括医学等各相关语料库,所以,在警务专业翻译平行语料库中,就不对其专业内涵作过大的扩展,其内容仅限于警务专业及与其关系比较密切的相关专业。若在翻译中碰到其他相关专业的语言现象,可以到超大型语料库中去查找。基于这一设计思想,拟对警务专业翻译平行语料库的结构作如下设计。

警务翻译语料库含四个子库,具体结构如下:

1.警务综合语料库。其内容包括:治安、刑侦、出入境、边防管理、禁毒、户政、消防、交通管理、物证鉴定等各分支专业,以基本满足警务各分支专业工作的翻译需要。

2.法律语料库。其内容包括:中国大陆及港(澳)台地区法律法规、欧美等国家法律、国际公约和协议等,以满足与法律有关的警务工作的翻译需要。

3.政治与国际关系语料库。其内容包括:联合国文件、政府文件、领导人讲话、外交和时政等,以满足涉外警务、国际警务合作及与政务有关的警务工作的翻译需要。

4.信息技术语料库。其内容包括:电脑和网络等信息技术,以满足网络安全工作的警务翻译需要。

此结构方案与前面的层次方案一起形成了一套较完整的语料库设计方案。

三、警务翻译语料库的构建

(一)语料的搜集和处理。对于语料库的构建,其最基本的方法是语料库制作法,可分为翻译记忆库保存法和双语对齐法。

翻译记忆库保存法,即将自己用CAT软件翻译好的双语对照文本保存为记忆库。不同的CAT软件有不同的保存操作法。使用CAT软件的译员应该都会保存翻译记忆库,所以本文不再赘述。

双语对齐法,即把搜集来的双语语料进行对齐处理后做成双语平行语料库。语料搜集除了上网搜索双语语料之外,还需要与其他语料库建设大户和翻译团队建立合作交流关系,共同分享,彼此交换双语语料。警务语料搜集来后,需要先进行处理,即整理和加工。“语料的整理和加工包括四个步聚:原始语料的校对、英汉语文本的切分、自动句子对齐以及句对齐的校对”。[6]

语料整理最主要的是检查语料的翻译质量。若有少量翻译质量较差的,可以删除。如果翻译质量较差的内容较多时,应该拒绝该批语料。

语料加工主要是对语料进行“降噪”处理。“降噪”处理主要涉及以下五类:

1.公式:若转化为TXT格式的公式仍未变形,则予以保留,否则就予以剔除。

2.表格:一般将表格内的文字提取出。

3.图片:不保留图片,但需提取出图片中的文字。

4.外包校对中遗留的某些问题,如空格、断句、标点、字母大小写、数字。

5.将WORD格式转化为TXT格式时会发生变形的符号,如破折号“——”等。[7]

这五类内容可以概括为双语文本中的公式、表格、图片、标记及其他各种非文字内容。这些内容的存在会对双语对齐过程造成干扰,并且用CAT软件生成语料库后会产生乱码等杂质,所以称为“语料噪音”。因此,在做双语对齐操作前应该先清除这些杂质,即“降噪”。纯人工降噪的效果很好,但速度太慢。为了加快语料库制作速度,除非是很重要的语料,一般应该采用自动“降噪”技术,如把带有“语料噪音”的WORD、PPT等双语文本复制粘贴到TXT中去,再复制回WORD文本。这时原来带有的“语料噪音”会被清除,但同时可能会出现中英双语对应的句对处在同一行上的情况。这样就无法导入CAT软件进行双语自动对齐。对于这种情况,手工一个一个地分行操作速度太慢,可以在TXT中用正则表达式大批量地作自动分行处理。另外,用中英文提取软件结合EXCEL也可以作分行处理。这些都是自动“降噪”技术。

当然,自动“降噪”技术虽然快捷,但对于某些特殊“语料噪音”,仍然需要花大量时间进行人工修整。比如,图片中的文字,会连同图片一起清除掉,或者“降噪”后的效果仍不适合作双语对齐等情况。这时我们可以用价值工程思想来审视这些语料是否值得花费大量的人工来进行处理。如果效费比太低的话,则应该放弃该类语料,而把有限的时间和精力花在效费比较高的语料上。

(二)双语对齐。清除了“语料噪音”且对中英文进行分行后,“降噪”工作才算完成。后续的任务便是语料对齐。双语语料的对齐可分为段落、句子、短语和词语等层次。段落的对齐最容易实现,但对CAT翻译来说实用性不大,所以不应采用。句子、短语和词语的对齐比较难,其中,短语和词语的对齐属于术语库建设的范畴,且并不比句子对齐难。句子对齐问题能解决,短语和词语对齐问题自然也能解决。所以这里着重讨论句级对齐问题。

在具体做句级对齐操作时,应遵循以下原则:(1)允许一句对多句或多句对一句;(2)句号、感叹号、问号和省略号均视为句子的边界标记;(3)由于有些中文句子大量使用逗号或分号,导致句子极长,这么长的语料对CAT翻译来说使用价值不大。因此,句级对齐不一定要以句号为边界标记,有时可以用句子长度作为边界标准,多数情况下可用50字(词)作为一个句对的长度单位。但法律文本中长句较多,这时可适当放大边界标准。根据笔者这几年的语料库建设经验,设定150字(词)为一个句对的长度单位时,基本能涵盖各种法律双语句对,且极少有例外。当然,具体长度可根据文本类型和建库者的目的灵活设定。

为了实现上述句级对齐目标,最好采用自动对齐软件。由于“翻译很多时候并非完全遵照句子对应句子的原则,省译、扩译或摘译情况比较多见,因此,目前来说依靠软件自动句对齐处理准确度很低,这一工作仍需人工完成”。[8]然而,人工对齐法虽然精确,效果好,但太耗时费力。对于需要大量语料库支持的CAT翻译模式来说,缓慢的人工双语对齐制库法显然很难满足需要。为了解决这个问题,我们需要更高效的对齐方法。就目前的软件技术水平来说,可行的双语对齐方案有三种。第一种是把整篇中文和英文分别或混合导入CAT软件进行自动对齐。目前句级双语自动对齐技术采用的方法有基于长度、基于词典,基于在线等形式,通过一定的算法将意义相同的源语和目标语进行自动对齐。不同的软件自动对齐的正确率不尽相同。在这方面,自动对齐和人工对齐操作综合性能较好的有雪人翻译软件(SCAT),其自动对齐精度一般可达到70-90%(具体精度要视语料类型而定)。自动对齐完成后,可利用雪人软件的人工对齐功能进行修整。人工修整的方法主要有合并、拆分、剪切等,具体应该综合灵活运用。第二种对齐方法是把原先对应的中文和英文分别复制到EXCEL,再导入到CAT中,即可生成双语对齐的平行语料库。对于中英文混杂在一起但对应的语料,可以用中英文提取软件分开后,复制粘贴到EXCEL,再导入雪人等CAT软件生成双语对齐语料库。第三种对齐方法是把中英文复制粘贴到TXT,用正则表达式对文本进行修改,然后导入到CAT作自动对齐,并作少量人工检查和修整。上述三种方案要视不同情况灵活采用,才能高效快速地进行双语对齐。

(三)语料库的后处理。语料对齐并保存为翻译记忆库后,一个微型翻译平行语料库就做好了。把各个微型语料库分类合并起来,就构成警务翻译平行语料库的各个子库。各个子库的集合就是一个较大的警务翻译平行语料库。然而,凭个人之力用双语对齐法制作语料库的速度是较慢的。如果利用业余时间制作的话,一个人一年一般只能制作几万句对。这样的建库速度是不能满足警务翻译需要的。为了加快建库速度,还应该与国内外同行进行交流并收集他们业已建成的警务语料库。但是以这种方式收集来的语料库中,有不少在双语自动对齐前未对语料进行有效的“降噪”处理,所以存在着“语料噪音”。对于已经建成的具有SDL、STM或者TMX格式语料库的“语料噪音”,其“降噪”要比在双语对齐前在WORD、PPT或者PDF文本中的“语料降噪”困难得多。此外,还存在着下述问题。

1.如目前一般的CAT软件只有合并功能,没有切分功能。以Trados软件为例,其能导入的单库容量比一般的CAT要大,但它无切分功能。而其他的CAT如雪人软件单库容量只有一百多万句对,大于这个容量则无法导入,这样就不能与Trados交换大库。而Trados本身的库也会由于只能一直单向增大这一功能局限,最终导致语料库太大而不能正常运行。这就要求有一种把大库切分成小库的技术。对此,目前一般的CAT软件并无这种功能。

2.对于搜集来的语料库,有可能与自己已有的库重复。如果已有库拥有量在几十万句对以下时,这个问题是不难解决的。如现在有些CAT软件有自动去重功能,只要把自己原有的库与新来的库合并导入CAT,CAT软件就能自动把重复的句对删除。但是当库量超过百万句对时,就超过了CAT软件的容量,这时新库进来时其重复问题就无法处理了。从长远看,警务翻译语料库的建设目标应是千万级句对以上,因此,如果不能解决在千万级以上句对背景下的新库自动重复检测和自动重复删除的技术问题,就无法完成大型警务语料库的建设目标。

上述问题归纳起来就是“降噪、切分、去重”三大难题。笔者在这几年的语料库建设和交流过程中,未找到国内同行有针对这三大问题的较全面而有效的自动处理技术。为了解决这三大语料库后处理过程中的难题,笔者与软件设计人员经过长期合作研究,已经设计了一个语料库的“降噪、切分、去重”自动处理软件,其处理容量可达上亿句对级,详情可参见笔者撰写并发表于《科教导刊》(2016年第8期)的《翻译语料库建设中一些问题的软件处理法》一文。

3.语料库的后处理还包括语料库标注。“语料对齐之后下一步的重要工作是对语料进行标注。标注主要涉及两个方面:一是词性标注,二是语言特征信息与翻译信息标注”。[9]语料标注的主要目的是为翻译教学、语料库翻译学研究和语料库语言学研究等方面服务。其词性标注可以用TreeTagge3等软件自动完成。但是,目前有些比较先进的CAT技术完全可以取代这样的标注,如雪人CAT,它已经把“机器翻译(MT)、计辅翻译(CAT)、在线词典”三个功能整合在一个CAT界面上了,只需把光标移动到需要查询的词上,便可从在线词典中看到该词的词性和释义等全部信息,所以词性标注对于以翻译为目的的雪人CAT这样的软件来说是无必要的。至于语言特征和翻译信息标注,这对翻译辅助是有参考价值的,但是该种标注目前在技术上还无法实现自动模式,需要人工操作,极其耗时费力,很难在短期内完成大中型语料库的标注。警务翻译语料库的目的是为了支持CAT软件优质快速地完成警务翻译任务,其当务之急是语料库要足够大,有无标注对CAT的翻译辅助功能影响不大,因此,为了早日建成大型警务翻译语料库,在建库初期可以不标注;将来如果有语料库翻译学研究等方面的需要时,可以对已经建成的警务语料库进行后续深加工。

当然,这并不是说用于CAT的翻译语料库完全不必标注。对于少数特殊情况,还是有必要标注的。例如对于“警司”这个警衔名称的翻译,不同国家和地区有不同的译名,如:Police Superintendent(中国警司)、Superintendent of Police(香港警司)、Sergeant(美国纽约警司)、Police Sergeant(美国洛杉机警司)、Superintendent of Police(英国警司)、Superintendent(澳大利亚新南威尔士警司)。对于这种同一个词或词组在不同的地区有同译名的情况,就需要标注。雪人CAT软件为这种情况提供了“备注”功能,我们在做双语对齐时可以在“备注”栏中标注警衔的国别或地区信息,这样,CAT译员在翻译时就可根据不同地区参考标注选择合适的警衔译名。

四、结论

警务工作用语涉及的领域非常之大,单纯依靠警务语料库不一定能完全满足CAT警务翻译的需要。为更好地满足CAT警务翻译的需要,本文提出了第一层次的警务专业翻译平行语料库和第二层次的超大型综合翻译平行语料库的设计思想和方案。

警务翻译语料库的构建有语料库制作和语料库收集两种途径。通过这两种途径构建语料库时都会遇到“语料噪音”等问题,处理的方法有人工操作和自动处理技术二种。人工处理法质量高,但速度慢;自动处理法质量稍差,但速度快。为了既优质,又快速地构建警务语料库,需要以价值工程思想为指导,用功能、成本分析,采用效费比较高的构建方案,并把自动处理和人工少量修整适当结合,以期早日建成大型警务翻译平行语料库。

[1]李毅鹏.从双语平行语料库到翻译记忆库[J].鸡西大学学报,2012(12).

[2]刘震宇.公安院校微型警务英语口语语料库的构建与应用[J].山东警察学院学报,2014(9).

[3]Sinclair,John.Council of Europe Multilingual Lexicogra⁃phy Project[R].Report Submitted to the Council of Europe un⁃der contract no.57/89,1991:13.

[4]王克非.新型双语对应语料库的设计与构建[J].中国翻译,2004(11).

[5]王卫平.《欧洲语言共同参考框架》对制定警务英语能力量化标准的启示[J].铁道警察学院学报,2015(2).

[6]陈潇潇,葛诗利.科技文献英汉翻译平行语料库的构建[J].广东外语外贸大学学报,2012(5).

[7]管新潮,胡开宝,张冠男.英汉医学平行语料库的创建与初始应用研究[J].当代外语研究,2011(9).

[8]谭兴,石婕妤.地方性旅游景区翻译语料库的创建与应用[J].成都师范学院学报.2014(10).

[9]熊兵.基于英汉双语平行语料库的翻译教学模式研究[J].外语界,2015(4).

(责任编辑:秋实)

H315.9

A

1674-3040(2016)05-0095-05

2016-05-18

丁皓,浙江警察学院国际学院(筹)英语教师、助教,主要研究方向为英语语言文学翻译理论与实践方向。

猜你喜欢
语料语料库平行
向量的平行与垂直
平行
基于归一化点向互信息的低资源平行语料过滤方法*
逃离平行世界
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
再顶平行进口
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入