涉外警务翻译语料库建设面临的问题与解决方案

2017-03-11 11:23
文化学刊 2017年10期
关键词:语料警务语料库

丁 皓

(浙江警察学院国际学院,浙江 杭州 310053)

【责任编辑:周丹】

【语言与文化】

涉外警务翻译语料库建设面临的问题与解决方案

丁 皓

(浙江警察学院国际学院,浙江 杭州 310053)

随着对外警务交流的日益增多和涉外案事件的频发,当今的警务翻译与警务行动一样,对快速反应的要求越来越高。为应对这一挑战,传统的纯人工笔译显得力不从心,计算机辅助翻译(CAT)则有着巨大优势。CAT需要翻译语料库的支持,语料库规模越大,其功效则越好。目前国内警务翻译语料库十分短缺,警务部门需要建设符合保密要求的大型翻译语料库。为此,本文主要采用价值工程原理对高性价比的语料库进行设计,以优质、快速、低成本地开展大型警务翻译语料库建设。

警务翻译;语料库;语料降噪;价值工程;性价比

一、研究背景

近年来,随着我国国际警务交流与合作的日益深化,以及涉外案事件的逐渐增多,警务翻译的任务已日趋繁重。为了应对这一趋势,警务部门需要开发一套内部翻译大数据系统。

“维克托·迈尔·舍恩伯格在《大数据时代》中前瞻性的指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。在这场信息风暴中首当其冲被改变的就是翻译行业。”[1]翻译行业的改变体现在翻译技术的变革,而变革最显著的标志是计算机辅助翻译(CAT)和机器翻译(MT)。由于MT目前的翻译质量与人工翻译相比还有较大差距,因此不能用于正式的文件资料翻译。而CAT由于其翻译质量高、速度快的优点,值得在警务部门推广。但CAT工作需要语料库的支持,语料库越多,CAT的功效就越大。因此,开展大型警务翻译语料库建设方面的研究,对提高警务翻译速度及涉外警务快速反应能力来说意义重大。

二、国内警务翻译语料库建设现状

为了高效地进行CAT警务翻译,需要建设大型警务翻译语料库。大型语料库的建设要比中小型语料库建设困难得多,因此非常短缺。据截止2014年的文献报道,“国内在警务英语语料库建设方面仍处于空白阶段”[2],且近几年也未见这方面成规模的建库报道。在其他语料库建设方面,国内较有代表性的平行语料库主要包括哈工大的英汉双语语料库、北大计算语言学研究所双语语料库、东北大学英汉双语语料库、外研社英汉文学作品语料库、国家语委语言文字所英汉双语语料库、中科院软件所英汉双语语料库、中科院自动化所英汉双语语料库、北京外国语大学通用汉英对应语料库、南京国际关系学院英汉平行语料库、《红楼梦》平行语料库、法律法规语料库等。[3]除了这些语料库外,国内已建成的其他语料库还有不少,但这些语料库规模大多在几十万句对之间,属于中小型语料库。然而近两年,上海一者信息科技有限公司开发成功的Tmxmall翻译记忆库交换平台兼云记忆库共享平台,及上海佑译信息科技有限公司(UTH)在建的云记忆库共享翻译服务平台这二个项目非常引人注目。这二个平台的语库建设规模目标非常庞大,前景也非常诱人,但要达到理想的目标仍有较长的路要走。

此外还有一个更棘手的问题,即上述Tmxmall和UTH在线语料库平台不太适合警务部门的翻译。因为警务文件有些是需要保密的,在翻译时为防止泄密不可以像其他行业中的译员一样,自由地使用在线词典或者云语料库等公共网络平台资源。于是警务部门的译员只能采用传统的纯人工方式翻译,所以目前警务部门落后的翻译手段与不断增长的警务反应能力要求之间的矛盾日益突出。而要解决这一矛盾,可行的途径就是研究建设警务部门自己的大型翻译语料库。

语料库建设有三种办法。一是把自己用CAT软件翻译的双语句对保存为记忆库,这种方法建库速度极慢,建成的语料库“质高而量少”,所以不可能建成大型语料库。二是搜集双语材料,再用CAT的双语对齐功能制作语料库。双语对齐法也是一个“质高而量少”的建库方案。第三种办法是从各种渠道收集语料库。自从第一个CAT软件Trados问世近20年以来,全世界成千上万的人一直在用各种手段制作语料库。有不少人为了加快语料库的制作速度,编写了自动对齐程序制作了大量的语料库,但由于目前人工智能技术还不够成熟,用这种方法制作的语料库大多含有各种杂质,称为“语料噪音”。这些语料噪音可分类为:(1)译文错误;(2)译文与原文对齐错乱;(3)译文或原文中有乱码;(4)句对中有非文字符号;(5)英文两个以上的单词连在一起;(6)有原文无译文;(7)有译文无原文;(8)翻译明显不完整;(9)超长或超短句对,等等。对于这些海量而带有噪音的语料库,若靠人工操作一句一句地清除语料噪音(简称“降噪”),其工作量太大,几乎不可能完成。但如果为了追求高精度,把这些语料库都废弃,那将是一个巨大的财富浪费;可是若要利用这些语料库,其质量又太差。

上述三种语料库构建法均有局限性。因此,语料库建设者陷入了一个两难的境地——要么接受“质高量小”的语料库;要么接受“质低量大”的语料库,这就是目前大型语料库建设中存在的问题和构建难点。

三、大型语料库难建的原因

为了解决大型语料库的建设问题,人们采取了多种方法,但“大多数语料库所采用的建设方法是集中一批专家,花费大量的人力和物力来搜集、整理和加工语料、最终形成语料库。所以,目前语料库的构建普遍存在以下缺陷:人工参与过多,自动化程度不高;规模有限,代表性不够;成本大,周期长”[4],结果耗费了巨大的人力、物力和时间成本后,仍不能建成大型语料库。那么大型语料库难建的原因是什么?回答这个问题需要从价值工程角度进行分析。

我们知道,工程建设界在开始规划设计一个工程时,需要先作价值工程评估,然后再据此选择设计方案。价值工程的基本原理公式为:V=F/C,式中,V——价值(即所谓的性价比);F——功能(即所谓的性能);C——成本。从式中可见,为了达到价值最大化,功能应该尽可能地高,而成本应该尽可能地低,但功能与成本本身就是一对矛盾。根据价值工程理论,产品总成本C=C1+C2,式中,C1是生产成本,C2是使用维护成本。在一定范围内,产品的生产成本与使用维护成本存在着此消彼长的关系,即随着产品功能水平的提高,产品的生产成本C1增加,使用及维护成本C2降低。根据该变化规律,若想求得较高的功能,其生产成本C1将会变得极大,其总成本C也随之变得极大,因而其价值V就会变得很小。从价值工程角度来说,这是一个较差的工程设计方案。

对于大型语料库建设来说,它无疑也是一个大型的建设工程,理应进行价值工程分析,但现在语料库建设中有一种倾向是片面追求高精度。从价值工程角度来说,这种把语料库精度做得很高的建库方案,相当于要将其功能值F做得很高,这就要求其生产成本C1极大,从而其产品价值(性价比)V就会很低。

语料库建设的另一种倾向是只求数量而不顾质量,这就是前面提到过的编写自动对齐程序的大型建库法。用这种方法建成的库因质量较差,所以其F值也较低,但仍需要花费一定的生产成本C1,而其使用成本C2将会很高,这样其V值就会较低。

总而言之,上述两种倾向会造成两种建库结果:(1)F值较高,但C1值极大;(2)F值太低,但C值仍较大。这两种建库结果的V值均太低,而V值太低的语料库难以满足CAT的使用要求,所以我们面临的问题不是大型语料库难建,而是V值高的大型语料库难建。

四、大型语料库建设问题的解决方案

(一)价值工程原理

要建设高V值大型语料库,需要找到一种提高V值的方法。从价值工程公式V=F/C来看,如果我们能在基本满足使用要求的前提下适当降低产品的功能F值,同时大幅降低其生产成本C1值,而C2值基本保持不变,这样就能提高V值。

怎样适当降低产品的功能?在价值工程中,功能可分为基本功能、辅助功能、不必要功能、多余功能、过剩功能等。显然,我们应该确保产品具备基本功能,并适当具备辅助功能,不追求不必要功能、多余功能、过剩功能,这样就能适当降低F值。

那么什么是不必要功能、多余功能和过剩功能?这个问题可以在工业生产中找到答案。在工业产品制造中,要让产品做到绝对没有误差是不可能的。工业界为了解决这个问题会规定一个允许误差,只要产品不超出这个允许误差,它就是合格产品。这样做通常能产生“F值略降,C值大降”的效果,从而获得较高的V值而确保产品赢利。如果盲目追求高精度,不允许产品有适当的误差,那就是追求不必要功能、多余功能和过剩功能。这样的生产方案必然会因产品的V值太低而导致企业亏本。

(二)大型语料库建设方案

类似地,我们在语料库建设中也可以遵循这样的思路:如果容许语料库这一产品存在微小误差(即微量语料噪音),那么就可以在保证语料库符合使用要求的前提下适当降低F值,从而大幅降低C值,这样就能提高它的V值。由此可见,高V值大型语料库建设方案成功的关键在于怎样做到“F值略降,C值大降”,从而达到语料库产品功能和成本的最佳配置。

这种“最佳配置”的设计需要复杂的电脑软件技术。迄今为止,在CAT界还未见到这一问题完整的技术解决方案。为了突破这一技术难题,笔者与软件设计人员经合作研究发现,第二节中所述的第(1)(2)类语料噪音限于目前的人工智能技术水平,很难采用软件技术作自动清除处理;而第(3)—(9)类噪音是有可能设计专门的软件进行自动清除的。如果我们能用软件清除第(3)—(9)类错误,用少量人工对句库进行检查验收,若发现只有零星个别(1)(2)类错误,则顺手删除之。如果发现(1)(2)类错误较多,则拒绝该语料库,以保证不接受噪音太多的语料库。这样可以节省大量的人力资源,大幅降低语料库的建设成本C1,从而加快语料库的建设速度。建成的语料库由于第(3)—(9)类语料噪音已经基本清除,只剩下极少量的(1)(2)类错误,所以语料库总体来说只带有微量语料噪音。

诚然,有微量杂质的语料与没有杂质的语料相比,CAT译员在选用时要多花时间来分离这些杂质,但这种杂质分离所花的时间与译员的翻译思考时间相比是微不足道的。这种多花费的时间就是价值工程分析公式里的使用维护成本C2。由于F稍微降低后C2升高较小,而C1大幅降低,所以C=C1+C2也将大幅降低,这样语料库的价值(性价比)V=F/C将大幅提高。这种高性价比语料库就是存在着允许误差的“合格”产品。其性价比提高的好处是,语料库建设者可以借助软件自动处理技术,少用人工操作来高效快速地从事语料库建设。这样,在成本(包括人力、财力和时间成本)不大的条件下,“质量合格”的大型语料库建设问题也就可望解决了。

由此可见,要成功地开展高V值大型语料库建设,关键是要有一种针对上述第(3)—(9)类杂质的软件自动处理技术。经过笔者与软件设计人员的长期合作研究,已经开发出了一个“句库处理软件”,具体可参见《翻译语料库建设中一些问题的软件处理法》[5]一文。该软件除了具有较强的“降噪”功能外,还可在数亿句对旧库背景下对新库进行重复检测和重复清除,以及对任意大小语料库进行切分,但它对于某些特殊的非文字符号尚难处理。对于这些问题,笔者与软件设计人员正在设法研究解决,且已经取得了一些进展。

五、结语

为了提高涉外警务部门的翻译工作效率和快速反应能力,警务部门需要建设自己的大型翻译语料库。大型语料库的建设不能一味追求高精度,从价值工程角度来说,过度追求高精度就是追求不必要功能或过剩功能,这样建成的语料库性价比较低。因此,在规划设计警务语料库建设方案时,我们既要从技术角度考虑满足该库的使用功能,又要从经济角度尽量降低语料库的建设成本,以便大量生产。本文提出的软件自动语料库构建法在精度上比纯人工语料库构建法精度稍低,但对CAT的实际使用效果影响不大,其能解决传统语料库建设中“质高量小”与“质低量大”这一对矛盾,在性价比方面具有巨大优势,因而是一种低成本、高效的大型优质语料库建设方案,值得作进一步的研究并在涉外警务部门推广采用。

[1]李大屾,吕黛.大数据时代中译者如何自处[J].河北联合大学学报(社会科学版),2015,(5):113-116.

[2]刘震宇.公安院校微型警务英语口语语料库的构建与应用[J].山东警察学院学报,2014,(5):157-160.

[3]黄金柱,樊信展,李峰,等.基于军事平行语料库的人机结合翻译策略[J].洛阳师范学院学报,2016,(8):56-61.

[4]李培峰,朱巧明,钱培德.基于Web的大规模语料库构建方法[J].计算机工程,2008,(7):41-43.

[5]丁皓.翻译语料库建设中一些问题的软件处理法[J].科教导刊,2017,(8):52-53.

H315.9;D035.3

A

1673-7725(2017)10-0173-04

2017-08-01

本文系浙江警察学院校级科研校局合作项目“涉外警务专业翻译语料库建设”(项目编号:2016XJY017)的研究成果。

丁皓(1985-),女,浙江舟山人,助教,主要从事语料库翻译学研究。

猜你喜欢
语料警务语料库
基于归一化点向互信息的低资源平行语料过滤方法*
《语料库翻译文体学》评介
环球警务专访
浅谈港航公安网上警务公开的现状和问题
警务训练中腹痛的成因及预防
基于JAVAEE的维吾尔中介语语料库开发与实现
警务指挥与战术研究现状及发展趋势
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入