郭会曼 刘采敏
摘 要:随着机器翻译和我国知识产权事业的快速发展,机器翻译技术开始广泛应用于专利文本翻译,提高翻译效率的同时也存在一定翻译错误。本文选取60篇近两年国内申请机械领域专利摘要进行英译测试,将機器翻译中错误类型归纳为词汇、句法、语篇及其他四个层面,通过分析机器译文错误类型,指出人工在提高机器译文质量中的作用,以期为从事专利摘要翻译的译者提供有益思考。
关键词:机器翻译;专利摘要;错误类型;解决方法
中图分类号:H315.9 文献标识码:A 文章编号:2095-9052(2020)06-0137-02
机器翻译又称自动翻译。目前最优质的机器翻译模型是谷歌首创的神经网络机器翻译[1],在科技型文本等相对限定领域翻译中取得了可喜成果。专利文本作为垂直领域实用类文本的重要部分,也是机器翻译的主要应用领域[2]。但机器翻译对于长句或复杂句,译文质量不能令人满意。机器翻译的成功只是局部的、有限的[3],翻译质量仍然无法与人工翻译相提并论。官凤霞[4]指出,目前专利汉英机器翻译仍存在术语错误、语义错误、语法错误等质量问题。
一、机器翻译错误类型
本文随机选取知识产权局网站60篇国内申请机械领域专利摘要作为样本,使用谷歌翻译软件英译,并与官方英文摘要比较,归纳分析谷歌翻译的错误类型。虽然机器译文质量评价标准不尽相同,但最终都落到可懂度和忠实度[5]。机器翻译质量评估方法大致分为人工评估法和自动评估法[6],本文采用人工评估法,并参照相关学者的研究对样本进行人工标注、分类和汇总,得出的结果见表1。
据统计,本次共计312处机器翻译错误。错误类型分为四类一级错误,进一步细化得出二级错误类型,其中词汇层面包括3个子类:词汇错译(术语错译、普通词汇错译、词性错译)、词汇漏译、词汇重复。句法层面包括3个子类:结构错误、句段漏译和被动态使用错误。语篇层面包括2个子类:逻辑缺失、逻辑错误。其他错误包括3个子类:大小写错译、标点符号错译和空格错误。
各类翻译错误如图1所示,词汇层面出错率最多,依次为其他错误、句法错误和语篇错误,其中其他错误为格式错误,是专利摘要固有格式要求下机器翻译高出错类型。
二、错误类型分析
(一)词汇层面错误类型
由图1可知,词汇翻译错误率达51%,具体可分为词汇错译、词汇漏译和词汇重复,接下来逐一分析。
1.词汇错译
第一,术语错译。词汇层面中术语错译占比32%。如“生物样本储存库”,译文为“biological sample storage library”。使用必应词典和COCA语料库查询验证,该术语翻译是错误的。该类错误不仅表现为术语翻译不准确,还表现为同一文本中标题与正文、正文与正文之间术语翻译的不一致。
第二,普通词汇错译。该分类涵盖名词单复数、冠词、介词错译。其中冠词错译占比49%,包括不定冠词和定冠词之间混用及遗漏。专利摘要冠词使用有严格要求,第一次出现单数可数名词,使用不定冠词a/an,之后则使用定冠词the。机器翻译无法遵循这一格式要求,难免出现错误。
第三,词性错译。翻译中适当词性转换可使译文更符合译入语表达习惯,反之则会产生相反效果。如“使得电磁阀电磁力获得一致性”,机器译文为“so that the electromagnetic force of the solenoid valve can be consistent”,中式表达明显且词性出现错译。英文是静态语言,中文是动态语言,机器译文的处理方式忽视了中英文词性使用上的差异,不符合英文的地道表达。
2.词汇漏译
漏译是指因系统问题或疏忽大意等原因,在译文中意外漏掉原文中某些词的翻译[7]。此次谷歌翻译词汇漏译占比15%,如“本发明……尤其是一种机械手上执行移动的机械臂”,机器译文为“The invention … in particular to a manipulator arm that performs movement”,原文中第二个“机械手”被漏译。如果原文增加方位介词“在”,想必此处的漏译就可以避免。由此可见,原文表述的准确性也将产生直接作用。
3.词汇重复
该类错误如“to move different types of materials. Materials.”“and the The problem of…”,这两句中“material”和“the”在前文已出现且表达完整,但后面又出现了该词,这是机器翻译特有的错误特征,出现频率不高,但需要译者再次核对检查。
(二)句法层面错误类型
样本句法错误分为语序混乱、句段漏译和被动态使用错误,总错误率为18%,其中语序混乱在同类错误中占比高达79%。
1.语序混乱
专利摘要中同一主语会搭配多个修饰性定语,同一步骤包含多个动词。如“垃圾被次级挤压器挤压后呈条状排至废料箱”,机器译文为“and the garbage is squeezed by the secondary squeezer It is discharged to the waste bin in the form of a bar”,机器译文断句错误,多个动词的前后关系混乱模糊,译文并不完全符合原意。
2.句段漏译
专利文本表达严谨,词语重复较多;机械领域多装配设置的表述且多限定性描述词,这些都易导致漏译。如“另一端连接有总管体,总管体连接有设置在冷却液盛放箱的泵体,泵体上连接有第二分管”,机器译文为“The other end is connected with a main pipe body. The pump body of the cooling liquid containing box is connected with a second branch pipe”,仔细对比可知,“总管体连接泵体”这一层意思在机器译文中并没有被翻译出来,即产生了句段漏译。
3.被动态使用错误
英文科技型文本注重表达的客观性,多使用被动态,机器翻译无法完全准确使用语态,如“改中心处理器主动指令控制车床全部运行进程”,机器译文为“The central processor actively instructs to …”,原文没有明确的动作实施者,也无需强行将主语翻译出来,对比原译文“Active instructions of a central processing unit are used for…”被动态的处理更为妥帖,也更符合英文科技文本的行文习惯。
(三)语篇层面错误类型
专利摘要译文要语言凝练、逻辑清晰,这也正是语言语篇所应具备的普遍特征。本研究中语篇层面错误占比4%,主要表现为逻辑缺失和逻辑错误,即机器译文看似为完整句且语义通顺,但仔细分析会发现明显逻辑关系缺失或者逻辑关系错误,导致译文语句松散、逻辑性不强,影响译文整体质量。
(四)其他错误
其他错误包括大小写错译、标点符号错译和空格错误,占比40%,值得重视。大小写错误总结可分为在分号、逗号、冒号后面及句中大小写错误;标点符号错译多为分号、逗号和句号误用;空格错误即多空格,属于机器翻译技术格式问题。
三、错误类型解决方法
从上文得知,专利摘要机器译文仍存在四大错误,这些错误可通过人工优化翻译流程和改进翻译技术来提高译文质量。
翻译流程方面,增加译前编辑流程,通过人工分析原文本的可读性,对原文进行句段调整,确保原文完整度,减少机器译文出错率,这对译者专业知识储备有一定要求。译中引入计算机辅助翻译工具,借助Trados软件建立术语库,确保术语准确度;建立专利垂直领域语料库,规范专利摘要固定表达和常用句式译法。采用机器翻译+译后编辑模式,译者要熟悉专利文本的语言特点和固定格式及表达要求,了解机器译文中常见错误类型,做到有所侧重。还可借助Xbench质检工具,对机器译文中术语进行质检,确保术语表达一致性。
翻译技术方面,虽然机器翻译技术取得巨大进步,但仍不能与人工相媲美。针对上述错误类型,还要加大机器翻译技术在句子切分、语义识别、格式转换等方面研究,提出更符合专利文本翻译的可行性方案。
四、结语
机器翻译广泛应用于专利文献的翻译,改变了传统专利摘要的翻译模式,但仍出现一定程度的错误,影响译文的翻译质量,而人工的加入在优化翻译流程和技术改进方面仍不可或缺。面对机器翻译时代的强势来袭,译者要根据这一趋势,合理调整自我角色定位,提升相关专业技能,要做到拥抱技术而不依赖技术。
参考文献:
[1]蔡强,董冬冬.基于GOOGLE神经网络汉英翻译的译后编辑研究——以科技文本为例[J].西南石油大学学报(社会科学版),2020(1):107-112.
[2]董連棋,李梅.译后编辑角度的机器翻译系统的性能对比[J].译苑新谭,2019(1):53-58.
[3]张政.机器翻译难点所在[J].外语研究,2005(5):59-62.
[4]官凤霞,费一楠.人机时代专利翻译前景分析[J].中国发明与专利,2019,16(11):64-67.
[5]罗季美,李梅.机器翻译译文错误分析[J].中国翻译,2012,33(5):84-89.
[6]马鸣皓.机器翻译质量评估刍议[J].宁波教育学院学报,2019,21(6):76-78+93.
[7]崔启亮,李闻.译后编辑错误类型研究——基于科技文本英汉机器翻译[J].中国科技翻译,2015,28(4):19-22.
(责任编辑:林丽华)