网页翻译工具可信度测试

2017-03-23 07:36吕昭君
科学与财富 2016年34期
关键词:韩语

(浙江旅游职业学院 311231)

摘 要:随着大数据、云处理等新概念的提出和应用,机器翻译也有很大突破。本文将百度提供的网络翻译工具作为考察的对象,选取了一段新闻作为测试的文本,从形态学、词汇学、统词学、信息学、逻辑学、语用学等角度观察该工具达到的翻译水平,继而探讨实现机器自动翻译存在的问题和难点。

关键词:翻译工具;可信度;韩语;韩中翻译

一、选取测试工具和测试文本

实现语言间的自动翻译是语言学家和计算机专家共同的梦想,它也是克服不同语言之间交流障碍的终极工具,目前各大IT公司,如goole、百度等都纷纷推出自己的翻译软件,本文利用国内知名搜索服务企业百度作为测试和分析对象,观察其提供的翻译工具的翻译水平。

作为测试的文本,本文选取了KBS提供的时事新闻。测试结果如下:

(1)韩国石油公社哭产地公司爆炸事故1人死亡,5人受伤。

(2)14日中午2点50分左右,哭的哭山主山工业园区内,韩国石油公司的原油管道工程哭产地李雪施工中发生爆炸。

(3)这次爆炸事故造成1人死亡,5人受伤。

(4)两名伤员中,尤其是危及生命的。

(5)思想者們合作企业职工的。

(6)消防当局老化管道更换新管道爆炸的过程中发生的有关人员,对公司的 爆炸原因等。

二、对测试结果的分析

针对以上的翻译结果,本文将从以下7个角度做分析。

2.1 从形态学角度分析

韩语属于黏着语,有丰富的形态变化,本采样文本就有如下几处形态变化

形态的解析是机器翻译的第一步,因此正确解析出原型是语义和统辞的前提,从以上翻译的结果来看,部分单词没有被解析,因此语义上也没有体现出来,部分单词保留了韩文的原型。但完成度达到了50%。从这个角度来看,形态的解析反而成为翻译韩语的难点。

2.2 从词汇学角度分析

以上原始文本有如下几个词汇没翻、误翻:

‘ 之所以没有翻译出来,是因为什么呢?直观感觉是数据库里缺少该地名(或者公司名),但如果再进行单独翻译测试,输入 后,工具成功翻译出蔚山,测试结果如下

经过单独测试后发现,工具可以正确解读‘ ,但无法解读‘ (蔚山分公司),与上下文环境无关。这说明百度数据库收录了‘蔚山一词,但没有把‘蔚山分公司作为词条收录,这也是机器翻译数据库建设的一个难点,即,是否要收录非通用性质的专有名词。

当然这里应对方案是把‘ 进行解析,即解析为两个词汇‘

+ ,百度也做了解析,但错误地解析为‘ ,自然也错误地翻译为‘哭+山地+公司。对这种非通用专有名词的正确解析是今后需要改进的一点,当然也是自动翻译

2.3从统词学角度分析

之所以需要从该角度分析,是因为部分词汇虽然被翻译出来了,但可能被调整了顺序、放在了错误的位置,这属于统辞的范畴。我们选取 做重点分析,发现翻译后被忽视掉了。就此是不是可以断定百度总是忽视这一语法呢,我们可以做单独测试。测试如下 :

篇幅所限,我们只做了以上的单独测试,发现百度对该语法的处理还是很准确的,因此本文中没有翻译 ,不是其‘一贯的做法,而是经过计算的结果。

2 .4从信息学角度分析

正如模糊识别告诉我们的,有时部分信息的缺失并不影响信息的正确传达,比如人脸识别,也许每天人的面部都会有一些微小的变化,但仍然可以被认识你的人正确认出一样。因此信息学的介入,让机器翻译获得了前所未有的鼓舞。

作为测试的该新闻文本所传达的核心信息经过翻译后,如果要传达的核心信息被传递给了读者,笔者认为其翻译是属于成功的。从本文来看,该文本要传达的核心信息,无非就是新闻的6要素:

通过观察,可以看出,除了地点信息传达有误差外,其他信息基本完美传递,因此从这个角度分析,该翻译工具几乎完美地完成了任务。而且翻译后的地点其表达方式似乎也在透露是‘某分公司的感觉。

2.5 从逻辑学角度分析

我们人类在认知事物和对象时,不仅可以感知到其物的存在,还可以分析物与物之间的逻辑关系,这也是机器难以克服的一点。因此自动翻译过程中,如果从逻辑的角度还是可以看出存在的问题的。

该新闻文本的上下文存在如下的逻辑:

这是以上文本中包含的逻辑,这些逻辑是符合‘常理的,我们甚至可以继续根据‘常理推断如下的内容:

这种逻辑是人类在日常生活和工作中形成的,也是人类智能的一部分,这些形成的逻辑流甚至会固化成公式,这些公式继而又影响着人类的推理和思维模式。当前大数据、云计算正试图通过构建庞大的“常理”数据库,来准确地判断某些环境下的语义。

2.6从语用角度分析

上下文会影响词汇的含义,这在人工翻译时是必须考虑的,机器翻译又如何计算语境呢? 而对语境进行‘计算的前提是量化语境,本文的语境如果要量化的话。可以做如下尝试:

变量定义: 时间,地点, 事件,主体、 人数1, 人数2, 原因、 结论、 进行

defines var : time, address, event, object, diedcount, hurtedcount,cause, result, doing,

语境量化后,所有的计算都在该变量基础上进行,这样可以有效回避前后语义出现不一致的情况。

但百度工具在翻译时显然缺少如此的计算,因此才会出现如下的错误:

三、结论

通过对采样文本的翻译结果从7个角度分析,我们可以得出结论,从信息学角度上来讲,哪怕没有在语法上作出准确的对应,如果能把词汇对应出来,对文本的理解还是有很高的辅助作用,因此从信息学角度来看,机器翻译已经做得不错,而且很有必要。

但从词汇学、形态学、统词学的标准看,其表现似乎很难达到100%,总是存在无法解析的形式、无法识别的词汇、无法准确理解的语法等。这也是计算机本身无法克服的。

参考文献

[1]石定栩《乔姆斯基的形式句法—历史进程与最新理论》北京语言大学出版社 2007.

[2]海伦娜 柯顿,《语言与儿童》外语教学与研究出版社 2011.

[3]王文斌,《隐喻的认知构建与解读》上海外语教育出版社 2007.

[4]束定芳,《认知语义学》上海外语教育出版社 2008.

[5]F.Ungerer 《认知语言学入门》外语教学与研究出版社2007.

[6]吕昭君,《以词尾分析器开发为目的韩国语形态研究》2014.

[7]刘冀伟,《与认知科学概论-神经元》 北京科技大学 2015-7.

[8] http://fanyi.baidu.com/ 百度翻译工具.

猜你喜欢
韩语
大学生韩语学习动机的实证研究
韩语称赞及应答言语行为的语用学研究
中级韩语课混合式教学模式探究
韩语固有惯用语的认知机制
如何提高学生学习韩语的积极性——以《综合韩语》课程为例
WebQuest模式下自适性基础韩语学习方案探讨
韩语精读教学模式的改革与创新——对分课堂
语用学视角下的韩语非真诚道歉言语行为
韩语体词重叠词的语义特点
对比分析法在韩语汉字词教学中的应用