汉哈机器翻译中的文字转换技术研究

2016-04-14 11:12祖力克尔江艾孜海尔江艾孜尔古丽
电脑知识与技术 2016年5期
关键词:机器翻译自然语言处理

祖力克尔江+艾孜海尔江+艾孜尔古丽

摘要:汉哈机器翻译指的是汉语和哈萨克语之间通过利用机器翻译的一种翻译方法。如今,在政府、学校等场所汉语和哈萨克语需要互相翻译,而很多时候都是利用书面和人工方法来翻译,这种传统的方法既浪费时间又需要很多人的参与。该文章研究的汉哈机器翻译是利用谷歌翻译先把汉语翻译成斯拉夫文字的哈萨克文再通过文字转换功能把翻译出来的结果转换成新疆目前用的现行哈萨克文(以阿拉伯文字为基础的哈萨克文),利用了优秀的开发工具Microsoft VisualStudio 2010。汉哈机器翻译系统的意义在于机器翻译是计算机科学领域智能翻译的一个重要方向,通过本系统可以很方便的把汉语翻译成哈萨克文。

关键词: 自然语言处理;汉哈翻译;机器翻译;哈萨克文翻译

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)05-0166-03

Abstract: Chinese (language)-Kazakh machine translation is one kind of translation month through the use of machine translation between Chinese language and Kazakh language. Nowadays, in the government, schools and other places ,Kazakh and Chinese need to translate to each other, but people always write and by using artificial methods to translation, this traditional approach is a waste of time and requires the participation of many people. This article research of Chinese (language)-Kazakh machine translation is to use Google translator to translate Chinese into Cyrillic text Kazakh first to make the text through the result of the conversion function to translate into xinjiang current with current Kazakh (the Kazakh article) on the basis of the Arabic script, takes advantage of the excellent development tools of Microsoft Visual Studio 2010. Chinese (language)-Kazakh translation systems is that machine translation is the meaning of intelligent translation of an important direction in the field of computer science, through this system can easily translate Chinese into Kazakh.

Key words:natural language processing; Chinese (language)-Kazakh translation; Machine translation; Kazakh translation;

1 概述

随着现代计算机科学技术的快速发展,人类渴望利用机器翻译而达到突破语言障碍的愿望已经初步实现了,尤其是对双语的研究越来越吸引了专家的重视和研究。研究成果证实了机器翻译的重要性,利用电子计算机把一种语言翻译成另一个目标语言达到计算机,人们互相之间的语言障碍,使得沟通更加方便。机器翻译可以通过电子计算机上的软件,网页可以实现,其中,最典型的是目前最流行的谷歌在线翻译(Google Translate),做到了90种语言的相互翻译。

哈萨克语属于突厥语系。文字有两种,分别是现行哈萨克文和斯拉夫哈萨克文,现行哈萨克文与斯拉夫哈萨克文都是用于表达哈萨克语言的拼音文字,其中,国内用的哈萨克文是以阿拉伯字母为基础的现行哈萨克文。由于哈萨克语有黏着语的特殊性,单词通过附加成分会改变意义,所以研究哈萨克语跟其他语言之间机器翻译的研究较复杂。我国在上世纪九十年代启动“少数民族文字处理技术开发”项目,针对少数民族语言的研究工作拉开序幕,虽然要实现真正意义上的遍及少数民族的机译工作需要比较长的时间,但也欣喜地看到这方面的工作已陆续展开并不断取得进展。目前国内研究仅仅限于单词,最多是词组,但仍然有很多学者和爱好者对哈萨克语与其他语言之间机器翻译没有停止过研究,其中国内最典型的是Kazakhsoft网页版的在线汉哈翻译。

在国外,因为哈萨克语是哈萨克斯坦的国语,对哈萨克语跟其他语言之间机器翻译的研究比较突出,其中典型的是‘Google Translate + Kazakh'项目,谷歌翻译(Google Translate)是谷歌公司提供的一项免费翻译服务,可实现90多种语言之间的即时翻译。因为历史的原因,哈萨克文字在不同国家,不同地区有了不同的文字,目前有两种文字,一个是哈萨克斯坦用的斯拉夫字母为基础的斯拉夫哈萨克文字,中国哈萨克文字是以阿拉伯字母为基础的现行哈萨克文。因为文字不同语言相通,所以,可以用谷歌的在线翻译,但需要转换功能。

本研究是通过谷歌翻译将汉语翻译成斯拉夫哈萨克语,再通过现行哈萨克文与斯拉夫哈萨克文之间的字母转换,最终实现汉语与新疆哈萨克文字的翻译。

2 斯拉夫哈萨克文与现行哈萨克文转换规则研究

2.1 斯拉夫哈萨克文

以斯拉夫字母为基础的哈萨克文字。这种文字形式共有 37个音素,42个字母。除原有的斯拉夫字母之外,还增加了9个字母,这9个字母不出现在俄语词里,是哈萨克语特有的字母。另外还有 13个字母用来拼写外来语(俄语)借词时使用。

2.2 现行哈萨克文

所谓的现行哈萨克文文字是以阿拉伯字母为基础的哈萨克文文字。另外 1959 年设计了拉丁字母为基础的新文字方案,1982年恢复原先的阿拉伯字母基础上的哈萨克文文字。共有33个音(音位),其中9个是元音,24个是辅音,有些字母有两种书写形式,有些有四种书写形式,根据词里的位置,书写形式发生变化。书写方向是从右向左。

2.3 斯拉夫哈萨克文与现行哈萨克文转换规则

如无特别说明,现行哈萨克文应先转换为对应的斯拉夫哈萨克文的小写形式,然后再根据斯拉夫哈萨克文的书写规则进行必要的大小写转换。其中现代哈萨克文与斯拉夫哈萨克文字母进行一一对换非常重要,对应情况表1--6所示。

3 汉哈机器翻译关键技术研究

汉哈机器翻译的原理是先利用谷歌在线翻译将中文翻译成斯拉夫文字的哈萨克文,再通过把斯拉夫文字的哈萨克文转换成以阿拉伯为字母基础的现行哈萨克文生成翻译的结果。

3.1斯拉夫哈萨克文与现行哈萨克文转换算法

(1)读取一个原字符;

(2)根据字符检查合法性;

(3)把斯拉夫哈萨克文字符转换到对应的现行哈萨克文字符;

(4)对现行哈萨克文字符进行选型;

(5)转换过的现行哈萨克文字符来替换斯拉夫哈萨克文字符;

(6)如果转换完,就退出过程否则重复(1) (6) 如果转换完,就退出过程否则重复(1)。

3.2 研究工作及思路

汉哈机器翻译软件可以帮助利用计算机来翻译中文与哈萨克文的一个软件。比起传统的人工方式翻译,计算机机器翻译通过转换生成现行哈萨克文,速度快,方便,在很短的时间内可以翻译长篇文章并且导出成word。

根据汉哈机器翻译的工作流程,完成了汉哈机器翻译系统的设计和实现。

(1)系统通过输入界面输入翻译的文字把翻译结果输出到另一个界面。

(2)系统在翻译过程中先在后台把中文翻译成斯拉夫文字的哈萨克文再通过转换功能把斯拉夫文字转换成以阿拉伯文字为基础的现行哈萨克文。

(3)导出成word并保存。

4 结束语

本文利用目前最流行的谷歌在线翻译(Google Translate),汉语直接翻译斯拉夫哈萨克文,然后翻译斯拉夫哈萨克文转换现代哈萨克文。本研究的关键问题,解决斯拉夫哈萨克文转换现代哈萨克文。首先研究斯拉夫哈萨克文字母表与现代哈萨克文字母表进行比较、分析,总结对应转换规则。例如:表1—表6是一个转换规则。语言角度考虑语言次序固定,没有必要其他方面展开工作。经过多年努力探讨了基于谷歌在线翻译器(Google Translate)的翻译方法。但是本方法对谷歌在线翻译器(Google Translate)的依赖性很强。需要进一步展开新的思路和方法。

参考文献:

[1] 刘金龙,张岩,董军.斯拉夫哈萨克文与现行哈萨克文编码字符转换规则的探究[J].电子测试, 2014(19).

[2] 萨合多拉·木巴拉克,古丽拉·阿东别克.哈萨克语阿拉伯文与斯拉夫文间的智能转换[J].计算机工程与应用, 2014(18):226-229.

[3] 新疆维吾尔自治区民语委.哈萨克语正音法基本规则[S],1997.

[4] 古丽扎达· 海沙,古丽拉· 阿东别克.我国哈萨克族词汇与哈萨克斯坦词汇间自动转换的研究[J].计算机应用与软件, 计算机应用与软件,2012,29(7):3-5.

[5] 新疆维吾尔自治区民语委.现代哈萨克语[M].新疆人民出版社,2002:182-18.

猜你喜欢
机器翻译自然语言处理
信息时代下机器翻译的“可译”与“不可译”
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
基于组合分类算法的源代码注释质量评估方法
词向量的语义学规范化