乌兹别克语—维吾尔语双语语料库构建平台的设计与实现

2017-06-05 13:37阿西穆·托合提早克热·卡德尔吐尔根·
电脑知识与技术 2017年7期
关键词:维吾尔语

阿西穆·托合提 早克热·卡德尔 吐尔根·依布拉音 艾山·吾买尔

摘要:在语言研究和机器翻译中,创建对齐的语料库是极其重要的基础工作之一。由于乌兹别克语和维吾尔语之间存在着一定的相似性,待翻译的乌兹别克语句子和转换得到的维吾尔语句子的语法结构和词序是相似的。该文利用两种语言之间的这种相似关系设计并实现了乌兹别克语一维吾尔语双语语料库构建平台,用该平台可以简单的转换字母生成译文,并对原文和译文分词,不仅实现句子级别的对齐任务,还能实现词语级别的对齐任务。用该平台已经构建了包含8124条句对的双语对齐语料库。

关键词:鸟兹别克语;维吾尔语;双语语料库;转换规则

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0001-02

1背景

随着一带一路战略的提出,中亚地区各国家之间的政治、经济、文化交流越来越深入,在这种广泛交流中,语言成为最大的障碍。为解决语言沟通问题,需要研究并实现中亚主要语言之间的机器翻译系统。维吾尔语和乌兹别克语都属于阿尔泰语系突厥语族,这两种语言的构词法和语法很相似,因此实现这两种语言之间的机器翻译系统,比其他语言之间的机器翻译系统更加简单。乌兹别克语一维吾尔语机器翻译系统不仅能解决这两个民族之间的交流问题,还能为实现汉语和乌兹别克语机器翻译提供基础。机器翻译系统中最关键的部分是双语语料库,双语语料库的质量和规模直接影响最终的结果。双语语料库的构建过程比较繁琐,需要借助一定的工具才能实现高质量的双语语料库。因此本文利用C#语言设计并实现了乌兹别克语一维吾尔语双语语料库构建平台。该平台不仅可以存储语料数据,还能对双语语料进行一定的加工处理,为机器翻译做好基础工作。

2工具设计与实现

2.1开发思路

乌兹别克语一维吾尔语双语语料库平台的最终目标是为了更简单的构建对齐语料库。为了能够快速的构建语料库,首先要分析乌兹别克语和维吾尔语词语、句子结构和词法形式并对比乌兹别克语和维吾尔语句子构词循序和和位置。平台中乌兹别克语到维吾尔语系统翻译和人工翻译互相结合,然后再进行人工纠正,最后保存乌兹别克语一维吾尔语句对,完成句对库的建设。同时,因两种语言的句子结构相同,词数相同的句子按空格分词,生成对齐的乌兹别克语一维吾尔语单词对齐表并保存数据库,建库的同时不断地扩展词典,引用结合词典和规则的方法更简单更快的构建双语对齐的语料库。

构建语料库步骤如下:

1)先将乌兹别克语文本输入到工具的文本框;

2)然后对乌兹别克语按转换规则进行转换生成译文并人工纠正句子;

3)再次把翻译好的乌兹别克语和维吾尔语言平行句对进行分词并保存数据库。

2.1.1乌-维字母对应关系

乌兹别克语有29个字母,包括6个元音,23个辅音;维吾尔语有32个字母,8个元音,24个辅音。通过研究发现乌兹别克语和维吾尔语之间可以使用字母转换能得到翻译结果,虽然准确率没有达到可以直接使用的程度,但有助于进行后续的机器翻译。下面是乌兹别克语—维吾尔语语言字母对照表如下表1所示;

表1可以看出乌兹别克语跟维吾尔语的字母数量不同,字母之间存在一对一和一对多对应关系,本文考虑一对一的情况来翻译乌兹别克语文本。

2.1.2平台工作流程

首先输入乌兹别克语文本,用规则或人工翻译成维吾尔语文本,准备好句对后保存到数据库。然后用简单的分词办法把句对分词,查看分词结果是否正确,对齐的單词是否合理,如果正确则保存数据库。

2.2数据库设计

用本文设计的平台将待译文本翻译完成后,把所有预备的语料存到该数据库中,然后进行句对的分词和对齐后,可以从该表中浏览所有的句对并对它们进行相应的操作,比如删除、修改、查询等。数据库是用mysql5.5完成的,下面是单词和句子数据表的详细设计:按照上述设计建立表后,把句子和分好的单词保存在相应的数据表,以便后期操作。

2.3程序设计

程序的功能有查询数据库内容、分页、读文件、保存文本、转换文本得到译文、分词、分好的单词保存数据库和文件、清除信息、新词添加和查看添加的新词等。程序是用C#在visuat-studi02016环境下下开发的,C#开发语言是面向对象高级开发语言,对于开发桌面应用上是最好的选择,随着信息技术的发展,广泛引用在信息处理上。程序截面图如下图2所示:

下面是转换功能伪代码:

以上代码中uzWord是句子里面的一个词,UzUyDict是乌兹别克语一维吾尔语词典,如果能找到匹配的单词了,就不需要使用规则。UzUyRuleTable是转换规则库,在词典里找不到匹配的单词,则用规则来转换字母生成翻译。

分词是译文生成后按照乌兹别克语句子和维吾尔语句子按照空格来分词,如果词数相同表示每个维吾尔语单词对应着同位置的乌兹别克语单词,则可以直接分词保存到数据库,如果词数不同,对分词的结果做适当的改正保存数据库或可以用“其他新词”窗口添加词组。如果一个乌兹别克语单词表示的意思是一个词组,那应该做适当的调整来保存到数据库。

3结束语

乌兹别克语一维吾尔语双语语料库构建平台能够帮助用户简单快速地建立双语语料库。通过该平台把乌兹别克语句子翻译成维吾尔语句子并保存数据,同时也可以将句对分词,快速地建立词对并保存到词典里。此系统不仅能引用于乌兹别克语一维吾尔语之间的双语语料库建立,还能使用在哈萨克语一维吾尔语,乌兹别克语一哈萨克语等突厥族的语言中,只需要建立一个字母对齐规则库。

猜你喜欢
维吾尔语
浅析维吾尔语表可能语气词
统计与规则相结合的维吾尔语人名识别方法
维吾尔语指示词的语用研究
维吾尔语话题的韵律表现
中国维吾尔语、塔吉克语亲属称谓对比研究
指称在维吾尔语语篇中的衔接方式及其功能
维吾尔语主谓句SV句的语义结构分析
维吾尔语词重音的形式判断
汉语动结式在维吾尔语中的表现形式
现代维吾尔语中“-0wat-”的进行体特征