汉蒙机器翻译系统中量词翻译研究

2010-06-05 02:43王斯日古楞斯琴图那顺乌日图
中文信息学报 2010年5期
关键词:蒙古文蒙古语数词

王斯日古楞, 斯琴图, 那顺乌日图

(1. 内蒙古师范大学 计算机与信息工程学院, 内蒙古 呼和浩特 010022;2. 内蒙古师范大学 网络中心, 内蒙古 呼和浩特 010022;3. 内蒙古大学 蒙古学学院, 内蒙古 呼和浩特 010022)

1 问题的提出

关于汉蒙机器翻译,我们曾经做过基于规则的研究[1],基于实例的研究[2]和基于短语的统计方法的研究[3]。为了充分利用各种机器翻译方法的优点,我们正在开展基于混合策略的汉蒙机器翻译系统的研究。在汉蒙统计机器翻译研究的实验中,经过分析,发现有大量的量词翻译错误。例如:对于下面带有量词的句子的翻译存在问题如下(注:由于我们试验中使用的蒙古文语料全部是内蒙古大学拉丁转写形式,所以本文中出现的蒙古文也直接使用了拉丁形式):

(1) 输出:SIREGEN DEGER_E TALBIJV BAI H0YAR TVS T0LI-DV

问题:将量词“本”翻译成其代词意义,如“本文内容:TVS HICIYEL-UN AGVLG_A”中“本”被翻译成“TVS”,而“两本词典”应该翻译为“H0YAR DEBTER T0LI”或“H0YAR T0LI”,后一种翻译中量词可以省略。

(2) 输入:这是一只银手镯

输出:ENE B0L NIGE LE MONGGON BAGVV

问题:“一只银手镯”中量词“只”的翻译应该为空,就是“NIGE MONGGON BAGVV”,而系统译文中将翻译成“LE”,与“只有”中的含义类似。

为了解决这类量词翻译错误,我们引入了量词表。具体做法是:首先将语料中出现的所有量词抽出来,之后,将这些词翻译成蒙文,建立汉蒙量词对应表,然后在对汉语分词同时对其进行词性标注,根据标注选出量词进行翻译。最后将带翻译的文本输入到解码器进行解码。

2 关于汉语和蒙古语中的量词

汉语语法的一个重要特点就是量词非常丰富[4],而有些语言(如英语)中没有量词,这增加了汉外机器翻译的复杂性。《现代汉语语法信息词典》中一共收录了256个量词。在《现代汉语语法信息词典详解》[5]中对汉语量词的描述为:

(1) 量词是放在数词或指示代词“这”、“那”后面的黏着词。数词与量词组合而成的数量词组是体词性的,量词还有区分名词类别的作用。量词重叠能指代名词。

(2) 量词分名量词,时量词和动量词三个小类。名量词又分为个体量词,度量词、集体量词、种类量词、不定量词、容器量词、成形量词、倍率量词等子类。

(3) 度量词(“公斤、米”)和个体量词(“匹、头、棵”)是典型的量词。

(4) 多数容器量词(“碗、桶、车”等)是由名词兼的。

(5) “些、点儿”是不定量词,它们前面的数只能是“一”。

(6) “片、块、股”等是成形量词,一部分成形量词(“摊、堆、捆”)是动词兼的。

(7) “倍、成、分”等量词总接在数词后使用。

(8) 借用名词(“省、市、县、班、排、连、头、脸”等)作临时量词的现象很普通。词典中不可能将这些名词全做为量词收入,而在名词库中设置“临量”的属性字段。

蒙古语中也有量词。它是用来表示事物和行为的计量单位的词[6]。蒙古语量词也和其他语言一样,有固定量词和临时量词之分[7]。像ALDA(度)、DELIM(半度) 、IMAHV(寸)是固有词,JING(斤)、LANG(两)、KILVGRAM(公斤)等汉语借词和国际通用量词,ATHV (把)、GAJAR(里)等属兼类固定量词。AYAG_A(碗),DVSVL(滴)、 JAGVN(世纪)等则属临时量词。蒙古语量词按其意义可分为度量词(ALDA度)、时量词(H0N0G昼夜)和集合量词(SURUG群)。在蒙古语语法信息词典量词分库中,按照信息处理用蒙古文词语标记集国家标准,将蒙古文量词分为名量词(Qn)、时间量词(Qc)和动量词(Qv)三类。

蒙古语语法信息词典量词分库中共收录了144个量词。汉语和蒙古语中虽然都有量词,但是这两种语言中的量词并不是一一对应的,在对汉语量词和蒙古语量词对应关系进行研究的基础上,我们构建了汉蒙量词翻译表。

3 汉蒙量词词表的构造

文献[8]把基于TBED自动获取的规则应用在汉英机器翻译的数量词翻译中,提高了系统翻译性能。在汉蒙机器翻译中我们提出用量词表来解决汉蒙量词翻译问题,我们首先构造了汉蒙两次对应表。首先收集了汉语中出现的量词。除了《现代汉语语法信息词典》中的量词外,我们也从语料库中抽取了部分临时量词。语料库主要是使用了北京大学的《人民日报》一个月的标注语料库。通过程序我们对《人民日报》语料中出现的量词进行了统计分析。结合语法信息词典和语料库的统计我们构造了汉语的量词表,在此基础上通过大量的实例分析给出了相应蒙古文译文。在具体翻译时出现的问题及其解决方法如下:

(1) 一对一关系:汉语中的大多数度量词在蒙古语中都有相应的译文,而且翻译是一一对应关系,只要在语料中出现过,翻译结果就应该正确,例如:公斤(KIL0gRAM)、千伏(KIL0W0Lt)、海里(MILI)、瓶(L0NGH0)等。度量词的翻译不能省略。我们把这类量词收集后放到量词表中直接翻译。在表1 中给出了部分度量词及其翻译。

(2) 一对多关系:有些汉语量词对应到蒙语中有多个译文,就是一对多的情况,如表1所示。

表1 汉蒙量词翻译中一对多示例表(一对多)

续表

对于一对多的量词,我们把他们从量词表中去掉,将它的翻译任务留给统计解码器,解码器将根据概率值进行翻译。为了保证其中每个量词的多个可能的译文都在短语表中出现,我们将一对多的量词的每个量词的可能翻译以短语对的形式提供给双语平行语料库。

(3) 一对零关系:在汉语中量词非常丰富,并且在表示数量的时候一般要求必须使用。但是在汉语中有些使用量词的场合对应蒙古语中不用量词。对这些量词我们可以把它们看成是空对应,即汉语中的量词对应的蒙古文译文是空的。翻译时我们把这类量词用空串替换就可以。例如:“一个人”翻译成 “NIGE HOMON”,“三辆车”翻译成“GVRBAN TERGE”,“两只老鼠”翻译成“H0YAR HVLVGAN_A”,其中的量词“个”、“辆”和“只”在蒙古语译文中是不用翻译的。

(4) 多对一关系:在翻译中,有多个汉语量词对应到同一个蒙古语量词的情况,就是多对一的情况。例如:汉语中的量词“伙、派、批、章、帮、集”等都翻译成蒙古文中的 “BOLOG”;“样、种、桩” 等都翻译成蒙古文中的 “JUIL”;“遍、次、回、架次、起、趟” 等都翻译成蒙古文中的 “VDAG_A”。对于多对一的情况,我们在量词翻译表中直接给出译文进行翻译就可以。

(5) 在汉语中大多数量词可以重叠,而且重叠后的量词出现在数词后面时依然是量词。对此我们在翻译时,在相应译文后加一个BURI(或NIGEBURI)进行翻译即可。但是重叠后的量词一般很少在数词后出现。

4 量词处理算法

为了解决量词翻译错误,我们在预处理中对量词进行了翻译。为此我们设计和实现了量词处理模块。算法描述如下:

输入:汉语句子;

处理: (1) 对句子进行切分和词性标注;

(2) 在普通量词翻译表中查找句子中所有量词;

(3) 如果找到,就根据翻译表进行翻译;

输出:量词翻译后的句子。

其中,找出所有量词是指根据量词的概念,出现在数词后面或者代词“这、那”后的量词。即词性标记为(m,q)序偶或(这/r,q)(那/r,q)序偶。普通量词翻译表中放的是没有歧义的一对一、多对一和一对空的量词的翻译。

5 实验及其分析

我们在汉蒙统计机器翻译系统中按照上面算法实现了量词处理模块,然后进行了对比实验,对于下列具体句子的翻译过程为:

输入:这是一支优美的曲调。

不进行量词处理时翻译过程为:

分词之前:这是一支优美的曲调。

分词之后:这/r 是/v 一/m 支/q 优美/a 的/u 曲调/n 。/w

去掉标记后:这 是 一 支 优美 的 曲调 。

翻译结果:ENE B0L NIGE SIRHEG G0Y0 SAYIHAN DAGVV-YIN AYAS .

进行量词处理时翻译过程为:

分词之前:这是一支优美的曲调。

分词之后:这/r 是/v 一/m 支/q 优美/a 的/u 曲调/n 。/w

处理量词后:这/r 是/v 一 优美/a 的/u 曲调/n 。/w

去掉标记后:这 是 一 优美 的 曲调 。

翻译结果:ENE B0L NIGE G0Y0 SAYIHAN DAGVV-YIN AYAS .

在本句子中,量词“支”在蒙古文中应该不进行翻译,经过量词处理后,可以得到符合蒙古语的正确译文。我们用自动评测系统对系统性能进行了评测,语言模型为三元。在政府文献领域(TS1)和日常对话领域(TS2)的评测结果如表2所示。

表2 不带量词表与带量词表的系统对比实验

试验结果表明,在汉蒙统计机器翻译系统中对于量词的预处理会提高系统的翻译性能。在政府文献领域BLEU值提高了0.22,在日常对话领域BLEU值提高了0.31。在政府文献领域提高较低的原因是政府文献测试语料中出现地量词个数比日常对话测试语料中出现地量词个数少。通过此方法我们可以比较准确地将汉语中大量存在的量词翻译成蒙古语。各种对应关系的量词个数如表3所示。

表3 各种对应关系中汉蒙量词个数

在《现代汉语语法信息词典》中没有收录临时量词,我们量词表中收录了部分临时量词。通过实验分析,量词表的引入对于处理临时量词和一对空的汉蒙量词翻译是非常有效的。在汉语中量词虽然是很小的集合,但是它的应用非常广。目前对没被收录的量词和一对多的量词我们直接在统计解码器中进行翻译。汉蒙量词翻译表实际上给出了部分量词的翻译模板,具有歧义的部分用统计解码器进行翻译,这样可以将规则和统计方法各自的优势发挥出来。

6 总结与展望

本文对汉语和蒙古语中的量词翻译进行研究的基础上,提出了使用量词表进行翻译,总结出了一对一、多对一、一对零和一对多等汉语量词到蒙语量词翻译的对应关系,给出了各种对应中的翻译方法。试验证明这种方法可以有效地解决翻译中出现的量词错误,尤其是对临时量词和一对空的量词翻译非常有效。

通过对量词翻译的实验,我们发现,在统计机器翻译系统中,对于数词、量词等规则性较强的词类,如果用规则或模板的方法进行处理,会有效的提高统计系统的翻译性能。 关于汉蒙数词翻译的方法,在文献[9]中进行了详细的研究。下一步,我们将数词和量词结合起来,将规则和模板方法应用在统计机器翻译中,进一步提高汉蒙机器翻译系统的性能。同时临时量词和外来度量词也很多,所以量词表也有必要不断的扩充和完善。

[1] 那顺乌日图,刘群,巴达玛放德斯尔.关于汉蒙机器辅助翻译系统[J].阿尔泰学报,2001.

[2] 侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72.

[3] 王斯日古楞,斯琴图,那顺乌日图.基于短语的汉蒙统计机器翻译研究[C]//中国少数民族自然语言处理技术研究与进展——第二届全国少数民族自然语言处理学术研讨会论文集,2008.

[4] 袁竹筠.浅谈汉英量词的对比及对外汉语的量词教学[J].辽宁教育行政学院学报,2009,(7):77-79.

[5] 俞士汶,等著.现代汉语语法信息词典详解[M].北京:清华大学出版社,1998.

[6] 清格尔泰.蒙古语语法[M].呼和浩特:内蒙古人民出版社,1991.

[7] 那顺乌日图.蒙古语语法信息词典的框架设计[D]. 呼和浩特:内蒙古大学,2003.

[8] Yang Muyun et al, TBED Based Chinese-English Translation Rule Acquisition[C]//Proc. of International Conference on Natural Language Processing and Knowledge Engineering, IEEE Press, 2003.10.

[9] 雪艳,应玉龙.基于阿拉伯数字中介的汉蒙数词对齐策略[C]//中国少数民族自然语言处理技术研究与进展—第二届全国少数民族自然语言处理学术研讨会论文集,2008:248-256.

猜你喜欢
蒙古文蒙古语数词
基于端到端的蒙古语异形同音词声学建模方法
敖汉旗万寿白塔蒙古文碑文新释
提高翻译水平对年轻一代蒙古语广播工作者的重要性
部分海外藏蒙古文文献及其目录
首届蒙古语RAP专场演唱会——“无线内蒙古MONGOL RAP之夜”
蒙古语-哈萨克语部分词同源关系研究
三田渡汉文满文蒙古文碑文对比研究
对联中数词的艺术运用(下)
对联中数词的艺术运用(上)
英语数词顺口溜等