斯拉夫哈萨克文与现行哈萨克文编码字符转换规则的探究

2014-02-16 07:38
电子测试 2014年19期
关键词:斯拉夫哈萨克空格

(中国科学院新疆理化技术研究所,新疆乌鲁木齐,830011)

斯拉夫哈萨克文与现行哈萨克文编码字符转换规则的探究

刘金龙,张 岩,董 军

(中国科学院新疆理化技术研究所,新疆乌鲁木齐,830011)

哈萨克语在发展变化的过程中,在世界范围内形成了基于同一语言的两种文字形式的特殊情况,分别是国外的以斯拉夫文字母为基础的哈萨克斯拉夫文字,称之为斯拉夫哈萨克文,以及我国的以阿拉伯文字母为基础的哈萨克阿拉伯文字,称之为现行哈萨克文。由于两种哈萨克文发音相同,而且均是一音一字的文字形式,所以斯拉夫哈萨克文与现行哈萨克文是可以通过规则互相转换的,但至今并没有相关的国家或地方标准对转换规则进行明确描述。因此,本文通过对斯拉夫哈萨克文和现行哈萨克文的研究,提出两种文字的字符编码转换规则。

斯拉夫哈萨克文;现行哈萨克文;转换规则

0 引言

哈萨克文是一种拼音文字,主要有两种书写形式,一种是以斯拉夫字母为基础的斯拉夫哈萨克文,主要在哈萨克斯坦、乌兹别克斯坦、俄罗斯、蒙古国、土库曼斯坦、吉尔吉斯斯坦和土耳其等国家使用,使用人口近1200万;另一种是以阿拉伯字母为基础的现行哈萨克文,是我国哈萨克族民众使用的书面文字,共有约154万人使用。由于两种文字的书写方式截然不同,在国内的哈萨克民众对外交流往来时,无法认知国外使用的斯拉夫哈萨克文,造成诸多不便,而现在,世界范围内的交流与合作日益频繁和重要,迫切需要制定准确严谨的字符编码转换规则。

1 与编码字符转换有关的斯拉夫哈萨克文书写规则

(1) 由42个西里尔字母构成,书写方向是从左向右;

(2) 有大写字母和小写字母之分,句首字母、双引号内的首字母、专有名词的首字母以及缩略语的字母须大写

(3) 存在不发音也无实意的软音符“Ь”,和硬音符“Ъ”。

2 与编码字符转换有关的现行哈萨克文书写规则

(1) 有33个阿拉伯字母组成,书写方向是从右向左;

(2) 没有大小写之分,但根据字母在单词中位置的不同,有四种形态变化,分为独立体、首写体、中写体和尾写体,并有三种其特有的标点符号;

(6) 缩略语的每个字母之间有一个且仅有一个空格。

3 斯拉夫哈萨克文编码字符转换为现行哈萨克文编码字符的规则

3.1总则

3.1.1 扩展区编码字符的转换

斯拉夫哈萨克文编码字符转换为对应现行哈萨克文字母名义形式的编码字符就完成了转换工作。但是某些信息系统不能依据现行哈萨克文字母名义形式的编码字符选择正确的变形显现形式编码字符用于显示。针对这种信息系统,需将现行哈萨克文字母名义形式的编码字符依据现行哈萨克文的书写习惯进一步转换为正确的变形显现形式编码字符。

3.1.2 斯拉夫哈萨克文字母大小写形式的处理

在斯拉夫哈萨克文编码字符转换为现行哈萨克文编码字符的过程中,对同一个西里尔字母的大写形式和小写形式采用同样的方式处理。

3.1.3 镜像字符的处理

由于书写方向不同,在斯拉夫哈萨克文转换为现行哈萨克文的过程中,需将一个镜像字符的编码字符转换为与之镜像的另一个编码字符。表1列出了部分镜像字符的镜像关系,完整的镜像字符列表可以参考unicode。

表1

3.2一个西里尔字母与一个阿拉伯字母的转换

(1) 表2所示的29个斯拉夫哈萨克文字母,其编码字符直接转换为对应的现行哈萨克文字母的编码字符。

表2

(2) 如果1个单词中存在多于1个如表3所示的斯拉夫哈萨克文元音字母,则单词中这些元音字母除第一个外,其它全部直接转换为对应现行哈萨克文元音字母的编码字符。

表3

(3) 如果单词中存在表3所示的斯拉夫哈萨克文元音字母,同时单词中也存在如表4所示的斯拉夫哈萨克文字母,则单词中这些斯拉夫哈萨克文元音字母全部直接转换为对应现行哈萨克文元音字母的编码字符。

表4

(4) 表5所示的斯拉夫哈萨克文字母й和и,其编码字符都转换为现行哈萨克文字母的编码字符,斯拉夫哈萨克文字母э和е都转换为现行哈萨克文字母的编码字符。

表5

3.3一个西里尔字母与多个阿拉伯字母的转换

(1) 如果1个单词中存在至少1个如表3所示的斯拉夫哈萨克文元音字母,且单词中不存在如表4所示的斯拉夫哈萨克文字母,则单词中这些元音字母的第一个转换为对应现行哈萨克文元音字母的编码字符,同时在词首添加字符。

(2) 表6所示的4个斯拉夫哈萨克文字符直接转换为对应的现行哈萨克文字母序列的编码字符。

表6

(3) 斯拉夫哈萨克文字符ц,当出现在非词首时,直接转换为对应的现行哈萨克文字母序列的编码字符。当出现在词首时,需根据专用词汇表确定转换为现行哈萨克文字母或字母序列的编码字符。

3.4Ъ和Ь的处理

斯拉夫哈萨克文字母Ъ和Ь的编码字符在转换为现行哈萨克文时忽略。

3.5缩略语的编码字符转换

相邻的多个大写斯拉夫哈萨克文字母编码字符转换为现行哈萨克文编码字符时,直接转换为对应的现行哈萨克文编码字符,然后在现行哈萨克文字母编码字符之间加1个空格编码字符。

3.6标点符号的编码字符转换

现行哈萨克文中因为从右向左的书写方向,有三个特有的标点符号,分别是逗号() ,问号()和分号(),转换为对应的斯拉夫哈萨克文标点符号的编码字符逗号(,),问号(?)和分号(;)。

3.7非现行哈萨克文编码字符的转换

3.7.1 斯拉夫哈萨克文中阿拉伯字符的处理

斯拉夫哈萨克文中的阿拉伯字符应保留不变,同时在阿拉伯字符的前后分别增加零宽空格和零宽不中断空格。

3.7.2 零宽空格和零宽不中断空格的处理

忽略斯拉夫哈萨克文中的零宽空格和零宽不中断空格,同时零宽空格和零宽不中断空格之间的字符保留不变。

3.7.3 布局和格式控制字符的处理

斯拉夫哈萨克文中的布局和格式控制字符保留不变。

4 结语

当今世界,各个地的交流和合作日益密切,通过转换规则和根据转换规则设计开发的转换软件,使国内的哈萨克民众能够认知国外的斯拉夫哈萨克文,这对整个哈萨克民族之间的沟通和了解,以及中国与哈萨克斯坦等国的政治经济文化的交流都有着重大意义。

[1] 新疆维吾尔自治区民语委,《哈萨克语正音法基本规则》,1997年。

[2] 古丽扎达·海沙,古丽拉·阿东别克,《我国哈萨克族词汇与哈萨克斯坦词汇间自动转换的研究》计算机应用与软件,第29 卷第7 期。

[3] 新疆维吾尔自治区民语委,《现代哈萨克语》,新疆人民出版社,2002:182-18。

刘金龙(1983.1-),男,汉族,硕士,研究方向:计算机技术。

The study on the conversion rules between character encodings of Slavic- based Kazakh and Arabic- based Kazakh

Liu Jinlong,Zhang Yan,Dong Jun
(Xinjiang Technical Institute of Physics & Chemistry,Chinese Academy of Sciences,Urumqi,830011,China)

Kazakh language,in the process of its development,has evolved two different writing forms globally- Slavic-based Kazakh and Arabic-based Kazakh.Slavic- based Kazakh is derived from the Slavic letters.But Arabic- based Kazakh is derived from the Arabic letters,which is also called the modern Kazakh. The two writing Kazakh have the same pronunciation, and there is also sound-to-spelling correspondencein Kazakh,so the conversion between the two writing forms are feasible under certain rules.But until now, there is no clear description of the conversion rules in any national or regional standards.Thus,based on the study of the Slavic Kazakh and Arabic Kazakh,this paper advanced a conversion rule between character encodings of the two writing forms.

Slavic- based Kazakh;Arabic- based Kazakh;conversion regulations

猜你喜欢
斯拉夫哈萨克空格
早期斯拉夫派宗教哲学家对德国唯心主义的阐释与批判
阿依努尔——献给一位哈萨克支教女孩
趣填成语
空格填数
你来补缺的数
一件与卫拉特人有关的清代哈萨克文档案文书研究(哈萨克文)
哈萨克民族医学校企合作教学模式初探
中医哈萨克医结合治疗小儿遗尿56例
东斯拉夫诸语言
西斯拉夫诸语言