东巴象形文字基础分类算法研究

2019-12-12 06:05杨玉婷康厚良
软件导刊 2019年11期

杨玉婷 康厚良

摘 要:从构字结构要素分析东巴象形文字,可分为单素字和复素字两类,而单素字又可进一步分为轮廓型和结构型两种。使用分类算法实现不同类型东巴文字的自动分离,有利于独立研究轮廓型、结构型单素字及复素字,提取同类文字的本质特征及不同类型文字间的特征差异。从东巴文字的构字结构要素出发,给出了适用于东巴象形文字自动分类的预处理和分类算法。该算法能实现单素字和复素字的分离,还能实现对单素字中轮廓型和结构型单素字的完全分离。通过实验对算法的准确性进行了验证。

关键词:东巴象形文字;自动分类算法;文字构字结构;文字形态;文字结构

0 引言

东巴文是一种十分原始的图画象形文字,纳西语称“森究鲁究”,直译为“留在木石上的印迹”[1-3]。纳西东巴象形文字作为人类早期的一种图画文字向象形文字、标音文字过渡的文字形式,既具有图画文字以图表意的特点,又具有象形文字中象形、会意、指事、形声的功能[4-6],2003年,使用东巴文撰写的东巴古籍被联合国教科文组织列入世界记忆遗产名录[7]。

东巴象形文字既具有图画文字以图表意的特征,又具有现代文字使用线条表达含义的特点,东巴字的处理过程无法直接使用手写汉字研究成果[8-10],很难直接使用计算机视觉形状处理方法[11-13]。因此,对东巴象形文字图片的处理及文字识别异常困难。

字素作为组成东巴文字形、音、义相统一的最小构字单位,具有明显的图画性特征[14]。基于东巴文字的构字结构要素分析,可分为单素字和复素字两类。单素字指能够直接显示音义的独立文字,复素字指由两个或两个以上字素构成的文字,通过多个字素共同表示音义[15-16],单素字还可进一步分为轮廓型和结构型单素字,如表1所示。

当前对东巴文字的研究大多是利用现有算法直接提取文字的抽象特征,未能结合東巴文字本身的结构和形态[17-19]。因此,使用分类算法实现东巴文字中不同形态文字的自动分离,有利于独立研究轮廓型、结构型单素字及复素字的形态与结构,提取同类文字的本质特征,分析不同类型文字间的特征差异,为东巴文字识别奠定基础,也为研究东巴文字的造字法提供技术支持。

1 东巴象形文字分类

1.1 单素字与复素字分类

复素字构成方法主要包括3种:①在单素字基础上通过缀加元素的方式构成复素字;②使用两个或两个以上字素构成复素字;③通过使用多个单素字并缀加不同元素的方式构成复素字[20],如表2所示。一般地,对于使用第1种方式构成的复素字,若通过在单素字基础上缀加点得到,则仍将它视为单素字。这是因为缀加点会对东巴字的实际分类过程产生较大干扰,但对研究东巴文字的构成不会有太大帮助。

图1显示了复素字中各组成元素的分割效果。由于单素字是不能再分割的文字,即使分割后,单素字所包含的组成元素仍然只有1个。因此,通过统计分割后东巴字中所包含的离散组成元素的总数量,即可快速分离单素字和复素字。

1.2 轮廓型单素字与结构型单素字分类

在单素字中,轮廓型字素通过临摹物体的外在轮廓形状表达实际含义,以其外在轮廓特征反映文字本质,一般包含完整的字符轮廓;而结构型字素使用简单的字符笔划,通过描绘事物的结构表达含义,事物的结构或骨架特征显著,但没有明显的轮廓特征。因此,使用字符的外在轮廓描述轮廓型字素特征,而使用字符结构或骨架描述结构型字素特征。

显然,轮廓型字素特征曲线是字符的外围轮廓,而结构型字素的特征曲线是字符中的字符骨架。因此,要区分两类字素,可通过填充字符特征曲线,然后利用粗网格法比较两者面积进行区分。

1.2.1 东巴文字特征曲线提取

采用Prewitt算子实现东巴文字的特征曲线提取效果如图2所示。其中,由于东巴法师书写东巴文一般使用竹笔,竹笔属于硬笔的一种,使得东巴字的笔画线条粗细基本一致。因此,首先细化文字笔画,去除文字中潜在的干扰成份,然后去除字符中所包含的缀加点元素,减少缀加元素对提取文字特征所产生的干扰,最后采用Prewitt算子提取文字的特征曲线。

1.2.2 字符填充及比较

通过填充可进一步增强结构型单素字和轮廓型单素字之间的差异性,图2显示了两种不同类型单素字的填充效果。有的文字由于闭合性不好,虽然也属于轮廓型单素字,却无法直接提取出完整的字符轮廓。为实现字符轮廓的有效提取,需结合形态学图像处理技术,具体步骤如下:①读取字符,对字符图像进行二值化、细化字符线条、去除字符中干扰点等操作;②采用Sobel算子实现边缘处理,通过膨胀操作填补边缘缝隙。其中,Sobel算子与Prewitt算子类似,区别仅在于选用的模板不同;③膨胀后的图像能够精确显示字符的外围轮廓,但为了突出轮廓型字素的特征曲线,需进一步填充字符中的孔隙;④利用菱形结构元素对填充后的图像进行平滑处理,并采用Prewitt算子提取字符的轮廓曲线。

轮廓曲线提取效果如图3所示。与直接使用库函数提取轮廓曲线相比,本方法通过膨胀、填充和平滑等操作,能够得到更加准确的字符轮廓曲线。

1.2.3 面积比分类法

分析图3中各阶段的处理效果可知,结构型单素字所提取的轮廓与细化结果是相同的,而轮廓型单素字在细化后得到的是字符的外在轮廓曲线。因此,填充轮廓曲线后,两类单素字将呈现出明显的差异性。由此,通过比较字符绑定矩形中表示字符线条的像素点所占的比例,即可快速实现两种类型东巴单素字的分离,具体步骤如下:①计算单素字的外接矩形;②计算填充图中表示文字笔画的像素点总数;③计算文字线条像素点占字符外接矩形总像素点的比例;④若比例大于等于60%则单素字为轮廓型,否则为结构型。

2 实验

使用分类算法对东巴字库中的1 588个东巴字进行分类,得出单素字966个,复素字622个。在单素字中,结构型单素字518个,轮廓型单素字438个,具有争议性的单素字10个,这10个单素字由于文字本身的特点导致文字被错误归类,具体如表3所示。由此可知,单素字和复素字的分类准确率为100%,而结构型单素字和轮廓型单素字的分类准确率为98.996%。

3 结语

对东巴象形文字中不同类型文字的初步分离是东巴文字研究的基础性工作。通过文字的初步分类,使后续研究能更加突出不同类型文字的本质特征,为实现东巴文字的检索和识别研究奠定基础,同时也为研究东巴文字的组合特性,分析单素字、复素字的造字方法及文字的演化过程提供重要的技术分析手段,为其它象形文字的研究提供参考。

参考文献:

[1] 和力民. 试论东巴文化的传承[J]. 云南社会科学, 2004 (1): 83-87.

[2] 和金光. 纳西族东巴文化研究发展趋势[J]. 云南民族大学学报:哲学社会科学版,2007,24(1): 81-84.

[3] 戈阿干. 东巴文化揽胜[J]. 民族艺术研究,1999 (2): 71-80.

[4] 和志武. 试论纳西象形文的特点——兼论原始图画文字、象形文字和表意文字的区别[J]. 云南社会科学,1982(3):71-82.

[5] 方国瑜, 和志武. 纳西象形文字谱[M]. 昆明:云南人民出版社, 2005.

[6] ROCK J F. Na Khi English EncclopedicDictionary(Part I)[M]. Roma: Roma IstitutoItaliano Peril Medio edEstremePrientale, 1963.

[7] 李霖灿. 纳西族象形标音文字字典[M]. 昆明:云南民族出版社, 2001.

[8] 赵继印,郑蕊蕊. 脱机手写体汉字识别综述[J]. 电子学报, 2010, 38(2):405-415.

[9] 丁晓青. 汉字识别研究的回顾[J]. 电子学报,2002,30(9):1364-1368.

[10] 高彦宇,杨扬. 脱机手写体汉字识别研究综述[J]. 计算机工程与应用,2004, 40(7):74-77.

[11] YANG M, KPALMA K, RONSINA J. Survey of shape feature extraction techniques[J]. Pattern Recognition Techniques,Technology and Applications, 2007(11): 1-39.

[12] 周瑜,刘俊涛,白翔. 形状匹配方法研究与展望[J]. 自动化学报, 2012,38(6):889-910.

[13] SUZUKI K,HORIBA I,SUGIE N. Linear-time connected component labeling based on sequential local operations[J]. Computer Vision and Image Understanding,2003,89(1):1-23.

[14] 王元鹿. 漢古文字与纳西东巴文字研究[M]. 上海:华东师范大学出版社,1998.

[15] 郑飞洲. 纳西东巴文字字素研究[D]. 上海:华东师范大学,2003.

[16] 郑飞洲. 纳西东巴文字字素研究[M]. 北京:民族出版社,2005: 1-230.

[17] GUO H,ZHAO J Y,DA M J, et al. NaXi pictographs edge detection using lifting wavelet transform[J]. Journal of Convergence Information Technology,2010,5(5): 203-210.

[18] 杨萌,徐小力,吴国新,等. 东巴象形文字识别方法[J]. 北京信息科技大学学报,2014, 29(3):72-76.

[19] 王海燕,王红军,徐小力. 基于支持向量机的纳西东巴象形文字符识别[J]. 云南大学学报:自然科学版,2016,38(5):730-736.

[20] 胡瑞波. 纳西族东巴象形文字字体构造研究[J]. 郑州轻工业学院学报:社会科学版,2013,14(2):94-100.

(责任编辑:杜能钢)