维吾尔文脱机手写识别建模研究

2018-01-02 01:29黄弋石
信息记录材料 2018年2期
关键词:交叉点联机脱机

黄弋石

(南通大学公共卫生学院实验中心 江苏 南通 226019)

维吾尔文脱机手写识别建模研究

黄弋石

(南通大学公共卫生学院实验中心 江苏 南通 226019)

为了解决维吾尔文的印刷文字与手写文字的脱机识别,本文提出了新颖识别技术。规定了核心模型定义,使用五种机器读法,来识别文字的特征。使用简捷方便的编码方法,使得模型结构舒畅美观。对于常用文字的编码,没有重码。在理论上,实现了眼睛能够识别则机器即可辨认的目标。显然,这种模型设计,也可以改善其他研究者的方案,大幅度提高对应效率与成功率。

维吾尔文手写识别;手写识别;脱机识别;连笔识别

1 引言

维吾尔文十分类似于阿拉伯文,字母共有32个。每个独立字母,有2到4种实际的书写形式。见图1与图2。字母共有128种变化。其中,具有八种变化的有2个字母。具有四种变化的有24个字母。有两种变化的有6个字母。另外,附属字符的字母,共有四个。

书写时,笔顺从右到左,布局从上至下。当然,先完成主体笔画,然后补充延迟笔画。在实际书写中会产生连写形式。见图三与图四。

这些字母,在语言学中,被称为前连体、双连体、后连体、独立体。由它们组合形成词汇。幸好,常用的维吾尔文词语,一共只有两千多字,工作量不算大。

2 模型核心定义

首先定义以下核心定义,然后使用,这些核心定义对每个字母与词语,进行编码。会发现,对于两千多维吾尔语词语的印刷体的编码,根本没有重码。实现了,人眼能区分,计算机即可识别的数学建模效果。核心定义如下。

(1)横、竖、斜、点。就是对横线、竖线、斜线与点识别。由于维吾尔文的实际书写特征,横线有一定的角度摇摆范围,同样竖线也一样,而斜线介于横线与竖线之间。而点在几何意义上,是尺度极短的横线、竖线与斜线。有时,点还会有尖钩或弯尖钩的特征,然而在维吾尔文中,我们不需要考虑这些尖钩的变化,而一律将其识别为点即可。

(2)圆角、尖角。就是指,角一类的过渡是平滑的还是奇点突越。圆角与尖角,很形象的描述它们的几何特征。显然,在数学上要识别圆角与尖角是很容易的。

(3)连续、不连续、交叉与交叉点。就是从笔的落下点到抬起点,是否连续。不同运行笔迹是否有交叉,并产生了交叉点这个特征。交叉点分两线交叉点、三线交叉点与四线交叉点。就是,一个点上连接几条独立的直线或射线。这种,交叉点的特征是维吾尔文所独有的。

(4)圈与开圈。就是笔画中,有闭合的圈与不闭合的圈。这一点利用几何与拓扑学,很容易识别。

(5)相对八方向位置。就是,将平面坐标,平分八个角度,称之为,上、下、左、右与左上、左下、右上、右下。

图1 维吾尔文字母与变体

3 文字编码方案

接着对每个文字与词汇实施编码。大致次序,为从右到左,从上到下。

图2,给出了放大的字母。图3,给出了放大了的词语。请注意,有时,圈看起来像巨大的点,由于有圆角与尖角的定义,所以,不会将其误认为是各种各样形式的点。

显然,编码是很容易的。当然,合理或聪明的编码设计,将使得程序编写的干练、高效与流畅。

图四,是手写体的示例。大体感觉上,以上方案同样有效,但是,如果收集样本,那么,相应的工作量是巨大的,有点难以想象。但是,如果,已经存在对应的维吾尔文手写体样本数据库,那么,下一步工作可以在理论上可行的。

图2 维吾尔文字母放大示意

图3 维吾尔文印刷体示意

4 与其它识别方案比较

其他学者比较成功的识别方案,介绍如下。

第一种是,组合特征识别。就是在外围轮廓的限定下,加以附加笔画限定、密度比例、笔画数数据与位置关系,加以识别[1]。可惜,识别率最高只有75.7%。使用的数学方法很先进,但是,初步效果不理想。

第二种是,使用LVQ神经网络建立字符识别方法。先对字符的最基本结构进行分解,然后使用自学习与自适应的方法,融合协助,最后反复的提高识别效率[2]。也就是,对字符数据库,根据全局统计,对特征分析结果实施训练分析。最后,不断自我改进识别成功率。这个方法的好处,就是一旦程序完成,则后续工作较少。但是,该研究者没有提供具体的识别成功率。

第三种方法,是模糊聚类识别。比如,使用穿刺法,获得交汇密度特征。比如,用降维法,处理单位面积像素特征值[3]。比如,计算累计贡献率。这种方法,对数学要求较高,计算极其复杂。同样,文献没有提供识别率。

第四种方法,是使用中心距离特征建模。就是,对中心距离特征实施特征分析,反复训练,建立模板库,反复实施识别测试[4]。这一方法,的确很新颖,但是,还处于研究阶段。

第五种方法,使用统计法建立语法分析法则。这种语法或词法约束,又分两种,如上下文相关法则与上下文无关法则[5]。经过对样本库的反复训练,可以大大提高识别率。而且,可以移植到,每个不同的识别模型中。的确是,一种很有价值的辅助提升效率的方法。

图4 维吾尔文手写体示意

5 结语

本文提出新颖建模方法,在理论上解决了维吾尔文文字的脱机手写识别的技术。识别的前提是,书写者的字体较为传统、较为规范。依照作者以往对中英文手写识别解决方案的经验,这一方法,可以机动灵活的移植到维吾尔文的联机手写识别[6-8]。至于,对艺术化的维吾尔文,能否识别。作者认为,只要建立维吾尔文行书与草书或艺术体字符文字库,那么同样能够正常工作。

同样,其他研究者,如果采纳或吸取本文方法,显然能够明显提高他们的识别模型的识别成功率[1-5]。

[1]祖丽菲亚卡哈尔,玛依热依布拉音.组合特征的联机手写维吾尔字母识别[J].通信技术,2013,46(5):95-97.

[2]齐向伟,艾孜尔古丽,玉素甫.维吾尔文手写体基础数据库的构建与在线识别研究[J].媒体技术,2015,13:12-14.

[3]贾建忠,孙萍.脱机维吾尔文组合特征提取及模糊聚类识别[J].新疆大学学报(自然科学版),2013,30(3):347-353.

[4]吾加合买提司马义,艾斯卡尔艾木都拉.基于中心距离特征的联机手写维吾尔文全形态字母识别研究[J].电脑知识与技术,2014,10(13):3097-3103.

[5]柳令令,赵晖.联机手写维吾尔文单词识别中两种语言模型的比较研究[J].计算机应用与软件,2012,29(9):151-153.

[6]黄弋石,梁艳.英文手写联机识别的基础模型[J].软件,2012,33(7):141-145.

[7]黄弋石,梁艳,陆峥嵘.汉字联机手写建模方法[J].软件,2013,34(5):67-70.

[8]黄弋石,梁艳.手写识别建模数学方法研究[J].软件,2013,34(8):13-15.

Research of Offline Handwriting Recognition’s Modeling in Uighur

Huang Yishi.
Lab Center, School of Public Health, Nantong University, Nantong 226019,China.

In order to solve the Uighur printed text with handwritten words offline recognition, this paper proposes new recognition technology. The core model definition is defined, and five machine pronunciations are used to identify the features of the text. Using simple and convenient coding method, the model structure is pleasant and beautiful. For text coding, there is no duplicate code. In theory, the target is recognized by the eyes and the machine can recognize it. Obviously,this model design can also improve the other researchers' program, and greatly improve the corresponding efficiency and success rate.

Uighur handwriting character recognition; Handwriting recognition; Offline Recognition; Cursiverecognition

TP391 【文献标识码】A 【文章编号】1009-5624(2018)02-0089-03

黄弋石(1971-),男,江苏启东人,学士,实验师,主要研究方向为数学建模与应用。E-mail:huangyishint@126.com

猜你喜欢
交叉点联机脱机
基于分裂状态的规范伪括号多项式计算方法
浅快呼吸指数相关指标预测脱机结局的价值分析
海尔发布全球首个物联多联机云服务平台
Diagnostic accuracy and clinical utility of non-English versions of Edinburgh Post-Natal Depression Scale for screening post-natal depression in lndia:A meta-analysis
再立标杆,天加GHP燃气多联机 助力神木市LNG站建设
改良程序化脱机在老年患者呼吸机撤离中的应用
围棋棋盘的交叉点
中心静脉血氧饱和度监测在机械通气患者脱机过程中的意义※
高温多联机空调系统的控制方式研究
两种不同脱机方法在ICU老年机械通气患者拔管中的应用