运用灰色关联度的仪表数字字符识别

2021-03-17 09:49陈虹宇李铁军
关键词:字符识别字符关联度

陈虹宇,李铁军

(1.集美大学轮机工程学院,福建 厦门 361021;2.集美大学信息工程学院,福建 厦门 361021)

0 引言

智能仪表读数数字分割与自动识别的准确性和时效性是国内外图像处理领域的研究热点,而智能仪表的数字字符识别是关键核心技术,随着光学字符识别OCR(optical character recognition)技术的深入,智能仪表识别技术也得到了发展。王榕峰[1]定义特定向量与字符相交的次数作为数字特征;崔文成等[2]通过填充区域、字符穿越数和镂空区域构成数字特征向量,实现票据数字识别;周胜明等[3]结合数字笔画特征与主分量重建模型的误差分析,进行数字识别;Zhang[4]利用数字轮廓拓扑结构进行电子仪表数字识别;Jabba[5]利用神经网络识别法识别仪表数字;Shamim等[6]采用多层感知器识别数字字符,Laroca[7]用全卷积序列进行水表数字字符识别;Wang[8]等用深度学习的方法识表电表。数字字符识别方法大致分为两类:深度学习和机器学习。深度学习是目前大数据背景下的主流方向,在硬件计算力的支持下,对处理大样本下的复杂问题具有普遍优越性。机器学习在小样本和快速性方面具有一定的优势,计算量少,对硬件要求低,不足是特征依赖人工提取,准确性得不到保证。但计算量少、硬件成本低、是普通仪表推广使用中最大的优势[9]。

仪表字符图像通过安装图像采集设备得到,在特定表盘的背景下既有多个字符,还有整字和半字、角度倾斜等不确定因素,常规整字的特征和算法对于倾斜和非整字的字符难以适应[10]。本文用一种简单易行的基于灰色关联度的仪表数字字符识别方法,将受不确定因素影响的信息当作灰度信息,构建数字硬度特征序列,对待测样本与目标样本的硬度特征进行关联度分析,依据关联度大小对待测样本进行分类,将具有最大关联度对应的样本作为识别结果,从而完成数字的识别与分类。

1 灰色关联分析理论

灰色关联分析是灰色系统理论[11]的重要分支,灰色关联分析的基本思想是通过计算参考序列曲线与比较数据序列曲线的灰色关联度来判断序列的联系紧密度。

(1)

对于ξ∈(0,1),ξ为分辨系数,ξ越小,关联系数间的差异越大,区分能力越强,通常ξ取0.5。灰色关联度计算的思路是利用最大和最小位移差来计量两数列之间的相似性。根据关联度的定义,可计算各带识别样本与模板样本的关联度,依据从大到小的顺序,得出识别结果。关联度越大,表明识别对象与模板样本平均距离越接近。

广义的灰色关联度分为灰色绝对关联度、灰色相对关联度以及灰色综合关联度。

定义2 设X0=(x0(1),x0(2),…,x0(n)),…,Xi=(xi(1),xi(2),…,xi(n)),

ε0i(k)=(1+|s0|+|si|)/(1+|s0|+|si|+|si-s0|)。

(2)

为X0与Xi的灰色绝对关联度,简称绝对关联度。

(3)

为X0与Xi的灰色相对关联度,简称相对关联度。

灰色相对关联度,表征了序列曲线相对于始点的变化速率之间的关系,ri(k)越大,反映带识别样本与模板样本变化率越接近。

定义4 综合考虑绝对关联度和相对关联度的影响,共同决定的关联度叫综合关联度。设ε0i和γ0i分别为X0与Xi的灰色绝对关联度和相对关联度,则灰色综合关联度为:

ρ0i=αε0i+(1-α)γ0i。

(4)

其中:α∈[0,1],若考虑两种关联度作用平等,则α=0.5。

灰色综合关联度既体现了序列曲线X0与Xi的相似程度,又反映了X0与Xi相对于始点的变化速率的接近程度,是较为全面的表征序列之间联系是否紧密的一个数量指标。因此本文以综合灰色关联度为主要分析指标。

2 字符数字字符检测及特征提取

2.1仪表数字字符检测

采集到的仪表图像如图1a)所示。根据特殊背景下的图像,可以看出表盘数字区域在矩形框内,且颜色与周边区域相差很大。通过灰度化和二值化处理后,仪表图像如图1b)所示。为防止数字噪音引起的干扰,将二值化后的图像进行形态学处理,即对二值化图像进行膨胀、腐蚀操作,使数字上下部分连通。通过分析连通域的位置关系和连通的性质,对字轮进行分割,得到字轮图像,将矩形连通区域划分出来,定位字轮边框图像。对连通域外轮廓矩形轮廓,确定中心点位置并标定矩形框,利用垂直投影将每个字符按单字分割开来,分割出字符区域如图2所示。

2.2 仪表数字特征

特征提取和分类技术是图像识别的关键。机器学习的方法中特征更具直观性,分为统计特征和结构特征。统计特征指利用统计方法获得的特征,包括特征区域、矩及密度等特征;结构特征是对字符的笔画进行研究分析,包括笔画和轮廓,如凹陷、梯度、曲率、穿越、镂空等特征。这些方法直观地描述字符结构特征,在字符定位准确且无任何角度倾斜的整字识别上,可以获得稳定性较好的识别结果[1~3]。

字符硬度特征[11]的思想源于统计特征和结构特征的综合。单一统计特征比如图像矩特征很难区分比如数字5与6、8、9、0,1与4。在表盘原始图预处理后,经分割,得到仪表表盘数字,如图3所示。从图3上可以看出,数字1和4垂直投影曲线接近,数字5、6、8、9、0的垂直投影也极为接近。但结合字符结构特征发现,每一个字符在不同字符高度的密度区别很大,通过大量实验数据分析得出,1与4在自下而上1/5处的字符高度里区分度最高,8、9与0在自下而上1/5、2/5、3/5处区分度都十分明显。故本文采用把字符五分切割,通过统计目标字符在目标区域里的像素密度,即单位面积下目标像素的充满度,定义硬度特征,它能体现数字图像目标区域在某方向上的抵抗变形的能力。定义根据数字图像投影方向不同,可分为水平投影和垂直投影。硬度特征也分为水平硬度特征和垂直硬度特征。图4分别给出了整字倾斜角度为0°和15°的数字水平投影,数字的水平投影对倾斜不敏感,倾斜15°仍变化不大,且不同高度处特征仍然明显。字符在不同比例高度下硬度差距甚大,且对倾斜不敏感,故对图像采集装置安装所导致的小范围角度倾斜不需要作倾斜校正。本文选用水平硬度作为硬度特征。

将从仪表表盘获得的0~9的数字进行归一,结合数字自上而下及自下而上不同的笔划结构和统计特性,分别采取自上而下和自下而上1/5、2/5、 3/5、 4/5、5/5处10个不同比例高度下硬度值作为图像特征进行分类,从而完成硬度特征提取。水平硬度特征序列见表1。

表1 数字0~9对应的水平硬度特征序列

3 灰色关联分析数字识别

灰色关联分析[11]通过确定参考序列和若干个比较序列的几何形状相似程度来比较其联系程度。灰色关联度表明了两种序列的平均距离;绝对灰色关联度反映两种序列的相似程度;灰色综合关联度既体现了序列间的相似程度,又反映了序列变化速率的接近程度。采用灰色关联分析方法对一个灰色系统进行分析,首先得选准反映各特征的数据序列。

本文利用综合灰色关联度进行数字字符识别,选择字符统计特征硬度指标作为分析序列,利用待测字符与样本训练集中的字符硬度特征关联度进行识别。提取测试样本特征序列,建立灰色关联矩阵,根据灰色关联度、相对关联度量化模型,利用Matlab程序计算系统特征变量数据序列之间的灰色关联度。灰色关联度表明了待测样本与模板样本的平均距离;相对灰色关联度反映待测样本与模板样本的相似程度。根据优势分析原则,得出关联顺序,完成对数字的识别和分类,具体有如下6个识别步骤。

1)读入归一的待测仪表字符图象。

2)统计连通域高度H,判断各字符是否为整字,HT为样本字符高度,若|H-HT|/HT≤3%,则为整字,反之为非整字。

3)对各个数字字符进行特征提取,构成待识别样本序列,整字的特征采取自上而下Hi=[1/5HT,2/5HT,3/5HT,4/5HT,HT],i=1~5和自下而上Hj=[1/5HT,2/5HT,3/5HT,4/5HT,HT],j=5~10的两个方向的10个特征,组合成待识别字符图像特征集X0=(x0(1),x0(2),…,x0(10))。

4)非整字由字符重心位置高度决定“灰数”和“白数”特征。若字符重心位置在1/2HT以上时,把自下而上方向的特征值看作“白数”,将自上而下的特征值看作“灰数”;反之对于重心位置低于1/2HT的非整字,把自下而上方向的特征值看作“灰数”,将自上而下的特征值看作“白数”。对各个数字字符进行特征提取,用*表示灰数值,将上下两部分特征保存到Xu0=(x0(1),x0(2),…,x0(10))和Xd0=(x0(1),x0(2),…,x0((10))中。

5)计算待识别字符图像的特征集与训练样本集中第i个数字字符特征的灰色综合关联度,比较得出最大的ρmax=ρoi,判断待测数字即为第i个数字字符。

6)半字得出的上下连通域的关联度最大的字符,且满足上下两个半字具有数字相邻的性质,得出两半字识别结果,最后根据读数需要,选择字符高度大的半字作为最后识别结果。

4 实验测试

4.1 字符识别结果

在MATLAB环境下,读入图像,成功分割后,提取一字符硬度特征为:X0=(3.20,1.20,0.80,0.55,0.50,3.50,1.30,0.76,0.50),关联度对比见表2所示。由表2可知,绝对关联度:ε05>ε02>ε03>ε08>ε00>ε09>ε06>ε07>ε01>ε04;相对关联度:γ05>γ03>γ02>γ08>γ00>γ09>γ06>γ07>γ01>γ04;综合关联度:ρ05>ρ03>ρ02>ρ08>ρ00>ρ09>ρ07>ρ06>ρ01>ρ04。本文考虑综合关联度为分析指标,待测序列与样本5序列综合关联度最大,故可判断待测数字字符为“5”。

表2 关联度对比

对于提取的一组非整字序列Xuo=(* * * * * *1.5 0.7 0.45 0.3)和Xdo=(2.95 1.25 * * * * * * * *),*表示未确定信息值,综合关联度计算结果,上连通域ρu07=0.9929最大,下连通域ρd08=0.9942最大,根据表盘刻度特点和连通域的高度,最后识读数字字符为“7”。对2 500张来自实际电表表盘图像的数字进行测试,数字样本字符包括整字、整字符有15°倾斜、整字符有30°倾斜、半字。发现即使整字符倾斜30°,此识别算法对整字和半字的识别都在98%以上,此算法对倾斜度不敏感,对整字和半字都有较好的适应性。表3给出了字符识别结果。

表3 字符识别结果

4.2 不同算法识别结果比较

基于以上实验分析,将500张电表表盘图像包括有不同倾斜角度的图片进行识读,表4给出了参考文献[12]中加权硬度特征匹配的方法和本文灰色关联分析两种识别方法的结果对比。

表4 不同识别算法结果比较

测试结果显示,基于灰色关联分析的方法对旋转畸变表现出较强的容错能力,正确识别率在98.4%以上,比加权硬度特征匹配的方法更优。通过对未能正确识别的数字图像进行分析,发现受采样时受镜面反光导致过度光照强度影响而产生了噪声,出现表盘字轮区域与数字连通的情况,影响了字符的分割。经调整光照后,该算法都能正确识别。实验结果表明本文方法的有效性。

5 结论

本文考虑灰色关联分析具有标准样本量小,不需要规律的特点,通过字符自上而下和自下而上两个方向的不同高度范围内的像素统计值,构建字符硬度特征序列,将受不确定因素影响的信息当作灰度信息,具有最大灰色综合关联度的样本作为识别结果,从而完成对仪表数字字符的识别。该算法计算简单,硬件容易实现。

猜你喜欢
字符识别字符关联度
基于熵值法与灰色关联度分析法的羽毛球技战术综合评价分析
基于熵权TOPSIS法和灰色关联度分析的藤茶药材等级研究
正则表达式快速入门
字符代表几
图片轻松变身ASCⅡ艺术画
中国制造业产业关联度分析
中国制造业产业关联度分析
融合字符及字符排列特征的铭牌识别方法
一种基于OpenCV的车牌识别方法
基于MATLAB的图片中字符的分割与识别