李敏强,哈力旦·阿布都热依木,闫 轲
(新疆大学 电气工程学院,新疆 乌鲁木齐 830047)
一种改进型局部二值模式的维吾尔文定位算法
李敏强,哈力旦·阿布都热依木,闫 轲
(新疆大学 电气工程学院,新疆 乌鲁木齐 830047)
针对自然场景中复杂的背景纹理对文本区域检测的干扰,提出了一种改进型局部二值模式(ULBP)提取算法,用于维吾尔文文本特征提取,并用获得的特征向量对候选维吾尔文本区域进行分类。本算法首先利用同质化映射来构建图像的同质化空间;然后,在同质化空间利用角点检测快速获取候选文本区域;最后,在候选文本区域里提取ULBP特征,把这些特征导入训练后的支持向量机(SVM)即可获得精确的文本区域。实验结果表明:ULBP特征对维吾尔文本区域具有较高的区分度,且能使误检率降低到8.3%,鲁棒性较强。
维吾尔文文本定位;自然场景;改进型局部二值模式;支持向量机
自然场景图像中的文字包含了很多重要的语义信息。由于文字的字体、大小、方向、位置的千变万化,背景纹理丰富,颜色复杂,受获取条件限制或被其他物体遮挡等因素,给文本检测带来了极大的困难。
目前,文本区域的定位提取算法大致分为基于边缘、连通区和纹理等定位算法[1-3]。这些方法在对中、英字符的处理中都取得了一定的成果,但不同于中、英文字符,维吾尔文由32个字母组成,并且有120多个字符形式,其多变、复杂的结构使得对自然场景中维吾尔文本的定位更具有挑战性。
目前,对自然场景中维吾尔文本定位的研究处于起步阶段。文献[4]提出利用RGB彩色边缘纹理特征对视频图像中的维吾尔文进行处理,但其并未考虑维吾尔文独特的纹理特征,导致背景纹理和文本纹理区分度不高,检测效果不太理想。文献[5]提出的方法对自然场景中背景复杂的图像鲁棒性较差。文献[6]提出利用小波特征进行定位,由于其并未考虑邻域点信息,导致误检率较高。文献[7]用到了基线特征,但其只适合于水平文字定位,对倾斜的文字检测、定位效果不佳,鲁棒性较差。
本文先通过同质化映射来增强文本区域纹理。然后,充分结合维吾尔文独特的结构特征提出了一种改进型局部二值模式特征,即ULBP,将其用于候选文字区域的分类确认。该方法不仅考虑了文本区域的局部特殊性,还充分结合维吾尔文结构特征加强了背景纹理和文本区域纹理的区分度。
1.1 局部二值模式特征
局部二值模式(LBP)算子[8]是一种无参数的操作符,其具有灰度单调和旋转不变性,是图像局部特征的有效表征。局部二值模式(LBP)算子的计算公式如下:
(1)
其中:ic表示窗口中心像素(xc,yc)的灰度值;in是以(xc,yc)为中心,半径为R的P个等间隔分布的邻域像素灰度值,当邻域值不能准确落入像素中心时,采用双线性插值方法进行估计相邻像素的灰度值。函数s(x)定义如下:
(2)
对于一个(P,R)=(8,1)邻域模板,LBP的编码过程计算如图1所示。
图1 局部二值模式计算过程
1.2 ULBP特征
尽管传统的LBP特征在字符纹理分类上取得了不错的效果,但仍存在如下问题:
(Ⅰ)文本检测中把上下颠倒的文本区域和正常文本区域归为一类文本,但依据LBP特征会将其误判为两种不同的文本(其LBP直方图是两种不同的形式)。
(Ⅱ)无法有效区分邻域灰度值与中心灰度值相等和邻域灰度值远大于中心灰度值时邻域像素点的区别。
为了解决上述问题,已经有学者提出了拓展局部二进制模式(eLBP)[9]、多级eLBP[10]等改进方法,很好地描述了汉字边缘,但对于维吾尔文字却不太适用。维吾尔文字有着自身独特的结构特点,其主要特点[11-13]如下:
(Ⅰ)维吾尔文的结构分为主体部分和附加部分,有些字母有主体和多个附加部分,另外一些则无附加部分。
(Ⅱ)附加部分分布于主体下部、上部或者中间,且不同的附加部分会构成不同字母。
(Ⅲ)有些字母的附加部分一样,主体部分不一样就形成不同的字母。图2给出了部分维吾尔文字母的独立形式。
(Ⅳ)维吾尔文的书写遵循从右到左的方向,对于多行的维吾尔文文档遵循从上到下的行列方向,且其在结构语法上属于黏着语类型,图3给出几个维吾尔文字及其对应的汉字。
图2 维吾尔文字母单立式图3 维吾尔文字及其对应的汉字
通过以上对维吾尔文字结构的分析,发现维吾尔文字是基于基线上下两侧分布,且其结构近似对称,其结构图见图4。
图4 维吾尔文字结构图
因此,本文基于维吾尔文上述特点提出一种改进LBP(即ULBP),以准确地描述维吾尔文文本边缘区域。
ULBP算子在权重因子(2n)排布上充分考虑了维吾尔文字基于基线上下近似对称的结构特征,使权重因子的分布也呈现出基于基线对称的分布特点,如图5中矩形框内方框和圆圈标记的权值对称分布。另外,根据维吾尔文字符笔画分布集中于基线上下两侧的特性,其在计算ULBP过程中将邻域像素分为基线上侧方向一类和基线下侧方向一类,如图5中方框和圆圈的两类标记。因此,把LBP值分为基线上侧和下侧两类,即上侧边缘局部二值模式ULBPup算子和下侧边缘局部二值模式ULBPdown算子。当窗口设置为3行×3列,其计算公式如下:
(3)
(4)
(5)
图5 ULBPup算子和ULBPdown算子计算过程
基于ULBPup算子和ULBPdown算子可以得到两个局部二值模式的直方图,且它们分别具有24=16个bin的两个直方图,这样进行特征提取时,特征维数将远远小于256维,明显降低了维数。并且根据维吾尔文字自身特点,使其权值分布基于基线上下两侧对称,更能突出维吾尔文本区域边缘的纹理,从而提高维吾尔文文本区域与非文本区域的区分度,相比于传统LBP算子,具有更高的精度和效率。
2.1 同质化文本区域增强
同质性反映图像中区域的均匀程度,是一种重要的图像局部信息,其在图像分割中扮演重要角色。图像中的文本区域具有内部基本均匀且性质相似(高频性和不连续性)的特性,为了减少复杂背景中文本与背景纹理相似造成的检测错误,可以在同质性空间中进行文本检测。文献[14]将同质性定义为标准方差和强度不连续性的组合。标准方差体现了一个局部区域内的变化程度,强度的不连续性则体现区域内灰度级突变的程度。根据模糊逻辑理论,可以将标准方差理解为纹理信息,将强度不连续性理解为边缘信息。
令W(x,y)、E(x,y)分别为像素点(x,y)的纹理信息和边缘信息,定义一点(x,y)的同质性T(x,y)如下:
T(x,y)=[I-(I-W(x,y))(I-E(x,y))]g(x,y),
(6)
其中:W(x,y)和E(x,y)的元素均属于区间[0,1];g(x,y)为原图像中位置(x,y)的特征值;I为单位向量。纹理信息和边缘信息的计算方法采用文献[14]介绍的方法,通过求出原始图像中每一个像素点的同质性值T(x,y),就可以把原始图像映射到同质性空间。
2.2 基于角点粗检测
Harris角点检测算子[15]作为一种经典的提取算子,能有效降低灰度波动、视点变化、噪声干扰等极端条件对角点检测的干扰。
在对图像进行角点检测后,通过单阈值方法检测候选文本区域,其公式描述如下:
(7)
其中:Nc为大小为M×N窗口中的角点数;Tc为设定的检测窗口内角点个数的阈值。由于自然场景中字体大小的多变性,本文比较了不同检测窗口大小和不同阈值的文本检测效果。根据实验效果选取M=20,N=20作为检测窗口大小,阈值Tc为2时,能在最大限度保留文本区域的基础上去除大部分的背景区域。
2.3 ULBP特征的提取
针对经过粗检测后的候选文本区域,利用ULBP算子,提取其邻域模板P、R分别为(8,1)、(8,2)、(8,3)、(8,4)的上侧边缘局部二值模式ULBPup算子和下侧边缘局部二值模式ULBPdown算子。然后分别计算两种算子的直方图,得到8个分别具有16个bin的直方图,提取直方图每个bin的值,获得128维的特征。
2.4 文本区域的确定
支持向量机(SVM)是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,其对非线性、小样本、高维度的分类问题,表现出了极高的分类效率,因此,在文本区域检测领域得到了广泛的应用。本文采用SVM作为分类器,对候选文本框进行确认。本文采用738个文本块作为正样本(如图6a所示)和1 466块背景区域作为负样本(如图6b所示)对SVM进行训练。
图6 训练样本
使用大小为16行与16列的滑动窗口,对经过粗检测获得的文字区域图像进行固定步长为8的扫描。对每个窗口进行4级2个方向的边界局部二值模式算子计算,然后计算直方图,提取128 维的纹理特征向量。用训练好的分类器对其进行分类,按分类结果进行标记,将文本块内的像素值置为1,将非文本块内像素值置为0。
目前,国内并没有统一的关于维吾尔文本分析的标准数据库,本实验采用的数据库为本实验室自建的、自然场景下手机或者数码相机拍摄的700张含有维吾尔文的图片,其涵盖了各种应用场景,并且包含自然场景出现的光照不均、文字排序各异、背景复杂等极端情况。本实验是在Intel(R) core(TM) 2 Duo CPU主频为2.20 GHz、内存为2.00 GB、操作系统为Windows 7、仿真软件为Matlab R2009a的计算机运行。
3.1 ULBP特征有效性测试
表1 不同特征的样本分类结果比较
本文分别采用eLBP特征[10]、灰度共生矩阵特征[16]、小波矩特征[17]与ULBP特征比较。实验中采用训练过的SVM分类器,对标记过的测试样本进行分类,统计SVM分类准确率,其维吾尔文文本区域的分类结果如表1所示。
通过表1可以看出:由于ULBP特征充分考虑了维吾尔文自身的结构特征,使其文本区域纹理和背景区域纹理有了较高的区分度。
3.2 不同算法比较与文本定位结果展示
文献[10]提出的eLBP特征与本文的算法思路相似,因此具有一定的可比性,所以将本算法与其相比较。以本实验室所收集到的自然场景维吾尔文图片为实验对象,以正确检测率和误检率及平均运行时间为主要的性能指标,其结果如表2所示。
正确检测率和误检率计算如式(8):
(8)
其中:Nr为正确检测率;Nw为误检率;r为正确检测出的文本区域个数;w为检测出的错误的文本区域个数;N为文本区域的总个数。
表2 定位算法的比较
由表2可以看出:针对维吾尔文的处理,本算法明显优于文献[10]的算法,这是由于文献[10]以eLBP为特征进行处理,并未考虑维吾尔文独特的结构特征,所以直接应用时对以维吾尔文为文本区域的图片处理时就有一定的局限性。在算法运行时间上,以上两种特征提取过程相差不大,因此算法平均运行时间大致相当。相较于上述算法,本算法以维吾尔文独特的结构特征为基础,对LBP特征进行改进,极大地提高了维吾尔文文本纹理与背景纹理的区分度,且通过粗检测和二次检测,提高算法的效率和精度,经过验证效果良好。
图7 自然场景图片维吾尔文字定位
本文选取3张比较有代表性(光照不均匀、文本排列不规则、背景复杂)的场景图像,其实验结果如图7所示。通过图7a可以看出:该算法能很好地处理光照不均匀的情况。图7b表明本算法能有效处理文字排序混乱的情况。图7c证明了该算法对光照不均匀的处理效果。因此,该算法具有较强的鲁棒性。这主要是由于粗检测以角点为基础,角点对灰度变化、噪声影响、视点变化有较强的适应性,所以在面对光照强弱不均匀、文字排列不整齐的情况,能有效地保留文本区域,使其文本区域误检率降到8.3%。二次检测中通过ULBP检测这种维吾尔文独特的纹理特征,其正确检测率达到了94.6%,能把文字区域精确地从复杂背景中区分出来。
本文提出一种基于ULBP特征的自然场景中维吾尔文本区域定位算法。该算法以维吾尔文独特的结构特征(基线为对称线且上下两侧呈现近似对称)为基础,对LBP进行改进,得到ULBP这种全新的局部纹理特征,极大地提高了背景纹理与文本区域纹理的区分度。并且通过角点检测确定候选文本区域,利用ULBP特征对其二次检测,极大地降低了文本区域的误检率,提高了算法的精度和效率。通过实验测试,本文算法对光照不均匀、文字排序混乱、背景复杂的各种场景图像均取得了较好效果,相比于其他纹理特征对维吾尔文的处理效果,本文提出的纹理特征表现出了极大的优越性。
[1] Lyu M R,Song J,Cai M.A Comprehensive Method for Multilingual Video Text Detection,Localization,and Extraction[J].IEEE Transactions on Circuits and Systems for Video Technology,2005,15(2):243-255.
[2]Shivakumara P,Phan T Q,Tan C L.A Laplacian Approach to Multi-oriented Text Detection in Video[J].IEEE Transactions on Software Engineering,2011,33(2):412-419.
[3] 马磊,刘江.基于纹理谱描述子的文档图像检索算法[J].计算机应用,2010,30(11):2980-2982.
[4] 李凯,艾斯卡尔·艾木都拉.基于边缘和基线的维吾尔文图像文字定位算法[J].计算机工程与应用,2014,50(10):203-207.
[5] 邓任任,哈力旦.维吾尔文字自适应角度定位[J].计算机工程与设计,2013,34(3):1121-1125.
[6] 哈力旦·A,库尔班·买提木沙.基于小波变换的图像中维吾尔文字定位[J].计算机工程,2011,37(8):197-198.
[7] 图尔洪江,方向忠.基于笔画滤波的维吾尔文视频文字定位算法[J].信息技术,2011(4):69-72.
[8] Anthimopoulos M,Gatos B,Pratikakis L.A Hybrid System for Text Detection in Video Frames[C]//Document Analysis Systems.DAS’08.The 8th IAPR International Workshop on IEEE.2008:286-292.
[9] Ojala T,Pietikäinen M,Harwood D.A Comparative Study of Texture Measures With Classification Based on Featured Distributions[J].Pattern Recognition,1996,29(1):51-59.
[10] Anthimopoulos M,Gatos B,Pratikakis I.A Two-stage Scheme for Text Detection in Video Images[J].Image and Vision Computing,2010,28(9):1413-1426.
[11] 阿地力·依米提,刘吉超,王静.彩色背景图像中维吾尔文字定位的研究[J].新疆师范大学学报:自然科学版,2012(4):42-45.
[12] 刘虎.脱机手写体阿拉伯字符识别关键技术研究[D].武汉:武汉理工大学,2011.
[13] 阿力木江·亚森,哈力木拉提·买买提.维吾尔文联机手写识别预处理和特征提取[J].新疆大学学报:自然科学版,2010,27(2):232-241.
[14] 黄剑华,承恒达,吴锐,等.基于模糊同质性映射的文本检测方法[J].电子与信息学报,2008,30(6):1376-1380.
[15] 赵万金,龚声蓉,刘纯平,等.一种自适应的Harris角点检测算法[J].计算机工程,2008,34(10):212-214.
[16] 苑丽红,付丽,杨勇,等.灰度共生矩阵提取纹理特征的实验结果分析[J].计算机应用,2009,29(4):1018-1021.
[17] 王建宇,张峰,周献中,等.利用小波变换和 K均值聚类实现字幕区域分割[J].计算机辅助设计与图形学学报,2006,18(10):1508-1512.
国家自然科学基金项目(61163026)
李敏强(1988-),男,河南驻马店人,硕士生;哈力旦·阿布都热依木(1959-),女,维吾尔族,新疆乌鲁木齐人,教授,硕士生导师,主要研究领域为图像处理和模式识别.
2014-09-15
1672-6871(2015)03-0043-05
TP391
A