基于视频的手写数字识别

2015-09-09 18:09王敏蒋海峰
计算技术与自动化 2015年2期
关键词:跟踪

王敏+蒋海峰

摘  要:随着计算机技术的不断发展,视频跟踪技术越来越成为计算机领域中研究的热点。视频跟踪技术的研究涉及范围很多,包括视频图像处理、模式识别以及人工智能等,具有较强的研究价值。手势检测识别技术作为一种基于计算机视觉的新型人机交互方式,是其中备受瞩目的研究和应用技术之一。文章采用一种简单高效的颜色直方图对目标(红色手指)进行主色定位,并在图像序列中进行目标区域提取,得到运动轨迹,进行手写数字识别。最后利用八段视频验证了该方法的简单高效,并能成功进行实时跟踪与识别。

关键词:颜色直方图;跟踪;手写数字识别

中图分类号:TP391.4   文献标识码:A

Recognition of  Handwritten Numeral Based on Video

WANG Min ,JIANG Hai-feng (Control theory and control engineering,Nanjing university of science and technology,nanjing  210094,China)

Abstract: With the continuous development of computer technology, video tracking technology has become a hot research field of computer. Study of video tracking has strong research value, including video and image processing , pattern recognition and artificial intelligence. As a new type of human-computer interaction based on computer vision, gesture detection and identification technology is one of the high-profile research and applied technology. The article positions the target (red fingers) with the main color by using a simple and efficient color histogram, extracts the target area in the image sequence to get the motion trajectory, and identify handwritten numeral. Finally, experiment on eight videos shows that this method is simple and efficient. With this method, real-time tracking and gesture recognition is successful.

Key words: Color histogram; Tracking; Handwritten numeral recognition

1 引言

光学字符识别(OCR)被广泛地应用在护照、汽车牌照以及身份证号码识别等领域,是模式识别研究的一个热点。它能够采用非光电非接触的方式准确、快速地识别字符,这使得工作效率大大提高[1]。

手写数字检测识别技术是由计算机针对某一视频,对视频中的符号进行检测与识别分析,从而输出预先设定结果的一种计算机技术。不同的人有不同的手写习惯,光照、背景的变化等干扰因素对检测和识别有较大影响,是对其检测识别精度的一大挑战。

2 手写数字识别

某些数字字形相似,区分相当困难,并且千万种手写数字的写法使得手写数字的识别更加困难。

手写体数字识别技术主要包括以下几点[2]:

1)图像预处理,包括彩色图像转成灰度图像、二值化,归一化,滤除干扰噪声等;

2)基于数字图像的特征选择和提取;

3)数字串的分割;

4)模式分类识别。

图1 手写字符识别流程

2.1 手写数字图像预处理

2.1.1 图像的二值化

对手写数字识别时并不关注手写数字的颜色、灰度级,因此可以通过二值化来提高识别率,删除冗余信息。图像的二值化关键在于设定阈值,通过设定某些阈值,对背景和目标占据不同灰度级的图像进行分割[3]。

2.1.2 图像归一化

不规范是手写数字的主要特征。千变万化的书写风格,以及采集到的不同规格的数字图像对提取数字特征有重要影响。为了减少这种影响,要对采集的数字图像进行归一化。利用图像的不变矩阵,可以得到一组参数,这组参数可以消除变换函数对图像变换的影响。通过这些变换,将原始图像转换成对平移、缩放、旋转等变换具有不变换性的标准形式图像,这一过程就称为图像的归一化。图像归一化分为坐标中心化、x-shearing归一化、缩放归一化和旋转归一化[4]。

2.2 手写数字的特征提取

预处理后的数据量大,不能直接将其作为分类器的输入量。另外,预处理时附带一些干扰以及手写字体有千万种,若直接进行分类计算对分类器的容错能力具有较高要求。因此从分析数字的拓扑结构入手,进行特征提取,将数字的一些结构特征提取出来,使得数字的大小、位移变化以及字形畸变等干扰相对减小。将反映数字特征的关键信息提供给分类器相当于增加了分类器的容错能力,并且数据量在特征提取之后大大减少。

特征提取的主要原则有[5]:特征数量尽可能的少;特征的提取方法简单、快速;特征应有较好的抗干扰能力;特征应能尽量包含字符的有用信息;各个特征之间的相关性应尽可能的小。

2.2.1 逐像素特征提取方法

它是对图像进行逐行扫描,黑色像素特征值记为1,白色像素特征值记为0。这样在扫描结束之后就得到一个特征向量矩阵,其维数跟图像中像素点的个数相同。该方法的算法简单,运算速度快,但算法的适应性不强[6]。

2.2.2 骨架特征提取方法

骨架特征提取法利用细化来提取骨架,该方法适用于线条粗细不同的数字,对于出现偏移的图像无法识别[1]。

2.2.3 垂直方向数据统计特征提取法

垂直方向数据统计特征提取法就是对图像从左向右逐列扫描,统计每列黑色像素的个数,然后自上而下逐行扫描,统计每行的黑色像素的个数,将统计结果作为字符的特征向量。

2.3 手写数字的识别

在手写体数字图像特征提取结束后,即可进行数字的识别。识别手写数字的方法总体有两大类:全局分析和结构分析。

对于全局分析,可以使用模板匹配、数学变换、特征点、像素密度、矩等技术,并且常常和统计分类方法一起使用[7]。

对于结构分析,需要从字符的轮廓或骨架上提取字符形状的基本特征,包括:圈、端点、节点、弧、突起、凹陷,与这些结构特征配合使用的往往是句法的分类方法。

2.4 手写数字识别的研究现状

市场经济日益发达,数据成为人们每天不可缺少的处理工作,例如支票、发票、汇款单、成绩单等这些都需要处理数据,并且阿拉伯数字是唯一被世界各国通用的符号,手写数字的识别越来越引起各国重视,成为研究热点之一。但是数字写法的千差万别以及字形的相似导致其识别率不如印刷体汉字的识别率[8]。

3 实验及分析

基于视频的运动手指轨迹分析与符号识别的系统流程如图2所示。整个系统由图像序列的获得、指尖检测与跟踪、得到指尖运动轨迹、分析轨迹得到符号、符号识别五个部分组成。

图2 系统流程图

本文以8与0为例,基于检测符号特征对其进行识别。对于8与0,可以采用的是通过检测符号的内外轮廓,根据图像中轮廓的个数及内部轮廓的位置关系,进行0与8的区分。可以看出0只具有1个外轮廓及1个内轮廓,而8具有1个外轮廓及2个内轮廓。0可以用包含轮廓最小矩形的高宽比来识别横向还是竖向,而8可以根据2个含内轮廓最小矩形的位置关系来确定横向还是竖向。如果内轮廓过小,则认为是噪声。本方法需要数字不能出现断点,需要一定的预处理。

本文对8段手指视频进行符号识别,视频中手指指尖均套有红色手套,颜色比较单一、鲜明,故先对该问题进行建模,使用camshift算法在实际图像序列中寻找匹配的运动目标。实验先对视频进行初始模板的获取,获得其颜色直方图,然后对其进行模板匹配。

经过缩放处理后归一化到64*48大小的各视频红色手指轨迹图片如图3所示。图4为各数字符号轮廓分析结果。由图3可知,在背景颜色与目标颜色相差较大时,使用本文所采用的方法可以获得较好的跟踪结果,并且8段视频都可以采用本文所提出的对8与0识别的方法进行正确识别。

1-1      1-2     1-3     1-4

2-1      2-2     2-3     2-4

图3 8段视频处理后跟踪轨迹图

1-1     1-2      1-3     1-4

2-1      2-2     2-3     2-4

图4 各数字符号轮廓分析结果

  • 结论

本文较好的完成了对8段测试视频中手指符号的识别。本文首先提出了一种简单高效的颜色直方图对目标(红色手指)进行主色定位,并在图像序列中进行目标区域提取,得到运动轨迹。该方法简单高效,能进行实时跟踪。另外,在背景中出现和目标颜色类似的颜色也会给目标的检测提取带来一定的影响。相对而言,基于裸手的指尖检测与跟踪更具有鲁棒性,是今后手指符号研究的努力方向。

参考文献

  • 冯伟兴,梁洪,王臣业.Visual C++数字图像模式识别典型案例详解[M].北京:机械工业出版社,2012:267-273.
  • 吴忠,朱国龙,黄葛峰等.基于图像识别技术的手写数字识别方法[J].计算机技术与发展,2011,21(12):48-51.
  • 宫淑兰.手写数字识别的研究与应用[D].山东大学,2006.
  • 林桂芳.印刷体数学公式识别中符号识别技术的研究[D].哈尔滨工程大学,2004.
  • 瞿海金.手写体数字识别方法的研究与实现[D].南京理工大学,2005.
  • 陈展东,白宝兴,韩成等.数字识别算法研究[J].长春理工大学学报(自然科学版),2010,33(1):147-151.
  • 李歌.基于BP神经网络的手势识别研究[D].燕山大学,2013.
  • 朱婷婷,魏海坤,张侃健.基于AP和BP神经网络算法的手写数字识别[J].中国科技论文,2014,9(4):479-482.
  • 王明佳,武治国,韩广良等. 自适应窗口选取的Mean Shift目标跟踪[J]. 光子学报,2012,41(1):67-70.
  • 彭娟春,顾立忠,苏剑波. 基于Camshift和Kalman滤波的仿人机器人手势跟踪[J]. 上海交通大学学报,2006,40(7).
  • 陈宗雄.一种数码显示数字识别算法[J].电脑知识与技术,2014,10(23):5496-5500.

猜你喜欢
跟踪
北斗授时与定位技术在绿色能源开发利用中的应用研究
300MW CFB机组压力偏差对负荷控制的影响与优化
政策跟踪审计存在的问题分析
视频监控跟踪系统的研究
工程建设手续办理流程跟踪与规划移动应用研究
跟踪学情,及时调整教学策略
小型民用风力发电系统最大功率跟踪策略研究
一种用于弹道终端飞机红外图像机轴检测的算法