视频图像中文本检测和提取技术研究

2016-10-21 21:25姜啸

科学与财富 2016年9期

姜啸

摘要：近年来，随着宽带网络技术、新型多媒体技术和信息通信技术的飞快发展，我们步入了一个崭新的互联网时代。面对日益增长的视频和图像资源数据，如何有效快速的在海量的数据中检索和访问到我们所需要的信息变得十分有意义。视频资源中包含丰富的语义信息和视频关键内容，为此，对视频图像中文本检测和提取成为本文研究主题。

关键词：数学形态学；文本定位；自适应阈值分割；字符识别；模板匹配

一. 引言

近些年来，科学技术的更新速度不断加快，科学方法日益创新。与此同时，多媒体数据库和多媒体信息检索的发展使得视频、音频和图像在我们的生活中扮演着越来越重要的角色。面对海量的视频和图像资源，有效快速的在海量的数据中检索和访问[1]到我们所需要的信息变得十分有意义。正在此背景下，解决上述问题产生的视频图像文本检测成为热点，因此本文开始对此展开研究。

二. 视频图像中文本分类

视频图像中的文本根据是否进行过后期制作所嵌入的文本或者根据图像的层次和维数可将其分为场景文本和人工文本（也称叠加文本或图形文本）两大类。

场景文本是被摄影机或摄像机随当时场景捕获到的文本，场景文本存在于场景中，是场景的一部分。如汽车车牌、交通路标、商店名称、街道指示牌等等。

人工文本是在后期制作嵌入的文本图形，在编辑阶段被整合到视频图像中。这类文本主要有新闻视频中标题纲要和时间，影视作品中的人物对白字幕、旁白字幕、片头和片尾；广告宣传和体育赛事中直播的比分信息等等。

三. 视频图像中文本的特点

通过分析我们得知视频图像有如下几个方面的特性：

1.几何特性：

（1）字体大小：

视频图像中字体大小不一，但在理想过程中，视频图像内的文本不会超过屏幕的一半范围。视频中的文本，由于背景的动态干扰和时间的局限，文本大小一般不会太小。

（2）排列方式：

文本可以出现在视频帧图像的各个地方，可以按任意方式排列，但通常都是水平或竖直方向排列，而且还会集中在某一部分，例如像新闻电视的标题等。虽然有些文字方向可能改变，但是为了确保观看效果，都会连续几帧图像相同，例如像电视广告等。

（3）文本间隙（字符间隔）

通常，在一行的文本，文本间隙会保持统一，具有相同的间距。几乎不会连在一起。

2.颜色特性

为了便于观看，文本的颜色通常会与背景画面形成较强的对比，同一部分的文本颜色应该具有相同或相似的颜色。

3.运动特性

在视频场景中的场景文本由于摄像的移动而发生运动，而且规律不定；人工文本则考虑到更好的为人们观看，相同内容的人工文本会持续几帧。

四. 视频图像处理

（一）视频载入

MATLAB软件自带的图像视频处理工具箱VideoReader函数能方便的获取视频的帧数等属性信息，也可获得相应的图像序列。read 函数实现对视频文件的读取。

（二）视频帧提取

通过MATLAB中VideoReader函数获取视频文件信息后，在GUI界面进行显示。其中最为重要的是对视频进行分帧处理，调用函数VideoReader进行if循环，并将视频帧图像进行临时保存到本地。

采用while循环语句，进行帧图像的读取，当变量值改变的时候，保存当前帧图像。该图像即为所选择的待处理图像。

（三）图像灰度化和二值化

1. 图像灰度化

数字图像可以分为灰度图像和RGB图像（真彩图像）。图像中的每一个像素都是由R、G、B三个分量按不同数值构成。如果三个分量相等，则表示为一种灰度色，即图像灰度化为使R、G、B三个分量相等的过程。

2. 图像二值化

灰度化图像的二值化处理在图像处理过程中不仅能使工作量减小，还能够突出目标图像的边界，以便后续的分析。在图像进行二值化前需要对图像进行灰度直方图分析，以此为基准选取合适阈值，当灰度大于所选阈值像素会被划为目标，其灰度值为255，否则为0。

（四）图像数学形态学

图像在经过了灰度化和二值化的处理过程中，导致会丢掉一些边缘像素，为了使其达到更好的效果，对二值化处理的图像进行数学形态学的填充或溶解。数学形态学的应用，可以简化数据，取消非相关结构，提高了速度。数学形态学的最基本运算主要有四种：膨胀操作、腐蚀操作、闭运算（开启）和开运算（闭合）。

五. 视频图像文本区域定位

文本定位算法主要有以下几种：

1. 基于区域的文本定位：此方法也被称为基于连通区域的文本定位方法，一般情况下，视频图像中的文本的像素点具有相同或相似的颜色，而且文本的颜色和背景的颜色差别很大。因此可以根据这一特点来分割图像[2]，通过颜色聚类等方法提取连接成分。再通过启发式规则进一步筛选，最终得到文本区域。

2. 基于边缘的文本定位：基于边缘的文本定位主要是利用背景色和文本颜色的对比度或者是根据文本边缘找出文本的位置。

3. 基于紋理的文本定位：基于纹理的文本定位方法是根据文本区域的独特特征和纹理而产生的。文本的纹理特征是文本的特定排列方式、文本颜色和背景色出现周期性变化。

4. 基于学习的文本定位：基于学习的定位算法通常有两大类：支持向量机和基于神经网络。视频图像中文本颜色和背景颜色都是多变的，色彩信息是随机不够定的。如果只考虑到文本区域的固有特征会造成局限，因此我们考虑到用一种学习的方法来对其进行分离。

本文中介绍了基于区域、基于边缘、基于纹理和基于学习的文本定位四种算法，这几种方法都具有各自的优缺点。前两种方法算法相对简单，比较容易实现；第三种方法算法复杂，增加系统的负担；最后一种方法过程复杂，需要的时间较长，它达到的效果也相对较好。因此为了弥补上述方法的不足，都会结合在一起使用，以达到更好的效果。

六. 文本识别

图像经过了上述的预处理和文本定位等处理后，便得到了待识别文本区域。文本识别过程主要有字符切分和归一化、字符的特征提取和字符模板匹配。

字符切分分为确定字符边界和单字符切分。传统字符分割方法主要有两种，第一种是基于投影的字符分割，此方法根据文本字符间距的投影出现峰谷交替的特征来将图像分为单元块；另一种为基于识别的方法，它利用一个可变窗口将文本区域进行切分为成多种单元序列组合，最后通过识别引擎确定合适的切分序列。

字符归一化是通过一定的算法将已切分的字符进行变换，使之成为大小尺寸相同的文字单元，字符归一化对后续字符的特征提取有很大意义。

模板匹配是目前比较常见的一种方法，模板匹配是在检测前有已知的目标，然后利用此模板和待识别的图像进行匹配。它是利用模板，取目标与模板相似程度最大者作为最后的输出结果。

七. 总结

本文在现有研究的基础上主要对视频帧图像中文字的检测、定位、识别方法和实现手段展开研究。课题研究的重点主要为视频帧的截取、图像预处理、图像文本定位、图像字符分割、字符模板库的创建和字符匹配及识别六个方面。在视频帧的提取上，采用MATLAB自带的图像视频处理工具箱中相关函数对视频文件进行分帧处理，获得视频相应的帧图像序列。在图像预处理方面，一是对彩色图像进行灰度化处理，二值化处理。二是对图像进行形态学运算，对其进行处理后，可减少噪声干扰对图像的影响。在文本定位方法的选取上，本文采用了扫描法。图像字符分割采用阈值分割算法。字符模板库的创建和字符匹配及识别运用的模板匹配法是图像处理中最为常用的一种，通过已知的标准模式库和图像切割字符进行灰度值比较，以此获得最佳匹配字符。

参考文献

[1] 徐鹏，视频图像中文字提取方法研究：[硕士学位论文]，天津大学，控制科学与工程，2012。

[2] 杨磊，视频图像中的文字提取技术研究：[硕士学位论文]，华南理工大学，信号与信息处理，2013。