基于图像分解的复杂图片中文字干扰消除∗

2019-08-27 11:25董剑龙王浩全

新疆大学学报(自然科学版)（中英文） 2019年3期

董剑龙，王浩全

(1.太原工业学院教务处，山西太原 030008；2.中北大学仪器科学与动态测试教育部重点实验室&电子测试技术重点实验室，山西太原030051)

如何有效消除影视剧制作过程中复杂图片内的字幕，提高视频影像的视觉效果是影视传播领域关注的话题之一．基于TV模型[1,2]或与其他算法结合[3,4]使用能有效消除非纹理图片中的文字．采用Criminisi算法[5]消除复杂图片中的文字会呈现结构断裂现象．而改进的Criminisi算法[6,7]主要是针对纹理图片中块状目标的干扰消除．本文通过图像分解将复杂图片中的结构图片与纹理图片分离，结合TV模型和Criminisi算法的优势，快速有效地消除复杂图片中的文字干扰．

1 纹理图片中文字干扰消除原理

图1为Criminisi算法用于消除纹理图片中文字干扰的示意图．图中I表示受文字干扰的图片，φ表示未受文字干扰区域，Ω表示含有待消文字的区域，∂Ω表示φ与Ω的边界，p为相对优先权最高的像素，Ψp为以像素p为中心的矩形区域，∇为p点等照度线，其大小与该点的梯度相等，方向与之垂直，np为与边界正交的单位向量．具体实现过程如下．

图1 Criminisi算法用于消除纹理图片中文字干扰的示意图Fig 1 Schematic diagram of Criminisi algorithm for eliminating text interference in texture images

1.1 寻找含干扰文字区域的边缘，确定待处理区域

在VC++环境中利用FillRegion变量对待处理区域进行标记，将受文字干扰的像素点 fillRegion置1，其他像素点置0，获得标记矩阵，如图2(a)所示．利用Laplacian算子（见图2(b)）找出受文字干扰区域的边界（见图2(c)）．边界位置确定后，扫描受文字干扰区域边界上所有像素点，以边界像素点为中心取9×9大小的像素区域作为待处理块．

图2 受干扰文字区域的边界检测示意图Fig 2 Schematic diagram of boundary detection of interference text regions

1.2 计算边界上待处理块的优先权，选出优先处理的目标块

图片文字消除过程中为保证干扰文字消除后尽可能接近图片原始状态，一般会考虑优先消除具有较多已知信息和较强结构的目标块．为此，引入置信度C(p)：

其中，C(p)为衡量待处理块中包含的已知信息，|Ψp|表示矩形区域Ψp的面积，即待处理像素块中所包含像素的个数．

此外，引入数据项D(p)来描述待处理区域的结构信息[8]：

式中，Ix和Iy分别为待处理区域中像素点p在x和y方向上的偏导数．

为保证优先消除包含较多已知信息且结构更强的待处理块，引入优先权：

1.3 搜索最佳匹配块

通过式(4)计算边界上所有待处理像素块的优先权，从中选出优先权最高的像素块作为目标块Ψ先对其进行处理，然后在待处理图片的样本块Ψq中寻找目标块的最佳匹配块Ψ，匹配准则：

即待处理图片中完好区域与目标块已知像素灰度差平方最小．

式中，I(p)为目标块内的像素值，Iq(p)为样本块中的像素值．

1.4 置信度的更新

由式(5)和式(6)找出最佳匹配块后，对目标块中对应的含干扰文字像素进行填充消除，这样块中像素点的归属发生变动，便需要对这些像素点的置信度进行如下更新：

重复1.1～1.4四个步骤直到待处理区域的干扰文字全部消除．

2 图像分解的实现

采用TV模型对非纹理图片中文字的消除有较好效果[1−4]，而利用Criminisi纹理合成算法更适用于处理纹理图像中的干扰文字[5−7]．这样针对一幅既包含结构成分又包含纹理成分的图片，可将这两种成分分离，分别做相应处理后再合成即可．

2.1 图片中结构成分的提取

改变TV模型的作用范围，将其作用于整幅待处理图片，并控制迭代次数在5∼10次，即可提取待处理图片中的结构成分．

2.2 图片中纹理成分的提取

将待处理图片与所提取的结构成分相减，即可提取待处理图片中的纹理成分．

3 仿真结果及分析

根据以上理论，仿真结果如下．图3(a)为256×256的lena原始图片，图3(b)为添加有多而小的干扰文字图片．图4是采用文献[1]中的TV模型对图3(b)进行干扰文字消除的结果．图5是利用本文中Criminisi算法对图3(b)中干扰文字消除的结果．由图4和图5可看出，采用Criminisi算法对文字的干扰消除留有残余（见红色圈内），效果不如使用TV模型好．

图3 lena图像及添加干扰文字后图像Fig 3 Lena image before and after adding interference text

图4 采用TV模型处理结果Fig 4 Results using the TV model

图5 本文算法处理结果Fig 5 Results using by the algorithm presented in this paper

此外，我们对受相同文字干扰的纹理图片采用TV模型和本文算法分别进行了处理，结果如图6所示．从图6(b)中可观察到干扰文字的痕迹，图6(c)中文字干扰几乎不可见．可见，本文中Criminisi算法更善于处理纹理图片中的文字干扰．

图6 对纹理图片中的干扰文字消除结果Fig 6 Results of interference text elimination in texture images

针对TV模型与Criminisi算法的优势，对复杂图片（见图7(a)）进行图像分解来改善效果．本文采用TV模型迭代8次获得图7(a)的结构成分，如图7(b)所示，再用原图减去结构成分，得到图7(a)的纹理成分，如图7(c)所示．对图7(b)和图7(c)分别采用TV模型和本文中Criminisi算法消除干扰文字后结果如图8(a)和8(b)所示．从图8(a)和8(b)可以观察到文字干扰消除效果显著，但图8(a)中纹理部分有明显受损痕迹，图8(b)中结构部分具有明显受损痕迹．可见，单独使用一种算法对既包含丰富纹理信息，又包含丰富结构信息的文字干扰图片进行消除并不能够得到理想结果，但两种方法结合使用，效果显著，如图8(c)所示．

图7 复杂图片中结构成分和纹理成分的提取Fig 7 Extraction of structural components and texture components in complex images

图8 复杂图片中的干扰文字消除结果Fig 8 Results of interference text elimination in complex images

4 小结

Criminisi算法依据特定匹配原则在全局范围内寻找最佳匹配块对目标区域进行复制填充消除干扰文字，有效地解决了基于TV模型算法不适用于纹理图片这一缺点，而TV模型算法对于非纹理图片中文字干扰的消除效果相比Criminisi算法却能达到效果更佳．文中对复杂图片进行分解后充分利用基于TV模型算法和Criminisi纹理合成算法各自的优点，对复杂图片中的结构分量和纹理分量进行分别处理，结果表明相较于单一算法而言，本文中提出的算法具有更强的适用性，这也为今后的研究工作提供了新思路．