重构色彩空间下陈旧印章印文自适应Canny检测

2023-09-20 10:36康雅琪郎宇博王运宏
计算机仿真 2023年8期
关键词:印文陈旧印章

康雅琪,孙 鹏,2*,郎宇博,王运宏

(1. 中国刑事警察学院,辽宁 沈阳110854;2. 司法部司法鉴定重点实验室,上海200063)

1 引言

陈旧印章印文常作为重要凭证出现在档案材料、金融票据等一系列重要文件中,是对陈旧文件进行管理的重要依据。印文边缘检测结果以较少的数据量存储较多规格特征信息,印文规格特征可以为同一性认定提供依据,进行批量印文检验鉴定时可提高计算效率。在实际场景中,历时性变化的陈旧印章印文表面会产生杂点、缺失点或部分氧化变色从而影响分割和提取过程[1]。

文献[2]提出利用光谱成像技术采集书画中模糊印章的图谱-图像信息,采用最小噪声分离变换处理书画文物中模糊印章印文信息,但没有有效提取印章信息;文献[3]提出对HSV彩色空间中三个通道分别设置阈值范围,自适应提取后进行矩阵合并,进而提取印章区域。该算法消除无关背景信息以得到陈旧印章印文主体图像,但没有尝试分析字符边缘信息;文献[4]开发一个字符识别系统以分析古代文献,但未考虑陈旧档案背景复杂性以及印文字符旋转特性;文献[5]提出利用边框宽度特征和结构特征从印文图像中提取字符,其数据库为单一背景中印文图像,未涉及复杂背景中的陈旧印章印文。

目前针对陈旧印章印文的识别方法主要集中在定位及提取红色分量部分,为了实现对陈旧印章印文数字化管理,本文在陈旧印章印文边缘检测方面做了尝试,提出一种基于新的色彩空间和自适应Canny的陈旧印章印文边缘检测方法。在预处理阶段针对陈旧印章印文图像背景复杂的特点,对RGB图像各分量进行分析并构建新色彩空间以用于提取陈旧印章印文,再进行形态学处理。在边缘检测阶段,针对陈旧印章印文特点,提出基于双边滤波和自适应阈值的改进Canny算法,有效检测陈旧印章印文边缘,为进一步开展印章印文检验鉴定和提高陈旧文件数字化管理效率提供保障。

2 陈旧印章印文图像预处理

2.1 陈旧印章印文图像的特征分析

陈旧印章印文大多为红色,承痕体为有字迹的普通纸张,纸张经历时性演变后可能会因霉变产生杂点、缺失点或因氧化而变色等,对观察提取陈旧印章印文产生影响[6]。因此在数据预处理过程中,应先从复杂背景中分割出陈旧印章印文。真实陈旧印章印文图像如图1所示。

图1 陈旧印章印文图像

2.2 构建新色彩空间

RGB图像中每个彩色点都可以用RGB坐标系统中从原点延伸到该点的一个向量来表示[7,8]。令c代表RGB色彩空间中的一个任意向量,如式(1)所示

(1)

Retinex理论指出人眼感知到印章印文主体颜色分量与背景颜色和亮度有关,为了排除背景颜色干扰,本文提取目标为红色R,干扰分量为绿色G与蓝色B,利用R,G,B通道的组合分量构建适用于将陈旧印章印文主体从背景中分离的新色彩空间SN,其中参数S=R-G,N=R-B。

以图1为例,参数S和N的直方图数据如图2所示。

图2 SN色彩空间直方图数据

进一步观察RGB色彩空间三维网格曲面图[9],图3(a)蓝色区域为印文主体和部分背景字迹,紫色为背景纸张,由图3(b)可知,背景与印章印文主体难以通过简单阈值进行分割。

图3 RGB色彩空间三维网格曲面图

观察SN色彩空间三维网格曲面图,图4(a)中白色为陈旧印章印文主体,黑色为背景。由图4(b)可知,背景分量与印章印文主体可通过简单阈值进行分割,在图4(b)中Z=35处可有效分割背景分量和印章印文主体。

图4 SN色彩空间三维网格曲面图

在待处理RGB图像在SN色彩空间的直方图和三维网格曲面图中,最佳阈值用I表示,S、N都大于设定阈值I时,输出彩色图像G(x,y)为对应R,G,B图像色彩分量,否则,输出彩色图像的G(x,y)的R,G,B色彩分量值均赋值为255,如式(2)所示

(2)

其中阈值I为SN直方图左侧高峰的右侧低点,是像素值变化趋势趋于平缓的开始点,选择阈值I进行简单的阈值分割[10]。

2.3 形态学处理

将陈旧印章印文提取出来后,观察图像背景中有少量红色孤立点,陈旧印章印文内部有少量白色空隙,为了避免误检、漏检,对印章印文图像进行形态学处理[11,12]:

1)闭运算处理。分割后陈旧印章印文图像背景仍存在有少量红色孤立点,闭运算可以消除背景上红色孤立点,平滑图像局部边缘,同时维持面积相对不变,避免出现大量虚假边缘。

2)两次腐蚀处理。为了填补陈旧印章印文图像内部空白间隙,运用两次腐蚀处理,避免陈旧印章印文内部空隙被误检为边缘。

经形态学处理后的图像去除了陈旧印章印文图像背景中红色孤立点,并填补了内部白色空隙,平滑了目标物体区域边缘,形态学处理结果细节如图5所示。

图5 形态学处理后细节图像

3 基于双边滤波和自适应阈值的Canny算子

3.1 双边滤波

经形态学处理后的陈旧印章印文图像中仍存在部分噪声破坏空间整体信息的均匀性。Canny算子中的高斯滤波考虑各像素之间的空间关系,易丢失边缘信息而导致边缘模糊,改进Canny算子用双边滤波代替高斯滤波,能减少边缘丢失,滤除噪声且保存边缘[13],双边滤波用公式表示为

(3)

(4)

(5)

其中:V(k,l)为过滤区域内各个像素点的值,Vb(x,y)为图像滤波后输出的像素值;ωd是根据像素空间距离分配权重的定义域核;ωr为根据像素相似度分配权重的值域核。

高斯滤波处理后图像边缘模糊,内部细节过多,平滑效果欠佳;双边滤波处理图像边缘清晰,保留内部主要特征且平滑效果相对较好,如图6所示。

图6 滤波平滑处理细节图对比

图7 自适应Canny的陈旧印章印文边缘检测流程图

3.2 自适应阈值

传统Canny算子中高低阈值的参数需要通过多次试验来人为设置,这种方法鲁棒性较差[15],常见的阈值自适应方法有Otsu算子、微分运算,不适用于本文单一色彩边缘检测。本文提出结合均值、方差信息来对每张图像实现自动化提取阈值,图像均值表示图像亮度,图像方差表示图像对比度,使用统计的信息数据进行大量实验后得到最佳参数,具体计算过程如下

(6)

其中:E(X)表示对于图像中所有像素点数据的平均值;E{∑[X-E(X)]2}表示对各个数据与均值的差的平方和求期望得到的方差。

通过式(7)可求得高低阈值

Tupper=q*T

Tlower=p*T

(7)

式中q与p用于确定阈值百分比,取值范围为[0,1]通过大量实验产生的良好结果表明,q=0.5;p=0.4时效果最佳。T为计算得到对应值,结合q、p参数自动构建两个高低阈值:Tupper为高阈值;Tlower为低阈值。此方法在同类陈旧印章印文图像的运用上能节约调节参数时间,特别是大批量处理图像时,在提高边缘提取效率的同时简化操作流程。

4 实验

4.1 实验设置

本文收集印章盖印时间为1956年到2000年不等60份文件,扫描后统一剪裁(分辨率1288*1288)并编号构建本文数据集。实验在MATLAB 2020b平台上遵循控制变量原则,在构建的SN色彩空间上提取陈旧印章印文主体颜色分量,运用.Calinski-Harabasz指标对实验有效性进行客观评价,观察分析结果进行主观评价。运用基于双边滤波的自适应Canny算子对形态学处理后的提取图像进行边缘检测得到实验结果,与传统Canny算子、LoG算子、Prewitt算子和Roberts算子边缘检测结果做比较,对结果进行主观评价及引入峰值信噪比(PSNR)、均方差(MSE)指标进行客观评价。

4.2 实验结果

4.2.1 色彩分量提取对比

以RGB色彩空间、YCbCr空间、SN色彩空间来提取陈旧印章印文主体颜色分量,对比提取效果来验证SN空间提取陈旧印章印文的可行性。在提取陈旧印章印文主体色彩分量时,观察各色彩空间的直方图做简单的阈值分割。得到结果如图8所示。

图8 不同色彩空间提取陈旧印章印文对比

由图8(a)可见,RGB色彩空间进行阈值分割残留大部分背景颜色分量,不能很好地把陈旧印章印文主体颜色分量与背景分离开;图8(b)背景上存在很多杂点及字迹的边缘没有被很好的滤除;图8(c)很好的提取出陈旧印章印文主体色彩分量,并滤除了大部分背景色彩分量,阈值分割效果相较更好。

为进一步验证上述结论,本文采用CH指标,对SN色彩空间提取陈旧印章印文主体颜色分量效果进行客观指标验证。CH指标是所有数据的类间离散度和类内离散度的比值,CH值高表明两类数据的类间离散度高,类内离散度低,有利于分离背景和陈旧印章印文。引用CH评价数据集中图像,结果取平均值如表1所示。可以直观的发现,SN色彩空间的CH指标高于RGB色彩空间与YCbCr色彩空间。

表1 各色彩空间CH评价

4.2.2 边缘提取效果对比

本文用常用边缘检测算子与本文算子对数据集中的陈旧印章印文图像进行边缘检测,为了更好地展示检测结果,把二值化结果取反为白背景黑边缘,如图9所示。传统Canny算子边缘检测印章印文主体内部虚假边缘较多,杂乱线条、孤立点较多,边缘不清晰,纹理细节描述较模糊;LoG算子边缘检测结果外圆框内存在部分虚假边缘,文字内部存在虚假边缘、杂乱线条,边缘不明确;Prewitt算子和Roberts算子虚假边缘与杂乱线条较传统Canny算子和LoG算子少,但Prewitt算子比本文算法杂点要多,Roberts算子文字边缘仍存在多线条平行、不清晰状态,双边缘现象明显。本文改进Canny算子用双边滤波代替高斯滤波来平滑,更好的保边去噪;采用自适应连接边缘可以根据每张图的信息来确定阈值大小,检测结果定位更准确,噪点明显减少,虚假边缘少,提取目标细节特征更清晰。

图9 数据集图像检测结果比对

用本文方法对样本库图像进行检测后,随机取十张图像检测结果及数据集的平均值如表2所示。通过数据比对可以看出,本文方法在PSNR、MSE上优于传统算子,可以更精确的定位边缘,得到的结果更能保留陈旧印章印文主体的完整性。

5 结论

本文提出了重构色彩空间下陈旧印章印文自适应Canny检测方法。针对陈旧档案中印章印文表面可能变色和出现杂点的问题,构建新的SN色彩空间从背景中分割出陈旧印章印文,形态学处理陈旧印章印文以消除杂点、填补空缺点。针对传统边缘检测算子检测结果虚假边缘、杂点较多的问题,提出基于双边滤波的自适应阈值Canny算子检测图像边缘。主观视觉感受及客观评价指标验证了本文方法提取陈旧印章印文主体颜色分量的有效性以及实现陈旧印章印文边缘检测所具有良好的检测性能。

猜你喜欢
印文陈旧印章
我们有印章咯
小区管理为何容易陷入“纷争”——手段陈旧是主因
基于印文印迹特征判别印章类型技术的研究
浅谈司法鉴定中手工制作硬质印章因盖印条件不同而形成的差异
陈旧的谎言
自制橡皮印章
印章
关于光敏印章印文鉴定问题的分析
放血疗法治疗陈旧热痤疮
大象的印章