基于分水岭的图像分割训练样本的自动选择和标注

2018-01-02 06:52张荣张烁
关键词:分水岭训练样本个数

张荣,张烁

(1.山西医科大学,山西 太原 030001;2.山西青年职业学院,山西 太原 030032)

基于分水岭的图像分割训练样本的自动选择和标注

张荣1,张烁2

(1.山西医科大学,山西 太原 030001;2.山西青年职业学院,山西 太原 030032)

图像分割是图像理解、模式识别、计算机视觉等研究方向的一个重要研究内容。图像分割的方法有很多,将支持向量机(Support Vector Machine,SVM)应用于图像分割已是一种较为广泛的分割方法,但该方法大多采用人工方式来选取训练样本,降低了图像分割的自适应性,且有可能影响图像分割的质量,因此基于支持向量机的图像分割方法的研究内容是如何自动选择足够多且分布良好的训练样本,并自动进行类别标注。文章提出一种基于分水岭的图像分割训练样本的自动选择和标注方法,分水岭分割区域的中心点可以看作支持向量机的训练样本,将选取的训练样本对照分割参考图中的像素点进行类别标记。然后对训练样本进行训练,其中选择图像的颜色特征和纹理特征作为训练样本的特征属性。文章采用的彩色图像来自Berkeley图像数据库以及互联网,从实验结果可以看出文中提出的方法可取得很好的分割结果。

图像分割;分水岭;支持向量机

0 引言

图像分割是模式识别和图像处理的重要前提,其分割结果将直接影响对图像的理解和识别。图像分割是指将图像中的不同区域区分开来,划分后的区域是互不相交的,且同一个区域内的每一个元素满足一个特定的准则。图像分割方法有很多,例如神经元网络方法[1]、基于区域的方法[2]、特征空间聚类[3]、直方图阈值法[4]、边缘检测方法[5]等。不同的分割图像算法特点不同,有的对复杂图像效果不理想,有的分割速度缓慢,有的需要先验信息,有的鲁棒性差,存在一定的局限性。

支持向量机[6]是基于统计学习理论的机器学习方法,已经广泛应用于数据挖掘、图像分类、模式识别等多个领域。近年来很多基于支持向量机的图像分割方法[7-10]被很多学者关注并研究,该方法的本质大都基于分类,其分割思想是先在图像中选取训练样本,训练SVM模型,再用SVM模型对图像进行分割。但是SVM是一种有监督的分类器,训练分类器的训练样本需要人工给出,如文献[8]提出的FSVM算法,该算法在训练分类器时需要人工给出训练样本,而人工选取训练样本具有主观性,会导致随机性较大,严重影响分割结果。本文在选取训练样本时充分利用了分水岭算法的特点,即可将图像分为相互独立的区域,选取各个区域的中心点作为SVM的训练样本,这样选取的训练样本分布均匀,更具有代表性,弥补人工选取的不足,提高SVM模型的自适应性,并且结合具有很好泛化性能的SVM学习方法来分割彩色图像。

1 基于分水岭算法的图像分割训练样本的自动选择和标注

人工选择和标记训练样本是大多基于支持向量机的图像分割方法必须做的,所以由于非自动选取训练样本带来的主观性导致图像分割结果有很大的不同。人工选取训练样本带有主观性,容易影响训练结果,所以如何避免主观性带来的不良影响是基于支持向量机的图像分割方法需要解决的问题。本文方法利用分水岭算法的特点和支持向量机很好的泛化性,首先用分水岭算法分割图像,训练样本的选取由分水岭分割区域的中心点决定,然后预分割图像得到二值图作为分割参考图,其中二值图由Otus法得到。对样本类别的自动标注可通过将所选训练样本与分割参考图对照来完成,最后用训练样本训练SVM模型从而完成对图像的分割,其中我们选择图像颜色特征和纹理特征作为训练样本的特征属性[11]。

1.1 基于分水岭算法的图像预分割

Vincent于1991年提出的分水岭算法[12]是一种形态学分割算法。分水岭算法是一种区域增长算法,优点有运算简单、边缘定位准确、易于并行处理等。但图像在处理过程中由于容易受到噪声的影响,以及图像本身细节的存在,使图像可能含有大量的伪极小值,这些伪极小值容易造成分水岭产生严重的过分割现象,即图像被分割成过多的小区域,从而无法得到感兴趣的目标。

对于分水岭的过分割现象可以采用以下三种方法改进:(1)预处理。预处理的目的是限制区域个数[13],这里我们可以借助先验知识对图像进行预处理。 (2)过程处理。过程处理可以去除伪极小区域,即在图像分割过程中添加约束条件。(3)后处理。图像分割后,可用某种准则合并分割区域。本文分水岭分割方法使用预处理作为改进算法。

1.1.1 构建梯度图像

1.1.2 标记提取

由于噪声和梯度的其他局部不规则性,导致分水岭变换直接用于梯度图像时容易产生过分割现象。为了得到可用的分割结果,我们采用预处理的改进方法,即将先验知识带到分割过程中,进一步限制区域数目。通过标记提取的方法可以去除梯度图像中的伪局部极小值点,使分割区域减少。控制过分割的一种方法是对图像中物体进行标记。扩展最大变换(H-maxima)技术[15]是基于数学形态学的图像标记方法,本文采用这种方法在梯度图像中提取区域极大值作为标记,其中参数h为高度阈值,决定了分割区域的个数。该过程可由以下几步实现:一、目标标记图像即内部标记图像提取。二、背景标记图像即外部标记图像提取。三、修正梯度图像,抑制过分割现象。最后,用分水岭算法对修正后的梯度图像进行分割。

1.2 基于分水岭算法的训练样本的选取

分水岭分割后的图像会产生很多大小不一的封闭区域,本文利用这些区域完成SVM训练样本的自动选取。基于SVM的图像分割方法只有在训练样本选取的数量适中且分布均匀情况下才能得到较好的实验结果。本文选取训练样本的过程如下:

(1)求分水岭分割区域平均灰度值。每个区域由若干个像素点构成,每个像素点的灰度值可由表示,(0

(1)

(2)确定区域中心点。每个区域的中心点可以定义为与区域平均灰度值Ci相同或最接近的某个像素点。则O={O1,O2,O3,…,ON}为区域中心点集。其中N为分水岭产生的区域个数。由此区域中心点集O就构成了SVM的训练样本。

1.3 训练样本的标注

自动选取的训练样本并未标记类别,本文用选取的训练样本与分割参考图对照进行标注。这里的分割参考图由最大类间方差法(Otus法)求得。Otus法是一种经典的自适应选取阈值的分割方法,其思想是利用图像中的灰度直方图,将前景和背景之间的最大方差确定图像分割阈值。该算法首先提取图像在HSV空间的H参数,用Otus法得到二值图,该二值图需进行去杂和填充,但此时得到的二值图还不能完全凸显出目标区域使得前景与背景完全分割开,该二值图将作为参照图对类别进行标记。我们将选取的训练样本一一与二值图对应,如果该样本对应二值图的前景则标记为正类,否则标记为负类。图1为训练样本的标记说明图,其中(a)为原始图像,(b)为分水岭分割图,(c)为分割参考图。将图(b)中选取的训练样本与图(c)相对应,若该训练样本在图(c)中为目标区域,则将训练样本标记为正类,否则标记为负类,如图(b)中的黑色圆点为我们选取的训练样本,经对照可知该训练样本对应分割参考图的前景,则标记为正类,同理,黑色方块代表的训练样本对应分割参考图的背景,则标记为负类。

(a)原始图像 (b)分水岭分割图 (c)分割参考图Fig.1 Description of training samples图1 训练样本的标记说明图

1.4 特征向量的提取

基于支持向量机的图像分割方法,其本质思想就是对像素点分类。图像包含的像素信息构成了训练样本和测试样本的属性,如形状特征、纹理特征、颜色特征、和空间关系特征。其中将颜色特征作为训练样本的特征属性在图像分割方法中较常使用,但图像区域的方向、大小等变化以及颜色空间分布的情况只由颜色特征无法表示。为了更好地反映图像的区域性质和像素灰度值得空间分布情况,我们亦可采用图像的纹理特征。所以本文将图像的颜色特征和纹理特征共同作为像素点的特征属性。

(1)颜色特征的提取

彩色图像在RGB颜色空间下每个像素点有R、G、B三个通道的特征值,可以表示为

其中高高聚集区主要有:中山区的南部沿地区海石槽村景区以及滨海中路秀月峰附近;中山区北部人民广场、青泥洼桥、友好广场、中山广场、港湾广场、会议中心沿线附近,此外还有中山公园、劳动公园、大连植物园、东港、威尼斯水城、大连国际会议中心区域;西岗区主要分布在滨海西路、付家庄公园和金沙坪景区周围;沙河口区南部的星海广场周围。

(2)纹理特征的提取

图像的纹理特征是人眼视觉的重要组成部分,它可以表达图像深度等信息,反映图像颜色和灰度的变化。Gabor小波[16]是一种重要的特征提取方法,其本质思想是基于变换。Gabor小波具有多尺度和多方向性的特点,我们利用Gabor小波的特性对图像进行分析,这样不仅可以消除冗余信息,还可以有效地将纹理特征提取出来。Gabor小波在很多方面都有广泛的应用,例如在基于内容图像检索、模式识别和计算机视觉等领域。

由于Lab颜色空间比RGB颜色空间更接近人类视觉,所以我们用Lab颜色空间表示图像。图像的亮度信息由L通道表达,图像的颜色信息由a和b通道表达。用Gabor滤波器对图像提取局部能量值,即分别对L、a和b通道进行小波变换。此实验中设定Gabor滤波器组的方向数和尺度数分别为4,因此共有4×4=16个滤波器,其中方向分别设定为0°、45°、90°和135°。每个像素点可对应16个滤波结果,我们选取幅值最大的作为该点的取值。

(2)

式中,ψ为幅值矩阵,I为原始图像,gk为滤波窗口,特征值表示为:

1.5 训练SVM分类器进行图像分割

本文用F(Crj,Cij)表示训练样本的特征向量,根据公式(1)计算出分水岭产生的各个区域的灰度平均值,得到区域中心点集O={O1,O2,O3,…,ON},其中N为分水岭产生的区域个数。有了训练样本后我们对样本进行类别标记,并且将提取的特征向量(颜色和纹理特征)作为特征属性,然后对SVM模型进行训练,最后用训练好的SVM分类器对所有像素点进行分类,即分割图像。本次实验中为了便于观察,我们让前景显示为黑色,背景显示为白色,也就是将分为正类的像素点的RGB三个分量值均置为0,将分为负类的像素点的RGB三个分量值均置为255,得到最终的分割图像。

(Ⅰ)原图 (Ⅱ)改进分水岭分割图 (Ⅲ)Otus阀值分割图 (Ⅳ)最终分割结果图 (Ⅴ)最终分割结果图Fig.2 Segmentation process and result of color image图2 彩色图像的分割过程及结果

图2的彩色图像来自互联网,分步说明本文方法的分割过程和结果。(Ⅰ)为原始图像,(Ⅱ)为改进的分水岭方法分割图。由于噪声和梯度等局部不规则性使得分水岭的过分割现象较为严重,会产生大量不可用的分割区域,这里我们对分水岭算法进行改进,用控制标记符方法限制分割区域个数。(Ⅲ)为Otus阈值法分割图。(Ⅳ)为分割参考图。(Ⅴ)最终分割结果图。

2 实验结果及分析

实验环境为 MATLAB R2015a。实验中用到的所有图像均为自然彩色图像,自于加州大学伯克利分校图像数据库[17]和互联网。来自互联网的图像大小为800×532,来自伯克利图像数据库的图像大小为481×321。为了更好地验证本文算法性能,本次实验采用近100幅彩色图像进行算法验证,为了便于说明,这里仅选取其中6幅图像的分割结果。其中将多项式核函数作为支持向量机模型。

为了分析不同阈值对分水岭算法分割图像的影响,进而导致最终分割结果图的不同,本文分别选取阈值为6、11、16、21进行实验,图3列出了本文算法在不同阈值取值下的分割结果。第一行的4幅图为用改进后分水岭算法在不同阈值下得到的分割结果,第二行为本文方法分割结果。从图中的实验结果可以看出,随着阈值的不断增大,分割区域数目不断减少,阈值h是影响分割结果的重要参数,分水岭分割区域个数以及SVM训练样本的个数均由阈值h决定。实验结果从视觉上来看当阈值h=6时,所得到的分割最好。

Fig.3 Results of the segmentation at different thresholds by watershed图3 分水岭分割时不同阈值得到的分割结果

Fig.4 Comparison between the results of segmentation by this paper and manual segmentation图4 本文方法分割结果与人工分割结果比较

图4是本文分割结果与人工分割结果的对比,从来自加州大学伯克利分校图像数据库中的100幅自然彩色图像的分割效果图中选取5幅进行说明比较。(Ⅰ)为原始彩色图像;(Ⅱ)为采用传统SVM方法分割图像时人工选取的样本点。实验中选取前景点和背景点各50个,所选的点基本分布均匀;(Ⅲ)为传统SVM方法人工分割结果;(Ⅳ)为文献[7]方法分割结果。(Ⅴ)为本文方法分割结果。图像(A)-(E)阈值h设为6,图像(E)阈值h设为47。(Ⅵ)为数据图像库中人工标注结果。从图(Ⅲ)中可以看出,第1幅图的分割结果较不理想,很多背景点被当作目标区域,第3幅图整体分割结果较为清晰,但有些细节部分如圆形红色房顶未能凸显。第2幅图和第4幅图,分割效果模糊,不能有效突出前景,效果并不理想。第5幅图分割效果较好。为了验证训练样本个数对分割结果的影响,我们将训练样本前景点和背景点分别设定为30和100,所得实验结果没有太大差别,说明训练样本的个数对分割效果的影响较小,而训练样本的分布情况对分割效果的影响较大。由此可知基于SVM的图像分割方法的分割性能取决于训练样本的选取,人工选取训练样本随机性较大,导致分割结果大不相同。文献[7]方法是通过模糊c均值聚类算法先将像素点分类,然后在两类样本中随机选取训练样本。从分割结果可以看出,第1、2和4幅图分割效果较好,目标区域较为突出,但第3和第5幅图分割较不清晰,可以说明训练样本的分布情况会直接影响SVM模型分割图像的结果。通过对不同彩色图像的分割结果比较可以看出,本文方法和前两种方法相比分割效果更好,目标区域更清晰,针对不同特点的图像都能得到很好的分割结果,突出目标区域,有效地将前景和背景分割开,分割结果与人工分割结果基本一致。

为了进一步评价本文方法的性能,本文采用分类正确率accuracy描述图像的分割性能,定义如下:

(3)

其中FT表示前景点分类正确的个数,FF表示前景点分类错误的个数,BT表示背景点分类正确的个数,BF表示背景点分类错误的个数。

表1列出了图4(a)中(A)-(E)五幅图像分别选取不同阈值时所得训练样本个数及分类正确率。图4(A)-(D)的阈值设定为6、11、16和21,图(E)的阈值设定为46、51、56和61。这里的阈值设定并没有统一的标准,主要根据图像的性能来设定。从表中可以看出,分类正确率和训练样本个数与阈值的大小有直接的关系。随着阈值不断越大,训练样本的个数不断越少,分类正确率也不断降低。图4(A)-(C)在阈值设为6、11、16和21时分类正确率基本一致,随着阈值的不断增大图4(D)的分类正确率不断降低,由于图(E)的彩色饱和度较高,我们将阈值设定为46、51、56和61,在阈值取值为46、51和61时分类正确率较高,随着阈值的不断增加导致分类正确率不断降低。图4中的5副图像在阈值设置最优时,自动选取的训练样本个数与图像像素点个数的比例分别为:0.12%、0.28%、0.38%、0.12%和0.29%。通过上述比较可以看出本文方法在选取较少训练样本个数的情况下仍可得到较高分类正确率。

表1 图4中(A)-(E)五幅图在不同阈值下所得训练样本个数和分类正确率Table 1 Fig.4(A)-(E)five pictures at different thresholds under the number of training samples and classification accuracy rate

(4)

(5)

(6)

3 结束语

本文提出一种基于分水岭的图像分割训练样本的自动选择和标注算法。训练样本的自动选择是基于分水岭算法,且通过与分割参考图对照进行类别标注,实现了彩色图像的自动分割。本文方法不仅从视觉效果上可以直观看到较好的分割结果,从数据统计上也可得到很好的验证。但是仍有一些图像分割效果并不理想,这些图像有的颜色种类太多,有的背景较为复杂,所以如何使算法更具普遍性是未来研究的重点。

[1] Ong S H,Yeo N C,Lee K H,etal.Segmentation of Color Images Using A Two-stage Self-organizing Network[J].ImageandVisionComputing,2002,20(4):279-289.DOI:10.1016/S0262-8856(02)00021-5.

[2] Tremeau A,Borel N.A Region Growing and Merging Algorithm to Color Segmentation[J].PatternRecognition,1997,30(7):1191-1203.DOI:10.1016/S0031-3203(96)00147-1.

[3] Zahid N,Limouri M.Essaid A.A New Cluster-validity for Fuzzy Clustering[J].PatternRecognition,1999,32(7):1089-1097.DOI:10.1109/ICPR.2010.575.DOI:10.1016/S0031-3203(98)00157-5.

[4] Ohlander R,Price K,Raj R D.Picture Segmentation Using A Recursive Region Splitting Method[J].ComputerGraphicsandImageProcessing,1978,8(3):313-333.DOI:10.1016/0146-664X(78)90060-6.

[5] Fan J,Aref W G,Hacid M S,etal.An Improved Automatic Isotropic Color Edge Detection Technique[J].PatternRecognitionLetters,2001,22(13):1419-1429.DOI:10.1016/S0167-8655(01)00082-4.

[6] Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1995.DOI:10.1007/978-1-4757-3264-1.

[7] 张荣,王文剑,白雪飞.基于训练样本自动选取的SVM彩色图像分割方法[J].计算机科学.2012,39(11):267-271.DOI:10.3969/j.issn.1002-137X.2012.11.063.

[8] Yu Zhiwen,Wong Hausan,Wen Guihua.A Modified Support Vector Machine and Its Application to Image Segmentation[J].ImageandVisionComputing,2011,29(1):29-40.

[9] Bai X,Wang W.Principal Pixel Analysis and SVM for Automatic Image Segmentation[J].NeuralComputingandApplications,2016,27(1):45-58.DOI:10.1007/s00521-013-1544-2.

[10] Nichat A M,Ladhake S A.Brain Tumor Segmentation and Classification Using Modified FCM and SVM Classifier[J].Brain,2016,5(4).

[11] 张荣.基于训练样本自动选取的SVM彩色图像分割方法研究[D].太原:山西大学,2013.

[12] Vincent L,Soille P.Waters Heds in Digital Spaces:an Efficientalgorithm Based on Immersion Simulations[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1991,13(6):583-598.

[13] Gao H,Siu W,Hou C.Improved Techniques for Automatic Image Segmentation[J].IEEETrans.onCir-cuitsandSystemsforVideoTechnology,2001,11(12):1273-1280.DOI:10.1109/76.974681.

[14] O’Callaghan R J,Bull D R.Combined Morphological-spectral Unsupervised Image Segmentation [J].IEEETransonImageProcessing,2005,14(1):49-62.

[15] Gonz Lez R C,Woods R E.Digital Image Processing[M].Upper Saddle River:PrenticeHall,2008.

[16] 张刚,马宗民.一种采用Gabor小波的纹理特征提取方法[J].中国图像图形学报,2010,15(2):247-254.DOI:10.11834/jig.20100210.

[17] Fowlkes C,Martin D,Malik J.Local Figure-Ground Cues are Valid for Natural Images[J].JournalofVision,2007,7(8):1-9.DOI:10.1167/7.8.2.

AutomaticSelectionandLabelofTrainingSamplesoftheImageSegmentationBasedonWatershed

ZHANG Rong1,ZHANG Shuo2

(1.ShanxiMedicalUniversity,Taiyuan030001,China;2.ShanxiYouthVocationalCollege,Taiyuan030032,China)

Image segmentation is an important research field of pattern recognition, image understanding and computer vision. Support vector machine (SVM) is widely used now in image segmentation, but the training samples are usually selected artificially,which will reduce the self-adaptability and affect the classification performance of image segmentation. How to automatically select enough and well distributed training samples and label categories are the emphasis of the image segmentation approach based on SVM. This paper presents an automatic approach to select and label training samples for the image segmentation based on watershed.The center of the watershed segmentation region can be regarded as the training sample of the support vector machine, and the selected training samples are divided into the pixel points in the reference image.Moreover,the training samples are trained, and the color feature and texture feature of the image are selected as the characteristic attributes of the training samples. The color image came from the Berkeley image database and the Internet. The experimental results show that the proposed method can get good segment results.

image segmentation;watershed;support vector machine

10.13451/j.cnki.shanxi.univ(nat.sci.).2017.04.015

2016-12-06;

2017-02-23

山西省青年科技研究基金(2015021091);高等学校科技创新项目(2015109)

张荣(1987-),女,助教,硕士,研究方向为机器学习及图像处理。E-mail:zhangrong429@163.com

TP319

A

0253-2395(2017)04-0756-07

猜你喜欢
分水岭训练样本个数
怎样数出小正方体的个数
选 择
人工智能
等腰三角形个数探索
怎样数出小木块的个数
2019,一定是个分水岭!
怎样数出小正方体的个数
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法