宫颈细胞图像的特征提取与识别研究

2016-08-08 03:09刘艳红罗晓曙
关键词:支持向量机

刘艳红,罗晓曙,陈 锦,郭 磊

(广西师范大学电子工程学院,广西桂林541004)



宫颈细胞图像的特征提取与识别研究

刘艳红,罗晓曙,陈锦,郭磊

(广西师范大学电子工程学院,广西桂林541004)

摘要:宫颈涂片的检查是诊断宫颈癌的最有效手段之一,而传统的宫颈细胞识别系统存在很大的局限,例如假阴性率和假阳性率过高。本文为了提高宫颈细胞涂片诊断的效率和准确率,首先提取宫颈细胞的形态特征和极径灰度中值,然后采用AdaBoost-SVM多特征融合分类器进行分类。实验研究结果表明:通过特征提取方法与AdaBoost-SVM多特征融合分类器结合,明显提高了宫颈细胞涂片筛查的效率和准确率,降低了宫颈癌的误诊率。

关键词:极径;灰度中值;支持向量机;AdaBoost;AdaBoost-SVM分类器

0引言

根据全球的流行病报道,宫颈癌是现代女性的杀手之一,全世界每年新增的宫颈癌患者50多万。宫颈癌的癌变是一个连续发展的过程,有相当长的癌病变节时段,宫颈细胞癌变前期到宫颈浸润癌一般需要8~10年时间,所以早期筛查成为宫颈癌的预防和治疗的关键之一。一些发达国家定期让妇女参加宫颈筛查,现在他们的宫颈癌发病率相当低[1]。根据WHO调研报告,如果发展中国家每5年对妇女做一次宫颈癌早期筛查,全球宫颈癌的死亡率可能下降60%。目前传统方法是通过人工阅片来筛查宫颈癌的癌变,这种方法会使判读结果出现较高的假阴性率和假阳性率,识别效率也低。为了提高宫颈细胞涂片诊断的效率和准确率,本文利用计算机技术并结合有关算法,首先提取宫颈细胞的形态特征(几何与纹理特征)和极径灰度中值,然后将支持向量机SVM与AdaBoost迭代算法结合起来,形成AdaBoost-SVM多特征融合分类器[2],实现对宫颈细胞的几何、纹理特征和极径灰度中值的多特征融合识别。

1宫颈细胞图像的特征提取

本文的实验数据来源于Herlev宫颈细胞图像数据集(http://labs.fme.aegean.gr/decision/downloads),Herlev宫颈细胞图像数据集是由丹麦技术大学(TechnicalUniversityofDenmark)和Herlev大学医院(HerlevUniversityHospital)联合开发的。宫颈单细胞图像包括七类(如图1所示):正常上皮宫颈细胞、正常中层宫颈细胞、正常柱状宫颈细胞、轻度异常宫颈细胞、中度异常宫颈细胞、重度异常宫颈细胞、宫颈癌细胞。JensenB.[2]提出使用模糊神经网络分类器识别500张,但是识别率较低。NikolaosAmpazis等[3]提出使用神经网络识别宫颈细胞图像,提取20种形态,用神经网络训练,实现七分类平均识别率80.70%,最高识别率为88.90%。YannisMarinakis等[4]使用邻近分类器(Nearestneighborbasedclassifiers)对宫颈细胞图像二分类识别率虽然能达到96%,但是七分类的识别率不到80%。

图1 7种宫颈单细胞图像示例图Fig.1 The example of figure is seven kinds of cervical single cell image

本文参考文献[5]的方法,把宫颈细胞图像的20种几何特征精简到9种,这9种特征分别为:细胞质的周长、细胞核的周长、竖直方向长轴的最长度(Maximumlength,L)、水平方向宽轴的最长度(Maximumwidth,W)、细胞核与细胞质的比率(N/Cratio)、 从轴的中心到周长的最长度(MAP)、从轴中心到周长的平均长度(AAP)、从重心到周长的最长长度(MGP)、从重心到周长的平均长度(AGP),这些特征可以完整描述宫颈细胞不规则形状的几何特征。纹理特征使用Haralick两特征和Tamura的2种特征,共4种纹理特征,包括:共生矩阵的熵(entropyofco-occurrencematrix,ECM)、共生矩阵的对比度(CCM);2种Tamura特征为对比度和粗糙度应用到宫颈细胞核的纹理特征。

宫颈单细胞图像是由细胞核、细胞质和背景3个区域组成,每一幅图像的3个区域都可以转化到极坐标系,这样可以提取极坐标下的极径灰度值,360条极径的灰度值组成一个特征矩阵。本文将极坐标下的特征向量与前面的形态特征进行融合,来研究宫颈细胞的识别。图2所示的就是将直角坐标的宫颈细胞图像转化为极坐标图像的结果。

图2 宫颈细胞转换到极坐标下的示例图Fig.2 The example of figure is cervical cells converting to polar coordinates

设极坐标空间中的宫颈单细胞图像为P,则P矩阵可表示为:

(1)

式中:maxr为极坐标的最大半径,mincta为极坐标中的极角间隔,取值为1°。再将极坐标空间中每条极径上的宫颈细胞图像灰度中值作为宫颈细胞图像的一种特征值,构成宫颈细胞图像的特征向量:

(2)

2AdaBoost-SVM多特征融合分类器

张晓龙等[6]选择支持向量机SVM与AdaBoost结合的算法,以breast-cancer数据集为对象提高了SVM的学习性能;RuihuWang[7]提出了一种基于AdaBoost与SVM算法结合的向量机,应用于人脸和表情识别,改善了分类器的稳定性和差异性。本文采用的AdaBoost-SVM分类器用于宫颈细胞的识别,具体算法如下:

1)提取宫颈细胞图像几何特征A(i,j)、纹理特征B(i,j)和极径灰度值特征c(i,j),i是从1到7的整数,分别表示相对应宫颈细胞的类;j表示从1到n维的特征向量;

2)二维主成分分析(2DPCA)多特征向量降维[8]:设X为宫颈细胞的特征矩阵,X是A(i,j),B(i,j)和C(i,j)的融合,并进行归一化处理得:

(3)

其中X1是X的列向量,将X的每行、列进行零均值化,得行协方差矩阵和列协方差矩阵为:

(4)

(5)

(6)

Mi就是二维主成分分析(2DPCA)提取降维后的多特征矩阵。由降维后的矩阵Mi、宫颈细胞数据集{(x1,y1),(x2,y2),…,(xn,yn)}(yi表示训练点的类型,xi表示样本特征向量,n表示训练点数)加入AdaBoost-SVM多特征融合分类器进行分类实验。

3)AdaBoost-SVM多特征融合分类器具体实施步骤如下:

②支持向量是由训练子集χ中的每一个样本点来求出:

(7)

(8)

(9)

‖x-x′‖=k(x,x)-2k(x,x′)+k(x′,x′),

(10)

对宫颈细胞数据训练集上的所有样本进行分类。

⑤按照当前权值的分布。随机从宫颈细胞数据集中选择一个样本,若该样本不在训练子集χ中,或者被分类器分错,将这个样本重新加入正在训练的子集中,同时将χ中具有最小权值的样本删除,回到步骤②;否则跳转步骤④。

⑥最后分类器函数:

(11)

3AdaBoost-SVM分类器统计的结果

根据前面所述,用AdaBoost-SVM分类器对宫颈细胞进行二分类、七分类的识别研究,二分类实验结果见表1,七分类实验结果见表2。

表1 本文方法对宫颈细胞图像进行二分类

二分类识别平均百分率为98.83%,其中正常细胞识别率最高为99.12%。表2所示的七分类的平均识别率为95.18%,其中正常柱状宫颈细胞识别率最高达97.19%。

表2 本文方法对宫颈细胞图像进行七分类的结果

文献[9]使用机器学习的方法对新的宫颈细胞数据库(917张图片)进行识别,假阳性率和假阴性率较低,二分类平均识别率96.83%,七分类平均识别率78.00%。本文与文献[9]相比,二分类识别率提高2个百分点,七分类识别率提高17.18个百分点。

将患者的真实情况与计算机系统诊断的结果进行对比是用来检验计算机判读能力的方法,通常使用的指标有:假阴性率(falsenegative:FN)、假阳性率(falsepositive:FP)、准确率(accuracy)、灵敏度(sensitivity)和特异度(specificity);其中准确率(accuracy)、灵敏度(sensitivity)和特异度(specificity)[10]是最常用的。下面将使用这3个指标来评价本文的特征提取与AdaBoost-SVM分类器相结合后的识别率,再与贝叶斯分类器(Bayes)、线性判别(LDA)分类器、人工神经网络(ANN)和支持向量机(SVM)[11]作比较。二分类评价指标对比数据如表3所示,七分类评价指标对比数据如表4所示。

表3 宫颈细胞图像二分类的评价指标

表4 宫颈细胞图像七分类评价指标

4小结

本文基于AdaBoost-SVM多特征融合的方法研究了宫颈单细胞图像识别问题。基于MATLAB平台工具箱和VC++辅助,验证了本文的特征提取与特征选择的有效性。由表3、表4的识别结果可知,与贝叶斯分类器、线性判别分类器、人工神经网络和支持向量机相比较,本文的宫颈细胞识别方法明显提高了二分类和七分类宫颈细胞的识别率,其识别灵敏度与所比较的方法基本相同。研究结果对于降低宫颈癌的误诊率有较好的应用价值。

参考文献:

[1]FERLAYJ,SOERJOMATARAMI,DIKSHITR,etal.Cancerincidenceandmortalityworldwide:sources,methodsandmajorpatternsinGLOBOCAN2012 [J/OL].InternationalJournalofCancer, 2015, 136(5):E359-E386.http://onlinelibary.wiley.com/doi/10.1002/ijc.29210/abstract.

[2]JENSENB.Neuro-FuzzyClassificationofCellsinCervicalSmears[D].Denmark:TechnicalUniversityofDenmark, 1999.

[3]NIKOLAOSA,GEORGED,JANJ.Pap-Smearclassificationusingefficientsecondorderneuralnetworktrainingalgorithms[M]//GEORGEAV,THEMISTOKLISP.MethodsandApplicationsofAritificialIntelligence:BerlinHeidelberg:SpringerVerlag2004:230-245.

[4]YANNISM,GEORGIOSD,JANJ.Papsmeardiagnosisusingahybridintelligentschemefocusingongeneticalgorithmbasedfeatureselectionandnearestneighborclassification[J].ComputersinBiologyandMedicine,2009, 39(1):69-78.

[5]CHENYungfu,HUANGPochi,LinKercheng,etal.Semi-Automaticsegmentationandclassificationofpapsmearcells[J].IEEJournalofBiomedicalandhealthinformatics, 2014, 18(1):94-108.

[6]张晓龙,任芳. 支持向量机与AdaBoost的结合算法研究[J]. 计算机应用研究,2009(1):77-78.

[7]WANGRuihu.AdaBoostforfeatureselection,classificationanditsrelationwithSVM,AReview[J].PhysicsProcedia,2012,25:800-807.

[8]YANGJian,ZHANGD,FRANGIAF,etal.TwodimensionalPCA:anewapproachtoappearance-basedfaceRepresentationandrecognition[J].IEEETransPatternAnalMachIntell, 2004, 26(1):131-137.

[9]ABIDS,VINODS,RAJEEVG,HybridensemblelearningtechniqueforscreeningofcervicalcancerusingPapanicolaousmearimageanalysis[J].PersonalizedMedicineUniverse, 2015, 4:54-62.

[10]NORUPJ.Classificationofpap-smeardatabytransductiveneuro-fuzzymethods[D].Denmark:TechnicalUniversityofDenmark, 2005.

[11]CHANKONGT,THEERA-UMPONN,AUEPHANWIRIYAKULS.AutomaticcervicalcellsegmentationandclassificationinPapsmears[J].ComputerMethodsandProgramsinBiomedicine,2014, 113(2):539-556.

(责任编辑马殷华)

doi:10.16088/j.issn.1001-6600.2016.02.009

收稿日期:2015-12-15

基金项目:国家自然科学基金资助项目(21327007);广西研究生教育创新计划项目(YCSZ2015101)

中图分类号:TP391

文献标志码:A

文章编号:1001-6600(2016)02-0061-06

ResearchonCervicalCellImageFeatureExtractionandRecognition

LIUYanhong,LUOXiaoshu,CHENJin,GUOLei

(CollegeofElectronicEngineering,GuangxiNormalUniversity,GuilinGuangxi541004,China)

Abstract:Cervical smear examination is one of the most effective means of diagnosis of cervical cancer, while the traditional cervical cell recognition system has significant limitations, with low false-negative and false-positive rates. Firstly, morphological characteristics and the gray values of pole in cervical cells are extracted. Then AdaBoost-SVM feature fusion classifier is used to classify the cervical cells in order to improve the efficiency and accuracy of diagnosis of cervical smears. The research results show that the combination of extraction method and multi-feature fusion AdaBoost-SVM classifier can significantly improve the efficiency and accuracy of cervical smear screening, and can reducethe misdiagnosis rate of cervical cancer.

Keywords:polar radius; gray median in value; support vector machine; AdaBoost; AdaBoost-SVM classifier

通信联系人:罗晓曙(1961—),男,湖北应城人,广西师范大学教授,博士。E-mail:lxs@mailbox.gxnu.edu.cn

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究