低倍率镜检图像无标记红白细胞识别方法研究

2019-09-05 10:32司淼淼陈芙蕖姜小明李章勇
关键词:倍率识别率白细胞

王 伟,司淼淼,陈芙蕖,刘 慧,姜小明,李章勇

(重庆邮电大学 生物医学工程研究中心,重庆 400065)

0 引 言

计算机辅助的细胞自动分析,可以减轻医生的负担,提高结果的客观性和一致性,为自动镜检提供新的机遇[1]。粪便镜检图像与尿液镜检图像存在较大区别,有形成分和背景环境更加复杂,同类细胞差异较大,单个细胞存在破损和粘连现象。目前在显微镜检领域,自动分析技术研究偏重于尿液有形成分分析[2-3],临床已实现尿液镜检的自动识别,但对粪便镜检的自动识别研究还比较少,大多数粪便镜检过程还由人工完成。

红白细胞是显微镜检图像中最具有临床价值的必要检查参数[4]。本文研究对象为20倍目镜系统采集的镜检图像,与传统40倍目镜系统相比,20倍目镜系统图像视野扩大,检测效率提高,但存在细胞边缘更模糊,结构更不清晰、特征更不明显等缺点,给图像识别过程中的关键的分割以及特征提取部分带来困难。另外,为使细胞特征更明显,临床通常对镜检图像使用诸如荧光、染色或DNA标签之类的参考标记方式,但是这样会提高成本而且影响细胞活性,一般只在实验中使用,因此,本文主要研究无染色/标记红白细胞镜检图像。目前在显微细胞图像识别领域已经出现很多种图像分割以及特征提取方法[5-6]。常用的图像分割方法有边缘检测、阈值处理、形态学以及分水岭方法等,但是由于低倍率粪便镜检图像本身的复杂性以及细胞存在弱边缘问题,采用单一的图像分割方法并不能准确无误的分割出细胞。常用的显微细胞图像特征组合主要包含形状、统计和纹理特征,其中,形状特征是在分割后的二值图像上计算的,选取的参数主要有面积、周长、圆形度和矩形度等;统计特征是基于细胞图像灰度直方图计算的,选取的参数主要有、平均值、方差、三阶矩、一致性;图像的纹理是指图像像素颜色的或灰度的变化规律,与空间统计密切相关,描述纹理特征一般以灰度-梯度空间来表示,灰度-梯度空间矩阵体现了各像素点梯度和灰度的空间关系和分布规律,选取的参数主要有能量、灰度平均、梯度平均、惯性、小梯度优势、大梯度优势、灰度熵、梯度熵和混合熵[7]。在实际的应用中,图像识别软件不仅要求有较高的识别率确保准确性,同时要求一定的实时性,保证识别的速度和效率。常用的显微细胞图像特征组合特征数比较多,计算较为困难,耗时长,并且低倍镜下的粪便镜检图像红白细胞存在结构不清晰、内部纹理特征不明显等特点,所以在低倍率情况下不适用。近年来,也出现很多基于机器视觉的细胞自动识别方法,例如:k近邻法、神经网络和支持向量机等机器学习方法。k近邻法适用于大样本容量类的自动分类,而小样本容量的类采用这种方法比较容易产生误分[8]。神经网络方法具有较强的学习能力和并行处理的功,但是也存在过学习、维数灾难以及局部极小解等问题。相比之下,支持向量机(support vector machine,SVM)采用核函数,很好地解决了维数问题;采用二次规划寻优,可以得到全局最优解;应用结构风险最小化原则,充分考虑了经验风险和置信风险,有良好的泛化性能[9]。

综上所述,本文主要研究目的是提供一种基于低维特征条件的低倍率镜检图像红白细胞识别算法,不仅能保证识别准确率,还能为提高识别速度提供了可能,如图1所示。首先针对红白细胞对比度低、边缘模糊等弱边缘问题,采用彩色图像空间分离、逻辑或运算和形态学方法完成初步分割,之后采用面积等特征单独提取粘连细胞,采用基于迭代腐蚀的标记分水岭方法分割。再针对低倍率镜检图像红白细胞结构不清晰、内部纹理特征不明显等特点,提出一种基于形态和Canny算子方法的细胞低特征提取方法,提取出6个相关特征组成特征向量用于训练SVM分类器。

图1 低倍率显微镜检图像Fig.1 Low-rate microscopic image

1 识别方法设计

1.1 图像分割

识别分类之前,需要先定位红白细胞,并从图像背景中分离它们[10]。由于低倍率粪便镜检图像背景复杂,并且存在细胞灰度分布不均匀、对比度低、边缘模糊等弱边缘问题,采用单一的图像分割方法不能准确无误分割出红白细胞。本文将原图像进行彩色空间分离,将R,G和B分量图像边缘检测结果进行逻辑或运算,并通过形态学方法处理完成初步分割,得到单个细胞分割图像和粘连细胞分割图像;然后针对粘连细胞,采用基于迭代腐蚀的标记分水岭方法再次分割,通过多种方法互补得到最后完整分割结果,提高分割的精确度。分割算法的流程图如图2所示。

图2 分割算法流程图Fig.2 Flow of the segmentation algorithm

在镜检图像分割时,通常都是单独对灰度图像进行边缘检测,不能形成封闭曲线,影响细胞边缘的完整提取。本文方法将原彩色图像的R,G和B分量图像的Canny边缘检测结果进行逻辑或运算,能够弥补单张灰度图像边缘检测断裂情况,达到很好的信息互补作用,如图3b所示,可以使很多细胞断开的边缘形成闭合。在完成边缘检测后,采用开、闭运算以及填充等形态学方法对或运算结果图像完成毛刺的清理、以及删除小面积对象和填充等操作以达到更好的分割效果,如图3c所示;之后在图像初步分割基础上,利用面积等特征单独提取粘连细胞,使用4邻域和8邻域结构元素交替对粘连细胞图像进行迭代腐蚀求得细胞种子点图像,然后用标记分水岭进行分割[11]。最后融合单个细胞分割图像和粘连细胞分割图像,得到最终分割二值图像,如图3d所示,可以看出整体细胞分割效果良好,粘连细胞也很好的被分开,有助于之后对红白细胞进行特征提取。

1.2 特征选择和提取

识别出红白细胞种类是整个方法流程的核心部分,而细胞的特征选择和提取是进行识别的关键环节[12]。为了提高识别的准确度和效率,必须选择适当的特征组合,选择的特征一般需要具有可区分性强、可靠性高以及独立性好的特点,尽可能地减少整个识别系统的运行时间和错误识别率[13]。本文方法根据红白细胞在形态、FFT变换以及Canny边缘检测图像的差别,提出6个相关特征组成特征向量,在保证识别效果的情况下,同时以较少的特征简化算法运算,提高识别速度。

图3 粪便图像分割效果图Fig.3 Fecal image segmentation

分割后红白细胞子图像的典型样本如图4a和图4d所示,其中,红细胞细胞质比较均匀,一般呈双凹圆盘形,正常成熟的红细胞没有细胞核;白细胞细胞质清晰,呈颗粒状,有细胞核,体积比红细胞大。图4b和图4e是红白细胞进行FFT变换后频域图像二值化之后的图像,可以看出,红白细胞都近似圆形,但白细胞相对有点分散,圆形度表现没有红细胞好;图4c和图4f是对红白细胞进行Canny边缘检测得到的图像,研究发现红细胞的边缘检测出多个半径不同的圆环且呈现包含关系,而白细胞边缘检测成不规则曲线。

图4 红白细胞以及相关处理图Fig.4 Related processing of red and white cell

常用的显微细胞图像特征值包含形状、统计和纹理特征等3类,低倍镜下的镜检图像中红白细胞的内部纹理信息比较粗糙和模糊,本文经过实验测试没有选择相关描述统计和纹理特征的参数。本文在形状特征描述中主要选取了周长L、面积A和圆形度C这3个参数[14],其中,圆形度是基于红白细胞进行FFT变换后频域图像二值化之后的图像计算的[15];根据红白细胞在其Canny边缘检测图像表现的不同,提出3个新的Canny算子特征参数,连通域数M是描述细胞Canny边缘检测后二值图像的8连通域数,像素和S是描述细胞Canny边缘检测后二值图像的像素和,另外考虑排除细胞大小的影响,对2个特征做归一化处理得出闭合比值H是连通域数M和像素和S的乘积与分割后二值化图像面积A的比值,数学公式表达式为

(1)

本文选择的描述红白细胞特征参数组合总结如表1所示。

以FFT后二值图像的圆形度和闭合比值2个不相关的特征参数为例,分别随机选择100个红细胞和白细胞构造参数坐标图,结果如图5所示。图5a和图5b展示了单个特征参数在细胞分类中的作用,其中,横坐标表示细胞编号,数值从1-100,纵坐标分别为FFT后二值图像的圆形度C和闭合比值H,从图5中看出,2个特征参数分别对红白细胞有一定程度的区分度。图5c是对2个特征参数的立体化显示,其中,z轴表示细胞编号,可以看出红白细胞交集很少,表示FFT后的圆形度C和闭合比值H组成的二维特征向量对红白细胞分类有着重要的作用。

表1 特征类别与描述

图5 红白细胞参数坐标图Fig.5 Parametric coordinate map of red and white cells

1.3 红白细胞识别

红白细胞特征提取之后,需要将特征向量输入到分类器进行分类和识别,本文选择支持向量机作为红白细胞分类器。SVM是由Vapnik首先提出的一种专门适用于小样本学习问题的有监督的通用学习算法[16]。它不基于传统的经验风险最小化原则,而是结构风险最小化原则,既能减小训练误差还能提高泛化能力,为机器学习问题提供了新的思路和方法[17]。它的原理是通过构造一个最优分类超平面,使分开的2个类别有最大间隔,使得分隔具有更高的可信度,而且对于未知的新样本有很好的分类预测能力。当样本非线性可分时,将数据样本映射到高维空间,采用核函数,把非线性问题转化成线性问题求解。对于核函数的选择一般与分类问题本身相关,本文通过预实验发现线性核函数分类效果最好,因此,在分类阶段选择的核函数是线性核函数。线性核函数的数学公式表达为

(2)

2 实验结果和分析

红白细胞识别实验基于LIBSVM识别函数库实现,实验图像为未染色的低倍率粪便镜检原图,分辨率2 048×1 056,放大倍数20倍。实验中选取原始图像60幅,分割得到红细胞和白细胞子图像,从红白细胞子图像中各选择100个作为训练集,各300个作为测试集。当SVM分类器通过红白细胞样本训练完成之后,将已经提取的红白细胞测试样本特征向量输入SVM分类器进行分类并识别。

为了进行比较,实验对SVM分类器选择输入2组不同的特征向量分别对红白细胞进行分类并识别,其中一组采用显微细胞图像识别常用的形状、统计和纹理特征,分别为面积、周长、圆形度、矩形度、平均值、方差、三阶矩、一致性、能量、灰度平均、梯度平均、惯性、小梯度优势、大梯度优势、灰度熵、梯度熵和混合熵共17维[7];另一组采用本文特征选择部分提取的特征,分别为周长、面积、FFT后的圆形度、连通域数、像素和以及闭合比值共6维。表2是红白细胞识别测试比较结果,其中采用常用特征红细胞的识别率为53.0%,采用本文选择的特征组合红细胞的识别率为91.7%;采用常用特征白细胞的识别率为71.0%,采用本文选择的特征组合白细胞的识别率为92.7%,可以看出,在低倍率情况下采用本文选择的红白细胞特征组合识别效果良好,并且明显优于显微图像识别常用的形状、统计和纹理特征组合,以较少的特征组合完成更优的识别效果;另外,在MATLAB环境下测试不同算法的红白细胞识别时间,发现本文选择的红白细胞特征组合在识别时间上也有较大优势,识别时间明显降低,识别速度有了进一步提高。低倍镜下的粪便镜检图像红白细胞存在结构不清晰、内部纹理特征不明显等特点,因此,采用常规的显微图像识别常用的形状、统计和纹理特征识别效果不是特别好,识别率低于本文选择的特征组合识别结果,因为其充分利用了红白细胞在形态、FFT变换以及Canny边缘检测图像的差别,很好的选取了6个特征组成特征向量,降低了特征维数,减少了算法计算的运算量,提高了识别的准确度和效率。

表2 低倍率红白细胞识别测试结果比较

国内外对粪便镜检图像细胞识别分析的研究相对来说比较少,而且现有的研究都是基于40倍目镜的,文献[18]研究了基于模糊聚类的粪便镜检图像识别研究,实验采用40倍显微镜检图像,结果显示,聚类准确率并不是很高,其中红细胞的识别率是86.9%;白细胞的识别率是85.6%。本文主要研究的是基于20倍目镜的低倍率镜检图像,识别算法设计简单,在保证识别效果的情况下,同时以较少的特征简化运算,提高识别速度,兼顾识别速度和效率,能够满足实际的显微检测的要求。

实验将样本数分别为300的红白细胞子图像分成3组,每组各100个红细胞和白细胞,分别进行了测试,求得识别准确率的均值与标准差,如图6所示。在识别部分,训练和测试集样本数目和比例会对识别产生一定的影响,而且由于镜检图像中红白细胞存在异型的情况,例如红细胞有小红细胞和大红细胞情况,白细胞存在亚型情况,也会对识别产生一定的影响,所以随着样本数目的变化识别率也会有所改变,但是从图6可以看出,随着样本数目的改变,采用本文特征组合红白细胞的识别率变化不大,相对比较稳定。

图6 红白细胞分组识别结果比较Fig.6 Comparison of results of red and white cells grouping

3 结 论

本文基于图像处理和SVM识别技术研究了低倍率镜检图像中红白细胞自动识别方法,首先通过对图像分割方法研究比较提出一种基于逻辑或运算和形态学的综合分割方法,有效地实现了镜检图像红白细胞的分割和定位;再比较和研究红白细胞的差别,很好地选取了6个特征,最后采用SVM分类器识别。实验以背景和成分最为复杂的粪便镜检图像为例进行了测试,红细胞的识别率为91.7%,白细胞的识别率为92.7%,以较少的特征组合完成更优的识别效果,兼顾识别准确度和速度;而且识别效果相对稳定,受红白细胞异型情况的影响较小,在客观量化分析的基础上实现了红白细胞的自动识别,从而减少了人工识别的工作量,有希望进一步应用于临床镜检。

猜你喜欢
倍率识别率白细胞
白细胞
数控机床进给倍率修调的实现
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
提升高速公路MTC二次抓拍车牌识别率方案研究
白细胞降到多少应停止放疗
一种智能加工系统中的机床倍率控制方法
多用电表的内阻与档位关系
高速公路机电日常维护中车牌识别率分析系统的应用
白细胞介素17在湿疹发病机制中的作用