VTSRM:一种基于SVM-RFE和MRMR的AD MRI医学图像分类方法

2019-07-10 08:18戴震宇
计算机与数字工程 2019年6期
关键词:灰质特征选择排序

周 琼 陈 梅 李 晖 戴震宇

(1.贵州大学计算机科学与技术学院 贵阳 550025)

(2.贵州大学贵州省先进计算与医疗信息服务工程实验室 贵阳 550025)

1 引言

阿尔茨海默症(Alzheimer's Disease,AD)是一种慢性的神经系统退行性疾病[1],是痴呆的一种形式,经常在老年人口中发生。随着大脑功能的逐渐衰退,AD 患者表现为记忆机能障碍,渐渐出现语言、情绪、认知等方面的障碍,最终造成自主生活能力下降甚至无法自理生活,给患者家庭带来极大的负担。轻度认知障碍(Mild Cognitive Impairment,MCI)是介于正常衰老和痴呆之间的一种认知功能损害状态[2],对日常生活的活动没有显著影响[3]。但是有研究表明MCI 患者转化为AD 的概率较高,每年的转化率约为10%~15%[4],并且目前没有完全治愈AD的有效方法。因此,对患者而言,早期的诊断和治疗对延缓AD病的发展具有重要意义。在现有的阿尔兹海默症的诊断方法中,不少研究者是采用神经影像学技术,如核磁共振成像MRI来诊断病情,并获得了较好的效果。

在当前对MRI的研究中,基于体素形态学测量方法(voxel-based morphometry,VBM)被广泛的用来评估形态变化[5],它是一种基于体素水平对MRI医学图像进行分析的技术,能定量测出局部脑组织(如灰质、白质)形态学的差异变化。而纹理分析定义了图像中灰度图案的量化,有助于识别图像中呈现发生不同变化的视觉内容。因此,在本文提出的VTSRM 方法设计中,我们提取了MRI 的多种类型特征,包括纹理特征和形态学特征,并引入了特征选择技术消除冗余和不相关特征。在本文工作中,将SVM-RFE(支持向量机递归特征消除)和MRMR(最小冗余最大相关性)技术相结合,设计新的特征选择方法,并对阿尔茨海默症神经影像学(ADNI)数据库中的数据进行分类预测,取得到了较好的效果。

2 相关工作

机器学习和模式识别分类方法已经被广泛用于开发神经影像学的医疗辅助诊断系统,如Beheshti[6]等提出了一个基于体素形态测量(VBM)的计算机辅助诊断系统,用于分析阿尔兹海默症的早期阶段。Zhe[7]和李晓[8]提取了图像的三维特征和二维特征,通过多特征融合的方式取得了较高的分类性能。在以上的研究中,基于体素形态测量的方法以及多特征融合方法均取得较好的效果。因此,本文同样基于多特征融合来分析阿尔兹海默症的MRI医学图像,提取了MRI图像的形态学特征和纹理特征,将其线性组合形成特征信息数据。除了特征提取方法,特征选择将是本文工作的另一个重点。

目前很多研究者已对特征选择方法进行了研究,常见的特征选择方法可分为三类:过滤式(filter)方法、封装式(wrapper)方法和嵌入式(embedding)方法。过滤式方法首先对样本进行特征选择,然后再训练分类器。封装式方法需要根据分类器的性能来指导特征选择过程。嵌入式方法在分类器训练过程中就进行特征选择。本文的特征选择方法结合了过滤式特征选择方法和封装式特征选择方法,先对特征进行排序,再利用分类算法根据分类性能选择出最优特征子集。在特征选择过程中,使用了支持向量机递归特征消除(SVM-RFE)特征选择算法和最小冗余最大相关性(MRMR)特征选择算法。

支持向量机递归特征消除(SVM-RFE)由Guyon[9]等在对癌症分类时提出,SVM-RFE 通过模型训练样本,然后对每个特征的得分进行排序,去掉最小得分的特征,再用剩余的特征再次训练模型,进行下一次迭代,最后选出需要的特征数。最小冗余最大相关性(MRMR)是一种过滤式的特征选择方法,由Peng[10]等提出,其目的是最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性。

目前对SVM-RFE的改进算法已有很多,例如,林俊[11]等提出了SVM-RFE-BPSO 的特征选择算法,该算法用SVM-RFE来引导后续粒子群算法,张健[12]等在分类研究fMRI时,利用SVM-RFE 特征选择方法筛选出具有显著性的脑区,Lin[13]等提出了一种SVM-RFE-OA 特征选择方法,该方法结合分类准确率和样本的平均重叠率来确定选择的特征数。

最近的研究[14]表示,支持向量机递归特征消除(SVM-RFE)算法是一种有效的特征选择方法,已被广泛应用,但当数据集的特征存在相似作用或冗余时,该方法分类性能较低,特别是冗余特征较多时。因此,为了解决特征之间的冗余性问题,本文融合了SVM-RFE 算法和MRMR 算法得到SRM 算法。

3 VTSRM方法设计

3.1 形态学特征提取

在本文的工作中,我们通过VBM 来分析AD 患者的大脑萎缩区域,将萎缩较明显的区域作为感兴趣区域ROI,计算ROI 的灰质体积作为形态学特征。步骤如下:

1)空间标准化。空间标准化目的是将图像数据配准到统一的模板图像上的过程,在本文中,使用VBM-DARTEL[15]算法来进行空间标准化,它不仅保留了原始体积信息还能保证空间标准化的精确性,还提高了分割精度。

2)脑组织分割。通过修正混合模型聚类分析技术对空间标准化后的图像进行分割,划分出灰质(Gray Matter,GM),白质(White Matter,GM)和脑脊液(Cerebrospinal Fluid,CSF)。

3)空间平滑。空间平滑是对分割得到的不同组织的图像进行滤波的过程。通常在标准空间上采取各同向性高斯核函数对图像数据进行卷积。

4)定义ROI。通过VBM 统计分析检测出两组灰质图像具有显著性差异的区域。在检验整个区域显著性差异时,采用具有较高灵敏度的FDR 作为本文的校正方法。经过FDR 校正后得到灰质图像中密度差异显著的区域信息,并利用该信息选取显著性差异较为明显的区域作为感兴趣区域(ROI)。

5)灰质体积计算。根据VBM 分析后,得到感兴趣区域ROI,通过WFU_PickAtlas 工具制作ROI二值掩膜,并重采样ROI 二值掩膜,使它和灰质图像的维度一样。然后将重采样后的ROI 二值掩膜和灰质图像进行点乘计算,得到灰质体积。

3.2 纹理特征提取

1)灰度共生矩阵。灰度共生矩阵是由Haralick[16]等提出来的,反映了图像灰度关于方向,相邻相隔,变化幅度的综合信息。本文采用灰度共生矩阵提取特征矩阵(空间距离:[1,6],方向:[0°,45°,90°,135°],共24 个灰度共生矩阵),对每个矩阵计算12个二次统计量作为纹理特征值,包括角度二阶矩、对比度、相关性、逆差矩、熵、方差、和均值、和方差、和熵、差均值、差方差、差熵。

2)灰度-梯度共生矩阵。灰度-梯度共生矩阵模型集中反映了图像中像素点的灰度和梯度(或边缘)的相互关系[17]。本文的灰度-梯度共生矩阵采用了15 个二次统计量,包括小梯度优势,大梯度优势,灰度分布不均匀性,梯度分布不均匀性,能量,灰度平均值,梯度平均值,灰度均方差,梯度均方差,相关性,灰度熵,梯度熵,混合熵,惯性,逆差矩。

3.3 特征选择方法SRM

本文在选出与分类变量相关性大的特征集合的同时,注重消除强关联特征之间的冗余性。具体的,我们结合SVM-RFE 和MRMR 的优点,融合形成SRM算法,用以完成特征选择任务。

1)SVM-RFE算法

Guyon[9]等于2002 年在基因选择中,提出了一种后向递归消除特征选择算法SVM-RFE,它以各个特征对目标函数所具有的判别信息量作为排序系数,即以权向量w 对分类面的贡献来构造特征排序表,每次迭代移除一个权值最小的特征,再对分类器重新训练,直到完成所有特征的排序。其w 值计算如式(1)所示:式(1)中,y 表示的是类标签,x 表示样本,a 是拉格朗日乘数,r表示特征排序准则。

2)最小冗余最大相关算法

MRMR 由Peng[10]于2005 年提出,属于filter 方法,是一种基于空间搜索和互信息的特征选择算法,其目的是选出与分类变量相关性大、与其他特征相关性小的特征,MRMR思想描述如下。

给定x 和y 两个随机变量,p(x)和p(y)分别表示它们的概率密度,联合分布为p(x,y),则互信息的计算式子如式(3):

最小冗余和最大相关的定义如式(4)、(5)所示:式中,I(xi,c)表示特征i 和分类类别c 之间的互信息;I(xi,y)i表示特征i和j之间的互信息;S和|S|分别表示特征子集和特征数目;c为分类类别;D 表示特征集与相应类别的相关性;R 表示特征之间的冗余性。最小冗余最大相关的准则如式(6)所示:

3)SRM算法

SVM-RFE主要以特征对分类器作用的大小来进行特征排序,它能针对分类器有效选择出相关特征,但是未考虑特征之间的冗余性。而最小冗余最大相关MRMR 算法是独立于分类器所执行的,不参与特征的选择,因此本文将SVM-RFE 和MRMR融合形成SRM 算法,加强了SVM-RFE 的相关性,也考虑到了特征之间的冗余性。实验证明,其能有效提高分类效果。

在本文中,通过实验,使用F 统计量(F(xi,c)表示F 统计量)和相关系数(Coor(xi,xj)表示相关函数)计算最大相关和最小冗余获得的效果较好,因此本文的最小冗余和最大相关计算公式如式(7)、(8)所示:

通过改进SVM-RFE 算法和MRMR 算法对特征进行排序,特征排序准则如式(9)所示:

式(9)中,参数β∈[0,1],用来权衡SVM-RFE和MRMR;n 表示每次递归消除后所剩下特征个数。

SRM 算法思想如算法1 所示,首先初始化特征排序集,包括原始特征集和新排序特征集;然后,使用SVM 算法训练特征集,计算每个特征的得分w,再对每一个特征计算F(xi,c)和Coor(xi,xi),根据式(9)计算r;最后以r作为每一个特征的排序得分,选择得分最小的特征,将其加入排序特征集中,再从原始特征中去掉该特征。重复以上过程,直到特征集中只剩下一个特征,将这个特征添加到排序特征集中。当所有特征被排序后,输出特征排序集。

算法1:SRM算法描述

算法1:SRM

输入:原始特征集S

输出:排序特征集R

1 Begin:

2 Set β

3 初始化特征集S={}

4 特征排序集R={}

5 Repeat:

6 使用SVM训练特征数据S

7 得到特征权重wi

8 计算wi2

9 for each featurei∈Sdo

10 计算F(xi,c)和Coor(xi,xi)

11 计算ri

12 end for

13 用ri作为特征排序得分

14 找出得分最小的特征,i=arg min{ri}

15 更新特征集和特征排序集R=[i,R];S=S/i

16 Until 所有特征被排序

17 end:输出R

综上所述,本文设计的VTSRM 方法首先对MRI 医学图像进行特征提取,获得特征信息数据后,由于这些特征中存在冗余和不相关特征,因此,我们设计了SRM 特征选择方法,该方法以式(9)作为特征排序准则对特征进行排序,得到特征排序集后,每次从已排序的特征集中选择一个特征加入新的特征集,再利用SVM 分类算法去训练数据,当获得最高分类准确率时,此时的特征集就是我们所选择的最优特征集。因此VSTRM 方法的特征选择最后是以分类准确率作为判定依据从已经排序的特征集中选择出最优特征子集,而该最高分类准确率就是本文最终的分类准确率。

4 实验与结果

4.1 实验数据

本文实验所用的数据来自美国大型ADNI公共数据库,样本信息统计情况如表1 所示,分别列举了AD ,NC 和MCI 的数量,年龄,简易精神状态表(MMSE)。

表1 样本信息统

4.2 体积变化

经过图像分割后,得到灰质,白质和脑脊液,分别统计各自体积,其中全脑体积(Total Intracranial Volume,TIV)为灰质、白质、脑脊液的体积之和,即TIV=GM+WM+CSF,三组数据的体积比重如表2所示。

表2 样本体积信息

由于不同的人的大脑体积不同,仅仅看GM 和TIV 的体积显然不能反映其是否真的发生萎缩,但是各个脑组织体积所占比例是一定的。因此,可以通过GM 占比对三组数据进行比较,从表格中,可明显看出三组数据的GM所占比例从NC到MCI、再到AD 逐渐变小,由此表明,AD 组患者脑灰质萎缩最为严重,MCI 组也比正常组略为萎缩。

4.3 灰质分析

使用双样本T 检验分别对三组数据的灰质密度进行差异分析,设置显著性值,未矫正的阈值pValue ≤0.001,经过FDR校正,FDR ≤0.05,设定体素集合超过50 个,获取患者的病灶区,使用xjView 显示患者和对照组的差异脑区,AD-NC 组数据发生差异变化区域如图1 所示,图中带有彩色区域表明脑区的差异情况,其中颜色较深的区域主要集中在海马体部分,表明了在对AD-NC 组数据进行实验后,发现患者的海马体部分的萎缩现象较明显,其他脑区也相应发生不同程度的萎缩。NC-MCI 组数据发生差异变化区域如图2 所示,与上一组NC-AD组实验结果相比,NC-MCI组的萎缩情况相对较少,较为严重的区域同样集中在海马体部分。MCI-AD组数据发生差异变化区域如图3所示。

图1 AD-NC脑区差异

图2 NC-MCI脑区差异图

图3 MCI-AD脑区差异图

综上所述,分别对三组数据实验后,将萎缩较明显的区域作为ROI。 然后使用工具WFU_Pick-Atlas 分别对上述三组数据中的ROI 区域制作相应的二进制掩码,对其进行重采样,再使用制作的ROI 二进制掩码与相应组中的灰质数据进行点乘计算,得到灰质体积,即为所求形态学特征。

4.4 特征选择性能评估

经过以上特征提取后,获得三组图像数据的特征数据。分别对三组特征数据使用SRM 进行特征排序,归一化数据到[0,1]之间,采用径向核函数的SVM 算法对三组数据进行分类预测。从排序后的特征中,依次选择不同的特征数构建分类模型。

由于本文的特征选择算法是对特征集进行排序,因此在最后进行预测分类时,选择出的特征维数k 也应该被关注,为了观察分类器性能随着选择出的特征维数的不同会产生不同的变化趋势,我们将本文改进的特征选择算法分别应用于NC-AD,NC-MCI 和MCI-AD 组数据后,再对不同特征维数的数据进行分类得到的分类准确率如图4、图5、图6所示。

图4 不同特征数下分类准确率比较(NC-AD)

图5 不同特征数下分类准确率比较(NC-MCI)

图6 不同特征数下分类准确率比较(MCI-AD)

由图4、图5、图6给中的数据可知,当特征数减少时,算法的性能反而提高了。具体来说,对于NC-AD 组数据,特征数达到第6 个特征时,得到最高分类准确率为93.33%,这时,可以确定经过SRM特征选择后的前6 个特征即为我们所求最优的特征子集。对于NC-MCI 组数据,其最优特征子集数为4,此时的分类准确率为89.8%。对于MCI-AD组数据,当特征数为7 时,其分类准确率为91.81%。因此,从实验的结果可知,并不是特征数越多,训练出来的模型就越好。相反,当特征维数较多时,反而影响了分类的性能,出现这种情况的原因是由于冗余和不相关的特征影响了分类性能,而本文的算法刚好能去掉那些冗余或不相关的特征。

4.5 分类性能评估

为了验证本文方法的有效性,还做了其他三种对比实验,即未做特征选择、PCA 特征选择、SVM-RFE 特征选择,其分类算法都是在径向核函数的SVM 算法下进行实验,实验所得分类准确率,敏感性,特异性结果如图7、图8、图9所示。

图7 不同算法下的准确率比较

图8 不同算法下的灵敏性比较

图9 不同算法下的特异性比较

从图7 中可以看出,本文所改进的特征选择算法在三组数据上实验得到的分类准确率均比PCA,SVM-RFE得到的结果要好,最高分类准确率在NC-AD 组实验中得到,为93.33%,NC-MCI 组数据和MCI-AD 组数据的分类准确率分别为89.8%,91.81%。图8、图9 分别展示了不同特征选择算法下的灵敏度和特异性,它们分别代表发现病人和判断正常人的能力,而本文所提出的SRM 算法的敏感性和特异性都表现出了较好的性能,这表明SRM算法在研究阿尔兹海默症MRI 分析方面具有一定的研究价值。

5 结语

本文中,我们使用NC,MCI,AD三组数据进行实验,对每两组数据进行双样本T 检验,根据两组数据的差异,确定各组图像中的感兴趣区域ROI,计算ROI的灰质体积作为形态学特征,然后对MRI数据进行纹理特征提取。将提取的特征线性组合形成特征信息数据,使用了改进的SRM 算法对特征进行排序,再从排序的特征中选择出最优特征子集,并进行分类预测。实验结果证实了本文方法能获得较好的分类性能,对阿尔兹海默症疾病的诊断能起到一定的辅助作用。

猜你喜欢
灰质特征选择排序
基于邻域区间扰动融合的无监督特征选择算法框架
作者简介
抗逆转录病毒治疗对艾滋病患者脑灰质体积的影响
“发福”影响脑容量
恐怖排序
节日排序
基于词向量的文本特征选择方法研究
基于智能优化算法选择特征的网络入侵检测
reliefF算法在数据发布隐私保护中的应用研究
灰质越多越聪明