基于放射组学的泌乳素腺瘤和生长激素腺瘤分类研究

2021-05-13 07:16代湖明陈彦如袁平卓碧华
现代计算机 2021年8期
关键词:组学腺瘤生长激素

代湖明,陈彦如,袁平,卓碧华

(1.四川大学计算机学院,成都610065;2.重庆市第二师范学院技术与信息工程学院,重庆400067;3.武警警官学院信息技术教研室,成都610213)

0 引言

垂体腺瘤是常见的良性神经内分泌腺瘤,起源于垂体前叶,主要存在于鞍区,其在人群中的发病率大致为每年每10 万人中有80-90 例,约占所有脑肿瘤中的15%[1-4]。

在腺垂体细胞的分化过程中,垂体转录因子决定着腺垂体祖细胞的分化方向。根据2017 版世界卫生组织对垂体肿瘤的分类解读,垂体转录因子主要包括t-box 垂体转录因子、表达垂体特异性POU-同源结构域的转录因子(PIT-1)、T-PIT 转录因子和类固醇生成因子(SF-1)[5-6]。其中,泌乳素细胞和生长激素细胞由表达PIT-1 转录因子的细胞分化而来,然而泌乳素腺瘤患者和生长激素腺瘤患者在临床上的治疗有明显的差异。大多数接受药物治疗的泌乳素腺瘤患者都有较好的效果[7],而生长激素腺瘤患者则必须进行手术切除,故对泌乳素腺瘤和生长激素腺瘤的正确分类在临床上具有重要的意义。

放射组学能够把医学影像数据转换成大量的定量影像特征,目前已广泛应用于各种肿瘤特征的提取[8-10]。此研究通过提取泌乳素腺瘤和生长激素腺瘤在核磁共振成像(Magnetic Resonance Imaging,MRI)上的放射组学信息,建立出一个基于放射组学信息的机器学习模型,然后对泌乳素腺瘤和生长激素腺瘤进行精准分类。

1 数据获取

1.1 图像采集

本次研究搜集了2016 年1 月至2019 年2 月间确诊的110 例垂体瘤患者的术前MRI 图像(增强T1 加权成像),其中38 例为泌乳素腺瘤,72 例为生长激素腺瘤。两位经验丰富的神经外科医生对所有诊断材料进行了回顾,以获得准确的诊断结果。数据的纳入标准如下:①所有患者均经过组织学诊断为垂体瘤,并通过免疫组化染色对垂体瘤进行了明确的分级;②MRI 图像质量良好,无明显伪影,所有MRI 图像均在术前一周获得。排除标准包括:①垂体瘤免疫组化染色不清楚;(②MRI 图像质量差,伪影明显。从医院的图像档案和通信系统中获取所有患者的MRI 医学数字成像(Digital Imaging and Communications in Medicine,DICOM)原图,用于进一步的定性和定量分析。

1.2 肿瘤手动分割

首先将患者的每一张MRI 序列的DICOM 图像切片载入到开源软件ITK-SNAP(version 3.8.0, www.itksnap.org)中,然后由一名神经外科医生和一名神经放射学家(分别有14 年和13 年的神经肿瘤诊断经验)在每一张MRI 图像中勾画出肿瘤区域,根据勾画出的肿瘤区域,ITK-SNAP 会为每一个患者的一系列DICOM 图像切片生成一个NRRD 格式的图像文件,最后的勾画结果由另外两名放射专家进行回顾。

2 特征提取与处理

2.1 图像预处理

提取放射组学特征的方法是基于1.2 小节中获得的分割结果。首先对每个患者的原始DICOM 图像进行标准化处理,如公式(1)所示,然后再对标准化后的图像进行小波变换,得到8 张小波变换图像。

公式(1)中x 表示图像中的每一个像素点,μx表示图像的均值,σx是图像的标准差。

2.2 提取放射组学特征

首先,把每个患者的一系列MRI 的DICOM 原图合并成一张三维图像,并把1.2 小节中提取到的分割图像也合并成一张三维图像,接着把两张三维图像输入提取放射组学信息的开源软件Pyradiomics(https://pyradiomics.readthedocs.io/)中提取放射组学特征。从原始图像中提取出18 个一阶统计特征、14 个形状特征、22 个灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)特征、16 个灰度行程矩阵特征(Gray Level Run Length Matrix,GLRLM)、16 个灰度区域大小矩阵(Gray Level Size Zone Matrix,GLSZM)以及14 个灰度相关矩阵(Gray Level Dependence Matrix,GLDM),总共从每个患者的MRI 原始图像中提取100 个特征,从8 张小波变换图像中提取出688 个相同类型的纹理特征(没有提取形状特征),所以总共从每个患者的MRI 序列图像中提取出了788 个放射组学特征。所有特征的详细描述信息可以从网站(http://www.radiomics.io/pyradiomics.html)中找到。对每个患者MRI 图像(增强T1 加权成像)均进行上述的特征提取。

2.3 数据增强

从1.1 小节中可知,收集到的110 名垂体瘤患者中,有38 名患者为泌乳素腺瘤,72 名生长激素腺瘤,数据存在严重的类别不平衡现象。通常而言,分类学习方法中都假设不同类别的训练样例数目相同。如果某一类别的训练样例数比其他类别的训练样例数多,那么机器学习模型会更偏向于样例数多的类别,这是由于机器学习模型只要将样本的结果判定为样例数多的类别,模型就能取得较高的精确率,但这样的模型对于实际应用而言是没有意义的。为了解决数据中存在的类别不平衡现象,利用SMOTE(Synthetic Minority Oversampling Technique)算法对训练集进行数据增强。

SMOTE 算法的目的在于生成新的少数类样本,生成的策略如下:对样本中的每个少数类样本a,从它的最近邻样本中随机选出一个样本b,然后再样本a、b 之间的连线上随机选一个点生成新的少数类样本,如图1所示。

SMOTE 算法流程:

(1)从少数类中的样本a,计算它到少数类样本集中其他所有样本的欧氏距离,得到k 个与样本a 距离最近的点。

(2)计算样本不平衡的比例,从而确定过采样的倍率N,少数类中的每一个样本a,从其k 个距离最近的样本中随机选择N 个样本,假设选择的样本为b。

(3)对于每一个随机选出的样本b,分别与样本a按照公式(2)生成新的样本c。

图1 SMOTE算法

2.4 数据标准化

从每个病人的MRI 序列中提取到的788 个特征存在量纲上的差异,有的特征值并不是同一个数量级,然而量纲上的差异并不能真实表达出特征的重要性。在模型学习的过程中,量纲大的特征对最终学习到的结果影响更大,会导致最终学到的模型不可信。为了解决这一问题,通过标准化可以使得不同的特征变量具有相同的尺度,那么在使用梯度下降法学习模型参数的时候,不同特征对参数的影响程度就一致了。同时,通过将数据标准化,还可以加速损失函数的收敛速度。本文使用的标准化方法为z-score 标准化,如公式(3)所示。

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

2.5 数据降维

数据集特征维度太高会导致过拟合的现象,特别是当数据样本较少的时候。由2.2 小节可知,每个病人的MRI 序列可以提取出788 个特征,然而数据集中只有110 个样本,由此可知目前的特征维度太高。为了增加机器学习模型的泛化能力,减少过拟合的现象,需要对当前的数据集进行降维。

主成分分析(Principal Component Analysis,PCA)是常用的数据降维方法,PCA 通过低维的特征去尽可能的表达原样本中的高维特征空间,不仅可以将数据压缩到低维,保留样本的主要信息,同时还可以使降维之后的数据特征之间相互独立。另外,PCA 将不重要的信息去掉,能起到一定的去噪效果。

3 实验

为了更好地评估模型的泛化能力,本文使用五折交叉验证对模型进行训练与测试。首先将38 个泌乳素腺瘤样本和72 个生长激素腺瘤样本按比例随机的平均分成5 折,然后将其中四折的共88 个样本数据作为训练集用于训练模型,剩余一折的样本数据用于测试模型的泛化能力,循环测试5 轮。划分好训练集与测试集之后,由于泌乳素腺瘤的样本数比较少,使用sklearn(https://scikit-learn.org/stable/)的SMOTE 函数对训练集进行数据增强,得到增强后的训练集共116个样本,新生成的样本均为泌乳素腺瘤样本。

图2 五折交叉验证

对训练集进行数据增强后,然后使用z-score 对训练集和测试集分别进行标准化,最后再使用PCA 分别对训练集和测试集进行数据降维。通过不断测试,发现把数据降到44 维的时候,模型的泛化能力最好。

把降维后的训练集样本输入到逻辑回归(Logistics Regression)中进行训练,然后用测试集测试学习到的模型的效果,得到五折的正确率分别82.6%、91.3%、77.2%、80.95%、85.7%,平均正确率为83.5%。从测试结果可以看出,有几折的正确率相差较大,这是由于测试集的样本较少,少量的判断错误就会导致正确率有比较大的降低。

4 结语

本文提出了基于放射组学信息对泌乳素腺瘤和生长激素腺瘤进行精准分类的机器学习模型,通过提取放射组学的专用软件包Pyradiomics 提取出两种肿瘤在MRI 图片上的放射组学信息,再通过SMOTE 算法生成新样本以平衡样本数据集,然后再对平衡后的样本数据集进行z-score 标准化以去除特征间的量纲差异,并利用PCA 对样本数据集进行特征降维以增强机器学习模型的泛化能力,之后利用五折交叉验证对逻辑回归模型进行训练和测试,模型的平均正确率为83.5%,能精准地对泌乳素腺瘤和生长激素腺瘤进行分类,具有较高的临床实用价值。

猜你喜欢
组学腺瘤生长激素
超声检查在甲状腺腺瘤诊断中的应用价值探析
生长激素
Southern_Weekly_1928_2021_02_04_p28
甲状腺腺瘤的类型有哪些?
“TransCon 生长激素”在生长激素缺乏症儿童中进行的全球三期临床研究
填充型纳流液相色谱长柱的蛋白质组学分析性能考察
亲水作用色谱/质谱联用方法用于膀胱癌患者血清代谢组学研究
乳腺纤维腺瘤的那些事
学生学习方式创新谈