□ 陈蒙蒙CHEN Meng-meng 方振红FANG Zhen-hong 涂文怡TU Wen-yi 温伟伟WEN Wei-wei
心脏病作为人体最重要的器官之一,受到广泛地关注[1-2],临床在进行心脏病治疗之前,需要先预测一个人是否得了心脏病,所以如何准确地预测心脏病是非常重要的课题[3-5]。心脏病预测的方法非常多,但是准确率都不高[6-7]。Logistic回归模型是一种非常经典高效的回归预测模型,它被广泛应用于预测工作[8-9]。本研究使用Logistic回归模型对心脏病进行预测,并探讨Logistic回归模型在预测某些心脏病数据库中患者的患病准确率。
Logistic回归模型是一种高效的监督学习方法,被广泛地用于概率预测与分类。Logistic回归模型基于极大似然估计,即通过极大似然函数来推导损失函数,通过梯度下降的方式来求解算法参数,进而对数据进行二分类。Logistic回归模型的数学表达式如下:
1.一般资料。使用UCI机器学习库中的心脏病数据集(UCI machine learning repository: statlog (heart) data set),共有样本270个,其中阳性样本120个,阴性样本150个。样本的民族和国家信息不详,每个样本包含14个变量信息:年龄、性别、胸痛类型、静息血压、血清胆汁、空腹血糖、静息心电图结果、达到的最大心率、运动性心绞痛、运动诱发的抑郁、峰值运动ST段的斜率、荧光检查染色的主要血管数量、心脏缺陷和类别,其中类别是结果变量,即因变量,其他13个为自变量。数据集的14个变量信息中,性别、空腹血糖、运动性心绞痛、类别是布尔值,年龄、胸痛类型、静息血压、静息心电图结果、达到的最大心率、峰值运动ST段的斜率、荧光检查染色的主要血管数量、心脏缺陷是正整数,血清胆汁和运动诱发的抑郁是浮点值,具体见表1。变量情况见表2。
表1 变量含义、度量单位和区间
表2 变量情况
2.变量相关性分析。该数据集个变量之间的相关性度量见表3。表3显示数据集的13个变量之间的相关度不高,说明这些变量中的任何一个自变量都不能很好地被另一个或者另几个变量所表示,所以在预测心脏病时,需要把13个变量都纳入才更科学合理。
表3 变量之间的相关度
3.方法。采用SPSS软件进行统计分析,提出以类别为因变量,其他13个变量为自变量的针对心脏病数据集的Logistic回归模型。通过本研究的Logistic回归模型得出ROC曲线下方的区域信息,进而说明Logistic回归模型在预测心脏病中的准确率。
1.Logistic回归模型结果。13个变量作为影响心脏病发病的因素被考虑进了Logistic回归模型,其中,性别、静息血压和荧光检查染色的主要血管数量具有统计学意义(p<0.05),见表4。
2.心脏病影响因素的ROC曲线下方的区域。区域值为0.943,说明本研究所用的数据库用Logistic回归模型来预测心脏病的准确率非常高,见表5。
表5 心脏病影响因素的ROC曲线下方的区域
本文使用Logistic回归模型来预测心脏病。采用人工智能机器学习领域较权威的UCI数据库中的心脏病预测数据集来测试Logistic回归模型的预测性能,结果显示,Logistic回归模型能够很准确地预测出样本是否患有心脏病,对心脏病的临床预测有指导意义。