基于机器学习算法的子痫前期预测模型构建

2022-09-07 07:27郑江元祝锐颜永杰周洋罗亚玲

解放军医学杂志 2022年8期

郑江元，祝锐，颜永杰，周洋，罗亚玲*

1重庆医科大学医学信息学院，重庆 400016；2重庆医科大学医学数据研究院，重庆 400016

子痫前期是一种妊娠期高血压疾病，其特征是妊娠20周后出现的高血压和蛋白尿，由于其病因较多，发病机制较复杂，给孕产妇和围产儿带来了巨大的危害。文献报道，子痫前期是导致孕产妇及围产儿死亡的主要原因之一[1-2]。在过去的几十年里，尽管国内外在子痫前期相关领域取得了重大进展[3]，但是到目前为止，子痫前期的病因和发病机制仍未完全明确，且无有效的救治措施，及早发现并加强管理仍是主要的临床策略[4]。为了减少子痫前期带来的不良影响，有必要对孕妇进行子痫前期风险预测。随着智慧医学的发展，机器学习技术具有比传统统计学方法更好的优势，已被广泛应用于疾病的预测诊断中[5-8]。本研究从电子病历中收集数据，采用机器学习算法构建子痫前期风险预测模型并进行评价，以期为医护人员对子痫前期孕妇的评估和防治提供参考。

1 资料与方法

1.1 研究对象本研究为回顾性分析，数据来源于重庆医科大学医学数据研究院大数据平台，该平台包含了重庆医科大学附属7家医疗机构的电子病历数据。收集该数据平台中2016年1月－2018年12月年龄为20～45岁的1609例住院孕妇的资料，其中子痫前期组291例，非子痫前期组1318例。在数据收集过程中，数据的提取和输入均经过检查，排除了临床资料严重缺失的病例，以及出院诊断中有糖尿病、慢性高血压病、肾脏疾病、心脏病等的病例。诊断标准：子痫前期根据中国《妊娠期高血压疾病诊治指南(2020)》[1]的标准进行诊断。本研究已通过重庆医科大学医学研究伦理委员会审批。

1.2 收集指标收集患者的一般资料(年龄、高血压家族史、糖尿病家族史)、体征资料(收缩压、舒张压等)、妊娠情况(孕产次、妊娠期等)及实验室资料(血常规、肝功能、肾功能、电解质、凝血功能)等，排除缺失率≥30%的指标。

1.3 指标分析对子痫前期组与非子痫前期组患者的一般资料、体征资料、妊娠情况和实验室资料进行统计学描述及比较，分析子痫前期的影响因素。根据影响因素构建基于LightGBM机器学习算法的预测模型，并评估其效能。

1.4 统计学处理采用SPSS 25.0软件进行统计分析，缺失率＜30%的指标使用多重插补的方法填补。符合正态分布的计量资料以±s表示，组间比较采用t检验；不符合正态分布的计量资料以M(Q1，Q3)表示，组间比较采用Mann-WhitneyU检验；计数资料以例(%)表示；对结局变量、高血压家族史、糖尿病家族史、孕周≥34周和是否初产妇等分类变量进行赋值，采用χ2检验进行比较。将两组间差异有统计学意义的指标纳入logistic回归分析，进一步筛选子痫前期的影响因素。P＜0.05为差异有统计学意义。

1.5 机器学习模型构建将子痫前期组与非子痫前期组按照7:3随机分为训练集(n=1126)和测试集(n=483)，并对训练集和测试集中的特征变量进行一致性检验。调用python3.7.0 lightgbm包中基于梯度提升决策树(Light Gradient Boosting Machine，LightGBM)的机器学习算法建立预测模型；采用5折交叉验证算法确定LightGBM模型的最优参数，包括num_leaves、max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq。其中num_leaves用来提高模型的准确率，max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq用来防止模型过度拟合。采用敏感度、特异度、准确度、曲线下面积(AUC)等指标评价测试集中预测模型的效能。

2 结果

2.1 一般资料比较纳入的1609例孕妇中，子痫前期291例，占18.1%，非子痫前期1318例，占81.9%。共收集了58项指标，排除缺失率≥30%的13项指标，最终纳入45项指标。两组间谷氨酰转移酶(GGT)、谷丙转氨酶(ALT)、凝血酶时间(TT)、谷草转氨酶(AST)、尿比重等35项指标差异有统计学意义(P＜0.05)，而中性粒细胞计数、凝血酶原时间(PT)、平均红细胞体积(MCV)、淋巴细胞计数等10项指标差异无统计学意义(P＞0.05，表1)。

表1 子痫前期组与非子痫前期组患者的基线资料比较Tab.1 Comparison of baseline data between preeclampsia group and non-preeclampsia group

2.2 子痫前期的影响因素分析利用二元logistic回归分析对这35项指标进一步筛选，其中11项指标[尿比重、尿酸、平均红细胞血红蛋白浓度(MCHC)、球蛋白、血小板分布宽度(PDW)、钾离子、就诊年龄、收缩压、舒张压、脉搏和孕周≥34周]差异有统计学意义(P＜0.05)，可作为子痫前期的独立危险因素；此外，高血压家族史虽然差异无统计学意义(P=0.063)，但通过咨询临床专家和查阅参考文献，最终也作为子痫前期的影响因素(表2)。

表2 子痫前期差异性指标logistic回归分析Tab.2 Logistic regression analysis of difference index in preeclampsia

2.3 机器学习模型将上述12项独立危险因素作为预测模型的输入变量，孕妇是否发生子痫前期作为结局变量，并将子痫前期组与非子痫前期组按照7:3随机分为训练集和测试集，对训练集和测试集中的特征变量进行一致性检验，所有特征变量在训练集和测试集中均满足一致性检验(P＞0.05，表3)。在训练过程中，采用5折交叉验证算法对LightGBM模型的参数进行优化，调优参数的范围为：num_leaves为5～100，max_depth为3～8，min_data_in_leaf为1～102，feature_fraction为0.6～1.0，bagging_fraction为0.6～1.0，bagging_freq为0～50。经过试验，参数设置为num_leaves=5、max_depth=3、min_data_in_leaf=91、feature_fraction=0.8、bagging_fraction=0.6、bagging_freq=5时，LightGBM模型的预测效果达到最优，模型的曲线下面积(AUC)为0.964，敏感度为84.9%，特异度为92.7%。

表3 特征变量在训练集和测试集中的一致性检验Tab.3 Consistency test of characteristic variables in training set and test set

2.4 模型效能检验采用测试集对模型的效能进行验证，结果显示，LightGBM模型的敏感度和AUC均高于logistic回归模型，但logistic回归模型的特异度和准确度高于LightGBM模型(图1、表4)。

图1 Logistic回归模型与LightGBM模型在测试集中的ROC曲线图Fig.1 ROC plot of logistic regression model and LightGBM model in test set

表4 Logistic回归模型与LightGBM模型的效能评价Tab.4 Performance evaluation of logistic regression model and LightGBM model

3 讨论

子痫前期存在多因素、多机制、多通路发病的综合征性质[1]，唯一的治疗方法为中断妊娠，但是可能会增加母婴早产并发症的风险。虽然已有学者将检查指标用于子痫前期的诊断预测[9-11]，如可溶性血管内皮生长因子(soluble fms-like tyrosine kinase 1，sFlt-1)和胎盘生长因子(placental growth factor，PlGF)等，但其预测效果并不理想[12]，且在低收入和中等收入国家推广较为困难。本研究通过分析重庆医科大学医学数据研究院大数据平台中的1609例住院孕妇的临床数据构建了预测模型，以辅助初级临床医师和基层医疗机构评估子痫前期的发生风险。

本研究筛选出子痫前期的12项影响因素，其中，球蛋白和孕周≥34周两个指标为保护因素，尿比重、尿酸、平均红细胞血红蛋白浓度等指标为危险因素。目前，患者年龄、高血压家族史、收缩压和舒张压这4项指标对子痫前期发生风险的影响已被广泛报道[13-16]，而尿比重、尿酸、平均红细胞血红蛋白浓度、球蛋白、血小板分布宽度、钾离子、脉搏和孕周≥34周在子痫前期中的作用则少见报道。

有研究发现，与健康孕妇比较，子痫前期孕妇在妊娠期间更容易消耗血清免疫球蛋白，导致血清球蛋白浓度降低[17]。本研究发现，球蛋白为子痫前期的保护因素，球蛋白浓度越高，所消耗的球蛋白越少，患子痫前期的风险越小，与文献报道一致。临床上将孕周＜34周定义为早发型子痫前期，孕周≥34周定义为迟发型子痫前期[18]，其中早发型子痫前期不良出生结局的发生率高于迟发型子痫前期，病情更危重，发生多器官功能损伤的风险更高[19]。因此，孕周越高孕妇发生子痫前期的风险越低。

子痫前期患者可能存在肾功能受损，由于肾脏灌注和肾小球滤过率下降，尿比重增高时，尿液浓缩，尿酸清除率下降，导致尿酸增多[20]。此外，近端小管对尿酸的重吸收增加和排泄减少，使子痫前期患者尿酸进一步增多[21]。有研究报道，子痫前期患者红细胞聚集能力增强，变形能力减弱，血浆扩容不足，导致血小板黏附于血管壁，红细胞膜破坏，红细胞血红蛋白浓度增加，血红蛋白/血细胞比容比值增高，血液黏度增高[22-23]。已有研究发现，与正常妊娠晚期比较，子痫前期患者血小板计数更低，原因为血小板平均容积、血小板分布宽度升高，使得血小板消耗增加，从而导致血小板计数减少[24]。此外，据文献报道，妊娠前中期高血钾水平与严重子痫前期的发展风险较高相关[25]。妊娠期间醛固酮和孕酮可影响孕妇的血钾水平，因此，血钾水平升高可能提示醛固酮和孕酮紊乱，而醛固酮和孕酮紊乱又可能与子痫前期的发生有关[26]。美国妇产科医师学会(American College of Obstetricians and Gynecologists，ACOG)提出，心率是子痫前期的一个预警指标[27]。子痫前期孕妇可能存在心功能损害，原因包括：(1)血管阻力增加，心脏后负荷加重；(2)肾素-血管紧张素-醛固酮系统平衡被破坏，造成水钠潴留，引起血液浓缩；(3)贫血、低蛋白血症导致血浆胶体渗透压降低；(4)血浆扩容不足[28]。而脉搏与心率相关，脉搏越快则提示心率越快，孕妇患子痫前期的风险越大[29]。

随着大数据时代的来临，机器学习在医疗卫生领域的应用越来越广泛，尤其是在疾病的预测和预后评估方面[30-31]。本研究根据筛选出来的子痫前期影响因素，构建了子痫前期预测模型，以预测孕妇子痫前期的发生风险。结果显示，LightGBM模型的效果达到最优时，其AUC为0.964，敏感度为0.849，特异度为0.927。本研究LightGBM模型的AUC高于Jhee等[26]的模型(敏感度=0.603，特异度=0.991，AUC=0.924)。但是，Jhee等[26]的模型由于病例组(n=474)与对照组(n=10058)例数不平衡，导致敏感度及特异度相差过大，而本研究的LightGBM模型在敏感度及特异度相差过大的问题上有所改善，综合性能较之前的预测模型有所提高。Logistic回归模型的可解释性非常好，从特征的权重可以解释不同特征对最后结果的影响，在医疗卫生领域可用于探索疾病的相关影响因素，但因为模型简单，容易出现欠拟合、模型总体效能不高等问题。LightGBM是一种快速的、分布式的、高性能的基于决策树算法的梯度提升框架[32]。LightGBM模型采用直方图算法对数据进行分割，通过离散化的统计量遍历寻找最优分割点，减小内存，提高训练速度[33]；采用有深度限制的按叶子生长策略，从当前叶子节点中找到增益值最大的节点进行分裂，并对树的深度进行限制，防止过度拟合，缩短寻找最优深度树的时间，降低了误差，提高了预测准确度[34]。

综上所述，本研究构建了基于机器学习算法的子痫前期预测模型，并利用敏感度、特异度、准确度和AUC等评价指标对构建的机器学习模型进行评价，一定程度上减少了单一评价指标带来的偏倚。同时，本研究结合了母体因素和常见的产前实验室检查指标，纳入的患者来自多个中心，样本量大且具有良好的代表性，可以有效地预测子痫前期的发生风险，对临床上孕妇子痫前期的早期识别有一定的辅助作用，具有潜在的临床价值。

本研究仍存在一些不足之处：(1)数据均来源于重庆地区，可能存在选择偏倚，需要进行外部验证以进一步评估模型的效能；(2)本文构建的预测模型综合效能较高，包含了12项指标，虽然均为易于获得的常规实验室检查指标，但指标数量较多，在临床推广应用有一定困难；(3)研究中部分指标的缺失率过大，如BMI是孕产妇产检的重要指标，但在本研究中由于该指标缺失率过大而未纳入模型中，重要指标的缺失可能会对模型的效能产生一些影响。因此，未来仍需进一步论证该指标的缺失是否会对预测结果有较大影响。

基于机器学习算法的子痫前期预测模型构建

1 资料与方法

2 结 果

3 讨 论

2 结果

3 讨论