基于标准数据集的川崎病相关静脉注射免疫球蛋白无应答预测模型研究

2023-09-17 08:22蒋蓓李光黄敏

上海医学 2023年7期

蒋蓓李光黄敏

川崎病（Kawasaki disease，KD）是急性发热性出疹性疾病，以全身性中、小动脉炎为主要病理改变，好发于5岁以下儿童。近年来，KD发病率呈逐年上升趋势。KD的早期表现缺乏特征，不易与儿科其他感染性疾病相鉴别[1-4］。KD的诊断准确性与诊治医师的临床经验密切相关，故临床中多数KD患儿可因误诊延误治疗时机[5］。目前，大剂量静脉注射免疫球蛋白（intranetvenous immunoglobulin，IVIG）联合口服阿司匹林是KD的标准治疗方案，但仍有部分患儿存在首剂IVIG治疗无应答，这类患儿冠状动脉损伤（coronary artery lesion，CAL）的发生率远高于IVIG治疗应答患儿[6-7］。因此，构建和完善KD相关IVIG治疗无应答的预测模型具有重要临床意义。

国内外已有针对KD诊断模型和用药预测模型的相关研究。Kobayashi等[8］应用初始治疗时的发病天数、年龄、中性粒细胞比例、血小板计数、AST水平、血清钠水平和CRP值构建IVIG无应答预测模型，其灵敏度和特异度分别为0.86和0.67。国内学者应用Egami方法预测IVIG无应答的灵敏度和特异度分别为0.214和0.866[9-10］。本课题组前期已针对KD相关的IVIG治疗无应答患儿建立了预测模型[5］，并基于标准数据集和隐私计算环境的全新医学人工智能算法的比较模式对预测模型进行验证结果显示，IVIG治疗无应答预测模型的灵敏度和特异度均为0.73。但IVIG无应答预测模型的预测效能尚存争议。

本研究基于以上临床现状和数据基础，对2020年1月—2023年3月在上海市儿童医院（上海交通大学医学院附属儿童医院）住院的906例患儿的临床资料进行回顾性分析，使用院内搭建的隐私计算环境对KD标准数据集进行处理、分析，以进一步验证本课题组构建的KD相关IVIG无应答预测模型的预测效能。同时，本研究基于IVIG无应答预测模型，采用纳入的患儿资料对“川崎病免疫球蛋白治疗敏感性预测软件”进行临床应用前的验证。

1 对象与方法

1.1 研究对象回顾性分析2020年1月—2023年3月在上海市儿童医院住院且发热≥3 d的906例患儿资料，对包括血常规、凝血功能、生物化学、免疫、流式细胞术检测在内的共246项检查指标进行梳理，剔除资料不齐全的患儿数据。KD诊断标准参考美国心脏协会发布的2017版《川崎病诊断、治疗及长期管理指南：美国心脏协会对医疗专业人员的科学声明》[6］。纳入标准：①发热≥3 d；②年龄＜18岁；③未接受IVIG或糖皮质激素治疗。排除标准：①伴有自身免疫性疾病；②伴有先天性心血管疾病；③近1个月内接受过糖皮质激素治疗。最终本研究入组687例患儿及其对应的98项检查指标作为研究对象。其中，经IVIG治疗且治疗时间≤48 h，仍发热但排除感染等因素，或7 d内再次发热或IVIG治疗次数≥2次的患儿被诊断为KD相关IVIG无应答。本研究已通过医院伦理委员会审核、批准（审批号：2023R067-E01）。

1.2 预测模型及预测流程构建

1.2.1 KD相关IVIG无应答预测流程的特征向量空间模型构建及其释义遵循标准数据的挖掘流程，按照向量空间模型将患儿的基本信息和检查指标等数据（即数据集）表示成623维的特征向量矩阵。第1维表示该患儿是否为KD相关IVIG无应答，1表示为正例（即IVIG应答患儿），0表示为负例（即IVIG无应答患儿）。其余维度表示该患儿的各项医学检查指标、基本信息。若患儿某检查指标缺失，则logistic回归模型和决策树模型分析的特征值的默认值为-1，决策树模型的特征值可保留缺失值；若检查指标非缺失，决策树模型的特征值保留原始值；logistic回归模型需要对原始特征值做归一化处理，应选用常见的均值行归一化处理，决策树模型还将对个例进行分析。详细的特征向量空间模型见图1。

1.2.2 KD相关IVIG无应答预测模型建立前的预测流程构建对比工业界常用的logistic回归模型和决策树模型，构建KD相关IVIG无应答的预测模型的预测流程。为消除特征中的噪声数据，通过调整模型的正则化参数控制模型的泛化能力，尤其是logistic回归模型。本研究应用logistic正则化可稀疏模型参数的特性，不仅可以提高模型预测效果，还能节约参数的空间。通过将算法应用于KD相关IVIG无应答预测，提取并量化IVIG无应答和IVIG应答的特征，采用合适的算法训练与生成分类模型，应用模型以鉴别未知患儿。通过检查指标，构建特征向量空间模型，将数据集转化成特征矩阵，应用决策树分类算法构建相关模型，对未知患儿进行鉴别。见图2。

图2 KD相关IVIG无应答预测模型建立前的预测流程构建

1.3 预测模型训练及分析将确诊KD的患儿数据用于训练模型，其中IVIG无应答患儿数据作为负例样本，IVIG应答患儿数据作为正例样本。随机选择80%正例和负例样本用于训练，剩余20%样本用于测试。应用基于logistic回归模型分类方法和机器学习方法构建预测模型，为保证模型稳定性采用十折交叉验证的方式训练，并采用网格搜索法进行参数优化。

1.4 “川崎病免疫球蛋白治疗敏感性预测软件”印证如图3所示，在“川崎病免疫球蛋白治疗敏感性预测软件”中，输入患儿的检验结果数值，点击“开始预测”按钮，以嵌套本课题组的KD相关IVIG无应答预测模型，进行患儿IVIG无应答概率预测，并与患儿病历资料中的诊断、病史和相关检查结果等信息进行比对，验证软件预测效率。

图3 “川崎病免疫球蛋白治疗敏感性预测软件”验证操作界面

1.5 统计学处理应用R语言软件[11］。原始数据使用R语言软件的Rattle交互工具进行分析建模，包含基本数据的清理、统计、汇总、分布、相关性分析、假设检验、决策树模型[12］，logistic回归模型[13］、ROC绘图分析评估[14］。呈正态分布的计量资料以±s表示，呈非正态分布的计量资料以中位数（M）和（或）第25、75百分位数（P25，P75）表示，两组间比较采用方差分析。采用Pearson相关性分析探究各检查指标间的相关性，相关系数以r值表示。以P＜0.05为差异有统计学意义。

2 结果

2.1 KD患儿的一般资料及标准数据集建立本研究入组的687例患儿，均为汉族，其中男413例、女274例，月龄中位数为2.4个月。KD相关IVIG无应答患儿102例（102／687，14.85%），其中男56例、女46例。对687例患儿的数据进行分组，按照预测模型训练要求，549例（79.9%）患儿被随机分入训练集，其中男337例、女212例；KD相关IVIG无应答患儿79例，纳入IVIG无应答组，KD相关IVIG应答患儿470例，纳入IVIG应答组。138例（20.1%）患儿被随机分入测试集，其中KD相关IVIG无应答患儿23例，应答患儿115例。

根据本课题组前期构建的KD相关IVIG无应答预测模型[5］[即总分＜6分为IVIG治疗无应答，包括：CRP＞10 mg／L为2分，中性粒细胞与淋巴细胞比值（NLR）＞2.469为2分，AST＞100 U／L为2分，血清白蛋白（ALB）＜35 g／L为2分，纤维蛋白降解产物（FDP）＞5μg／m L为1分］，本研究进一步对687例患儿资料及其98项检查指标进行决策树分析，结果显示铁蛋白1（ferritin1）、APTT、D二聚体水平与预测KD患儿IVIG的治疗效果相关，其中ferritin1＞248 ng／m L时，共发现76例样本，IVIG应答48例、IVIG无应答28例。ferritin1≤248 ng／mL、APTT＞35.7 s、D二聚体＞4.14 mg／L时，共发现10例样本，均为IVIG应答患儿。但由于覆盖这3个指标的样本量较少，故与本课题组前期研究方法相同，本研究继续应用logistic回归模型分析IVIG无应答预测模型的预测效能。

2.2 KD相关IVIG无应答预测模型分析应用数据集对IVIG无应答预测模型进行验证，结果显示IVIG无应答组的AST、FDP、CRP和NLR值均显著高于IVIG应答组，ALB值显著低于IVIG应答组（P＜0.001或0.01）。见表1。Pearson相关性分析结果显示，上述各检验指标间均无显著相关性（P值均＜0.05）。见图4。

表1 KD相关IVIG无应答预测模型分析

图4 KD相关IVIG无应答预测模型各检验指标间的Pearson相关性分析

2.3 KD相关IVIG无应答预测模型的预测效能分析 logistic回归分析结果显示，KD相关IVIG无应答预测模型ROC的AUC为0.630 0（95%CI为0.570 9～0.712 7），其灵敏度和特异度分别为0.72和0.88。

2.4 “川崎病免疫球蛋白治疗敏感性预测软件”验证结果如图5所示，应用“川崎病免疫球蛋白治疗敏感性预测软件”预测A0001（病历资料编号）患者的IVIG无应答的预测概率为89.70%，与该患儿病历资料中的症状、体征、治疗效果的描述相对一致。将本研究纳入的687例患儿资料输入“川崎病免疫球蛋白治疗敏感性预测软件”，结果显示528例患儿预测结果与患儿病历资料中的症状、体征、治疗效果的描述相对一致，预测准确率为76.86%。提示该软件的预测准确率尚可，但有待进一步完善。

图5 “川崎病免疫球蛋白治疗敏感性预测软件”预测结果界面

3 讨论

KD是一种以全身血管炎为主要病理改变的急性、发热性疾病，好发于5岁以下儿童。尽管KD具有自限性，但其导致CAL的发生率较高，部分患儿可并发心、脑、肝、肺、肾等多脏器损伤，而针对KD患儿的IVIG无应答的预测存在一定困难，需要结合部分实验室指标和临床表现进行综合诊断[15］。目前，非典型KD的发生率有所提高，该类患儿易错过最佳治疗时机。

本课题组于2021年起着手建立KD诊断治疗数据集质量控制标准，并建设了KD标准数据集。KD的临床研究需要高质量专病数据的支撑，因地区、医疗机构不同，数据收集及存取存在一定差异，且各家医疗单位的信息系统不同，得到的数据缺乏同质化的标准术语体系，无法实现数据间的互联、互通，导致无法汇总全国各地的KD病例数据进行临床研究[5］。因此，针对KD临床治疗、临床诊断、临床科研需求，亟须汇聚、融合KD诊疗的数据，通过接入KD患者诊断、治疗，并根据该疾病发生、发展和诊疗规律，进行疾病数据模型构建，以及针对性的数据清洗、标准化、归一化、后结构化处理，形成统一规范的KD标准数据集。

基于本课题组前期对KD标准数据集数据的整理，本研究动态观察KD患儿相关检查指标，发现ferritin1、APTT、D二聚体与预测KD患儿IVIG的治疗效果相关，其中ferritin1＞248 ng／m L时，共发现76例样本，IVIG治疗应答48例，IVIG治疗无应答28例。ferritin1≤248 ng／mL、APTT＞35.7 s、D二聚体＞4.14 mg／L时，共发现10例样本，均为IVIG治疗应答患儿。但由于覆盖这3个指标的样本量较少，故本研究中继续应用logistic回归模型分析IVIG治疗无应答模型的预测效能，结果显示该模型的预测灵敏度和特异度分别为0.72和0.88，提示预测模型还有待进一步完善。同时，将本研究纳入的687例患儿资料用以验证“川崎病免疫球蛋白治疗敏感性预测软件”，结果显示76.86%的患儿预测结果与患儿病历资料中的相关信息基本一致，提示软件可用但其预测准确率有待进一步完善。故建立有效的KD相关IVIG治疗无应答预测模型可帮助临床诊断、治疗KD患儿，降低其CAL的发生率。本研究的创新点在于将前期建立和完善的预测模型进行实践化，研发出具有临床应用潜能的“川崎病免疫球蛋白治疗敏感性预测软件”，并证明嵌套IVIG无应答预测模型的“川崎病免疫球蛋白治疗敏感性预测软件”可在一定程度上协助临床医师早期发现IVIG无应答的KD患儿，这为KD的诊治提供了新的思路。

综上所述，本研究基于标准数据集并结合院内搭建的隐私计算环境对KD相关IVIG无应答预测模型进行进一步研究，并将该模型嵌套于本团队自主研发的“川崎病免疫球蛋白治疗敏感性预测软件”中，为KD的诊疗提供了有效辅助。尽管，本研究中的“川崎病免疫球蛋白治疗敏感性预测软件”预测结果与患儿病历资料中基本信息的一致性较高，但由于KD患儿存在个体差异且软件的预测效能有待完善，故仅依靠软件诊断可能导致不可预料的误诊或漏诊[16］。因此，目前包括“川崎病免疫球蛋白治疗敏感性预测软件”在内的诊断软件只能作为临床医师对疾病进行鉴别诊断的辅助工具。未来本研究团队将进一步完善数据库和标准数据集的建设，全面优化KD相关IVIG无应答预测模型，为更多软件和平台的开发、应用创造坚实的数据基础。

基于标准数据集的川崎病相关静脉注射免疫球蛋白无应答预测模型研究

1 对象与方法

2 结 果

3 讨 论

2 结果

3 讨论