基于决策树与多元线性回归模型的出生体重影响因素分析*

2022-05-28 04:20中南大学湘雅公共卫生学院流行病与卫生统计系410078
中国卫生统计 2022年2期
关键词:决策树线性孕妇

中南大学湘雅公共卫生学院流行病与卫生统计系(410078)

蒋 妮 程 港 贺思敏 吴夕红 唐 偲 谢群辉 闵献英 李 超 颜 艳△

【提 要】 目的 利用决策树和多元线性回归模型,探讨新生儿出生体重的影响因素,为孕期保健和改善新生儿出生体重提供理论依据。方法 选取湖南省长沙市开福区三个街道社区卫生服务中心2015年出生的新生儿及母亲进行问卷调查,回顾性收集孕期和分娩相关信息,运用决策树CHAID算法和多元线性回归分析出生体重的影响因素。结果 决策树CHAID算法结果表明孕周、孕前体质指数(body mass index,BMI)、孕期增重和新生儿性别是出生体重的影响因素,其中孕周是最主要的因素。决策树模型划分的亚组显示孕周<37周组的新生儿出生体重最低,孕周≥37周且孕前肥胖组的新生儿出生体重最高。多元线性回归模型结果也显示孕周、孕前BMI、孕期增重和新生儿性别是出生体重的影响因素,四个因素之间无真正的交互作用。结论 出生体重受孕周、孕前BMI、孕期增重和新生儿性别的影响,决策树和多元线性回归模型都能分析出生体重的因素,两种方法可以联合运用,互为补充。

新生儿出生体重不仅能反映母亲孕期保健质量和营养状况,而且能衡量新生儿的生长发育水平,同时能影响新生儿成长过程中的健康状况。低出生体重能增加婴幼儿的发病与死亡风险,也与儿童生长迟缓、高血压以及成年后冠心病、心肌梗死、2型糖尿病等疾病密切相关[1-2]。高出生体重儿更易出现肥胖、糖尿病、高血压,并且胰腺癌、前列腺癌、乳腺癌等癌症的患病风险增加,出生体重增加1000g,患癌症风险增加7%[3-4]。因此控制新生儿出生体重在适宜的范围内,可以提高儿童乃至成人后的健康水平和生活质量。

目前,有关出生体重影响因素的研究以经典的多元线性回归模型为主,多元线性回归模型虽然能分析出生体重与影响因素之间的线性关系,量化出生体重影响因素的作用,但其受适用条件的限制且不能提出有针对性的决策建议;在自变量较多的情况下,常常需要判断自变量之间复杂的交互作用,将各种情况的交互项加入多元线性回归模型,就更复杂了。决策树以树形图为基础,适用范围广,能直观地体现出影响因素的重要程度,划分出具有不同特征的亚组,并按照每个自变量对因变量的关联程度进行分层,显示自变量之间的交互作用。根据决策树结果筛选的变量可以建立相应的回归模型,并对交互项进行检验,以确定交互作用是否真正存在,两种方法联合运用能互为补充,得到详细的结果。因此,本研究运用决策树和多元线性回归模型,探讨新生儿出生体重的影响因素,为孕期保健提供科学的理论依据,对改善新生儿出生体重及以后的健康状况有重要意义。

对象与方法

1.数据来源和研究对象

2.调查方法

利用自行设计的调查问卷,结合社区卫生服务中心的健康档案和孕妇保健手册收集信息。调查问卷内容包括:①母亲年龄、文化程度、家庭经济收入等社会人口学信息;②母亲孕产史、孕周、孕前体重、孕期营养剂补充情况、分娩方式等孕期与分娩信息;③新生儿性别、出生体重和身长等信息。

3.判定标准

母亲年龄:根据最佳生育年龄和产妇高龄,将母亲年龄(岁)分为<25、25~35和>35 3组[6]。

孕周:参照《妇产科学》以及早产的定义,根据新生儿是否早产,将母亲孕周分为<37和≥37周[7]。

孕前体质指数(body mass index,BMI):孕前体重/身高2(kg/m2)。孕前体重为孕早期(<13周)首次测量的体重。根据《中国备孕妇女膳食指南(2016)》,孕前BMI分为4类:消瘦(BMI<18.5kg/m2)、正常(18.5kg/m2≤BMI≤23.9kg/m2)、超重(24.0kg/m2≤BMI≤27.9kg/m2)和肥胖(BMI≥28.0kg/m2)[8]。

孕期增重:分娩体重与孕前体重的差值。根据孕前BMI和美国医学研究院的孕期增重推荐值,孕前体重消瘦者、正常者、超重者和肥胖者适宜的孕期增重范围分别为12.5~18.0kg、11.5~16.0kg、7.0~11.5kg和5.0~9.0kg[9]。因此,可将孕期增重分为不足、适宜和过多3类。

叶酸增补情况:根据《中国备孕妇女膳食指南(2016)》,叶酸增补规范为备孕妇女从孕前3个月开始补充叶酸,并至少持续到孕后3个月[8]。

4.模型原理

决策树CHAID算法:决策树是一种数据挖掘方法,通过一系列规则对数据进行分类,具有多种算法,其中CHAID算法即卡方自动交互检测法(chi-squared automatic interaction detector,CHAID),是根据变量类型利用卡方检验或方差分析原理对数据进行最优分割,按P值进行多元列联表的自动判断分组,生成一个多叉树,既支持离散型目标变量,又支持连续型目标变量,能高效的挖掘出主要影响因素[10]。对于连续型目标变量,CHAID算法按照方差分析进行判断分组,从根节点开始,在每一步均选择与目标变量有最强作用的输入变量,若每个输入变量的类别与目标变量的差异无统计学意义,则进行合并,当节点的数据和P值达不到设置的要求,则停止分割,该节点为终末节点[11-12]。

多元线性回归模型:是经典的统计学分析方法,研究的是一个因变量与多个自变量之间的线性依存关系,要求因变量是连续变量且服从正态分布,自变量可以是连续变量、分类变量或有序变量[13]。

5.统计分析

通过EpiData 3.1进行数据双人双份录入。用均数和标准差对数据进行描述,使用t检验、单因素方差分析进行组间比较,使用决策树CHAID算法和多元线性回归模型分析出生体重影响因素。所有分析过程在SPSS 20.0中进行,检验水准α=0.05。

结 果

1.一般情况

本次调查共有1286名新生儿,根据纳入和排除标准,最终调查了926对母婴。剔除10份缺失关键数据的问卷,有效问卷916份,有效率为98.9%,符合最少样本量545名的要求。916名母亲的平均年龄为(29.49±3.92)岁,平均孕周为(38.92±1.64)周,文化程度以大学及以上为主。新生儿平均出生体重为(3350.93±432.49)g,男孩的出生体重高于女孩,差异具有统计学意义(P<0.05),孕前肥胖、孕期增重过多、经产妇和孕周≥37周组的出生体重较高(P<0.05),而不同母亲年龄、文化程度、家庭人均月收入、孕期吸烟暴露、妊娠期高血压和糖尿病、叶酸增补情况和分娩方式间出生体重的差异无统计学意义(P>0.05),见表1。

表1 916对母婴的一般情况描述和比较

2.出生体重影响因素的决策树CHAID算法分析

将出生体重作为目标变量,其余所有变量作为输入变量,利用决策树中的CHAID算法进行分析,设置决策树最大深度为3层,父节点最小个案数为50,子节点最小个案数为10。最终构建的出生体重影响因素决策树图见图1,结果显示共有7个终末节点,排除了母亲年龄、文化程度、家庭人均月收入、孕期吸烟暴露、产次、妊娠期高血压和糖尿病、叶酸增补情况和分娩方式,孕周、孕前BMI、孕期增重情况和新生儿性别是影响出生体重的因素。

图1 出生体重影响因素的决策树CHAID算法分析结果

由图1可以看出,第一层是孕周,说明孕周是影响出生体重的最主要因素。在孕周≥37周的人群中,孕前BMI与出生体重的相关性最高。孕期增重情况和新生儿性别对出生体重的影响分别在孕周≥37周且孕前消瘦和孕周≥37周且孕前BMI正常的人群中表现出来。具体组合规则见表2,新生儿出生体重在孕周<37周组最低,其次是孕周≥37周、孕前消瘦且孕期增重不足/合适组,在孕周≥37周且孕前肥胖组最高。组间比较显示不同组合的出生体重差异具有统计学意义,F=36.240,P<0.001。

表2 决策树图终末节点的组合规则

3.出生体重影响因素的多元线性回归分析

关于出生体重影响因素的研究多采用经典的多元线性回归方法,将出生体重作为因变量,其余所有变量作为自变量对本数据进行多元线性逐步回归分析,考虑到自变量间可能存在交互作用,将决策树结果中的孕周、孕前BMI、孕期增重和新生儿性别的交互项纳入分析,α进=0.05,α出=0.10。结果见表3,母亲孕周、孕前BMI、孕期增重与出生体重呈正相关且孕周对出生体重的影响最大,新生儿性别与出生体重呈负相关,自变量间的交互项未进入模型。模型检验F=61.593,P<0.001,决定系数R2=0.461,该模型能解释出生体重变异的46.1%。

表3 出生体重影响因素的多元线性回归分析结果

讨 论

本研究通过决策树CHAID算法和多元线性回归模型分析显示,孕周、孕前BMI、孕期增重情况和新生儿性别都是影响出生体重的因素。其中,孕周是影响出生体重的最主要因素,这与多项研究结果一致[14-17]。孕周<37周为早产儿,与孕周≥37周的足月儿相比,早产儿各器官形态和功能发育尚未成熟,出生时各方面情况差。此外,新生儿性别与出生体重相关,男孩的出生体重高于女孩。

孕前BMI和孕期增重情况与新生儿出生体重呈正相关,既往研究表明孕前低BMI的孕妇不能给胎儿提供充足的营养物质,而孕前高BMI的孕妇会出现代谢紊乱,使得胎儿通过胎盘获得的营养物质增加,导致新生儿出生体重随孕前BMI的增加而增加[18-19]。孕期增重情况是反映孕期营养状况的重要指标,孕妇孕期营养状况与胎儿的生长发育密切相关,孕期增重不足和过多均能影响包括出生体重在内的多种结局[20]。因此,控制孕前BMI和孕期增重在适宜范围内有利于胎儿的生长发育,使出生体重维持在正常水平。

多元线性回归是经典的多因素模型,显示了控制其他因素后某因素对因变量的作用,能量化影响因素与因变量的关系;决策树模型以树形图的形式清楚直观地显示分析过程和结果,体现出影响因素的重要程度,划分出不同特征的亚组,有利于快速识别出不同的人群而采取有针对性的措施,比仅仅分析出哪些变量能影响结果更具有指导意义[21-23]。本研究结果提示,需关注孕周<37周和孕周≥37周且孕前肥胖的孕妇,因为这两类人群中新生儿出生体重分别为最低和最高,此外在孕期保健服务和管理工作中,要指导孕妇科学增重,多关注孕周≥37周且孕前消瘦人群,因为她们增重不足会导致新生儿出生体重偏低。

使用多元线性回归模型需考虑自变量之间可能存在的交互作用,当自变量较少时,可以加入两自变量的交互项进行分析,但自变量较多的情况下,自变量间的交互作用会变得复杂。决策树模型可以显示自变量间复杂的交互作用,借助决策树模型可以揭示复杂的交互项[23-25]。对于本研究,决策树模型提示孕周、孕前BMI、孕期增重和新生儿性别可能存在交互作用,新生儿性别对出生体重的影响在孕周≥37周且孕前BMI正常的亚组中体现出来,可能因为与孕周和孕前BMI相比,新生儿性别是不可改变因素,对出生体重的影响较小,无法在其他人群中进一步划分亚组。另外,孕期增重对出生体重的影响在孕周≥37周且孕前消瘦的情况下表现出来,这提示在孕周≥37周、孕前消瘦的人群中,孕期增重情况对新生儿出生体重的影响更加突出。以往的研究有类似的结果,王雅文等[26]进行的前瞻性队列研究发现孕期增重不足仅会增加孕前BMI较低的孕妇分娩低出生体重儿的风险。Eraslan SM等[27]研究未发现孕前BMI正常的孕妇孕期增重不足和过多对新生儿出生体重有影响。然而,决策树模型无法分析和检验自变量及交互项的线性组合关系[22,25],将可能的交互项加入多元线性回归模型进一步分析,结果表明孕周、孕前BMI、孕期增重和新生儿性别对出生体重的影响并无真正的交互作用,二者结果并不矛盾,决策树模型只显示了某变量在某亚组中有作用,在其他亚组中无作用。以往有研究表明孕期BMI和孕期增重对新生儿出生体重的影响不存在交互作用[28-30]。在孕妇管理工作中,应同时关注这些因素,以控制新生儿出生体重在正常范围内。

本研究存在一定的局限性,一是样本量较小。二是在收集孕期信息时,让被调查者进行回忆,存在回忆偏倚,为减少回忆偏倚的影响,本研究在收集资料时结合了社区卫生服务中心的健康档案和孕妇保健手册。三是由于中国还没有孕期增重的推荐值,本研究根据美国医学研究院推荐的孕期增重值对孕期增重进行分类,可能存在人群差异而影响研究结果。

综上所述,出生体重受多种因素的影响,加强孕期保健服务与管理,预防早产的发生,同时监测孕前体重与孕期体重变化,并根据孕前BMI制定科学的孕期增重方案,对改善新生儿出生体重及以后的健康状况有重要意义。决策树和多元线性回归模型都能分析出生体重的影响因素,决策树模型能直观反映各因素对出生体重的作用与重要程度,划分出有不同特征的亚组,并能显示自变量间复杂的交互作用;而多元线性回归模型能量化出生体重与影响因素之间的线性关系,并对可能的交互项进行检验,两种方法可以联合运用,互为补充,进而充分解释变量之间的关系。

猜你喜欢
决策树线性孕妇
二阶整线性递归数列的性质及应用
线性回归方程的求解与应用
我有一个“孕妇”爸爸
孕妇睡觉会压到孩子吗
孕妇接种疫苗要慎重
产前检查“高危”孕妇别忽视
决策树和随机森林方法在管理决策中的应用
非齐次线性微分方程的常数变易法
ℝN上带Hardy项的拟线性椭圆方程两个解的存在性
决策树学习的剪枝方法