幼儿体质影响因素的决策树研究

2020-04-09 01:19赵广高吕文娣付近梅孙顺利胡吴进牟顶红何梓豪
体育科学 2020年2期
关键词:决策树男童合格率

赵广高,吕文娣,付近梅,孙顺利,胡吴进,牟顶红,陈 晶,黄 婷,何梓豪,肖 稳

(1.南昌大学 体育学院,江西 南昌 330031;2.江西省体育科学研究所,江西 南昌 330006;3.东华理工大学 体育学院,江西 南昌 330013)

儿童阶段是生长发育的关键阶段,是形成良好体质的基础阶段。儿童阶段的体质发展,不仅会影响成年后的体质水平(Dwyer et al.,2009),甚至会影响成年后的疾病发病风险(Kvaavik et al.,2009),其中至少与冠心病的7种危险因素密切相关(Thomas et al.,2003),关乎着人类的寿命和社会的发展。当前,我国幼儿体质现状堪忧。国家体育总局发布的2010年与2014年《国民体质监测公报》数据显示,3~6岁幼儿未达“合格”等级的比例分别高达6.4%(2010年)和7.1%(2014年)。要促进幼儿体质,无疑要掌握幼儿体质发展的影响因素,这已经成为国内外学者的共识。

研究发现,幼儿体质的影响因素包括身体活动(physi‐cal activity,PA)(方慧 等,2018;王欢 等,2018;Fang et al.,2017;Leppanen et al.,2016,2017)、膳食营养(于丽丽,2013;Evaristo et al.,2018;Zaqout et al.,2016)、遗传(Cieśla et al.,2017)、睡眠(Carson et al.,2016)、育儿方式(张柳,2019;Zaqout et al.,2018)及父母与家庭情况(李一辰等,2013)等。现有研究通常采用方差分析、相关性分析、多元线性回归、Logistic回归等方法进行影响因素的筛选,但这些方法对变量的分类和变量间的关系等方面缺乏深层次的数据挖掘和决策分析,且易受到共线性问题的影响,难以很好地实现统计分析效能。决策树作为数据挖掘中的一种重要分类技术,不仅可以有效甄别体质的关键性影响因素,还可以针对多种类型的变量对样本进行最优分割,按照检验的显著性进行自动判断分类,且能克服共线性问题,并通过树形图展现不同水平变量间的交互关系(Henrard et al.,2015)。

李慧玲等(2005)提出,采用数据挖掘技术来对体质健康与运动训练数据进行分析,可以弥补传统统计方法的不足。近年来,学者们先后将决策树等数据挖掘技术引入到体育科学研究领域,如人体肌肉力量测量制约因素(于岱峰 等,2010)、身体形态(超重/肥胖)预测(Ro‐dríguez-Pardo et al.,2019)、体育课实践教学影响因素(袁丽,2011)、比赛制胜关键因素(赵会群等,2008)、体育消费水平影响因素(李伟平等,2013)以及运动风险的评估与筛查(Shephard,2015)等。也有学者尝试将决策树应用于225名大学生体质测量数据的分析中(丁亚芝等,2014),但目前鲜见针对幼儿体质影响因素的研究报道。

综上,本研究将决策树算法引入到幼儿体质领域,旨在甄别幼儿体质关键性影响因素的基础上,构建分类准确、树形直观的决策树模型,旨在完善幼儿体质研究体系。

1 研究对象与方法

1.1 受试对象

通过开展2018南昌市“关注幼儿体质呵护儿童健康”体质监测公益活动,在南昌市所辖12个县区(含新区、开发区)内抽取17所幼儿园,募集3~6岁幼儿6 073名,详见《关于开展2018年南昌市“关注幼儿体质呵护儿童健康”体质监测公益活动的通知》(洪体群字〔2018〕17号)。其中,完成体质测试与问卷调查且数据均完整有效的受试幼儿4 621名(36~83月龄),包括男童2 508名,女童2 113名,作为本研究的受试对象(表1)。受试对象在测量期间保持日常生活习惯。

表1 受试对象的基本信息Table 1 The Basic Information of Participants

1.2 体质测试

所有测试均在幼儿所在幼儿园中进行,测试时间均为上午9:00—11:00,所有测试人员均由体育科学研究所培训合格。洪体群字〔2018〕17号文件下发1周后,测试人员进入幼儿园进行测试宣讲、场地布置和预实验测试,之后约定时间开展正式测试工作。测试采用国家国民体质监测指定器材,根据《国民体质测定标准手册(幼儿部分)》测试方法与评分标准进行体质测试与综合评级。测试指标分为身体形态指标和身体素质指标,共包括身高标准体重(kg)、身高(cm)、10 m折返跑(s)、立定跳远(cm)、网球掷远(m)、双脚连续跳(s)、坐位体前屈(cm)、走平衡木(s)8个评分项目,根据年龄段分别进行评分,每项满分5分,共计40分。综合评级标准为优秀:>31分、良好:28~31分、合格:20~27分、不合格:<20分。根据本研究决策树模型需要,对体质结果变量进行二分类处理,将幼儿体质分为合格(≥20分)以及不合格(<20分)2个等级。

1.3 问卷调查

调查问卷参考上海市优秀学术带头人计划项目(12XD1404500)的《学龄前儿童家长健康行为调查问卷》内容,使用德尔菲法,综合上海体育学院、南昌大学、江西省体育科学研究所10名专家意见对指标变量进行筛选。问卷包括幼儿出生信息、育儿方式、静坐与身体活动、膳食营养、睡眠、父母情况6个一级指标,下分59个二级指标(表2)。问卷由5名幼儿健康专家进行效度评分,平均得分96.20分。采用重测法对问卷进行信度检验,选择3所幼儿园812名受试幼儿进行重复调查,时间间隔为2周,使用组内相关系数(ICC)进行检验,得出可靠性系数为0.86,符合统计学要求。体质测试期间,向6 073名幼儿家长发放调查问卷,回收有效问卷4 621份,有效回收率76.09%。

1.4 数据处理

使用EpiData 3.1软件双输录入幼儿体质与问卷调查数据结果。用SPSS 22.0软件对幼儿体质与问卷信息进行匹配整合,剔除无效数据。采用软件IBM SPSS modeler创建决策树模型。决策树算法模型包括CHAID、C5.0、QUEST和C&R等。结合本研究大样本、多指标,连续变量与分类变量同时存在的特点,比较相关模型的准确性,选用优化的CHAID模型。

模型中目标变量即幼儿体质的2个等级“不合格”与“合格”分别标记为1和2,并对分类变量进行赋值,其余变量类型的最佳分界点由决策树模型进行识别和拆分,模型构建过程中进行树的修剪以自动控制树的生长。模型参数设置为:树结构最大深度5,影响因素节点最小个案数100,子节点最小个案数50,Gini系数最小变化值0.000 1,采用10层交叉验证模型识别准确率。

变量重要性排序的规则设定为:1)首先根据变量所在节点位置进行排序,越靠近根节点的变量,对目标变量影响越大;2)同一层节点的变量中,比较P值与卡方值,P值越小,对目标变量影响越大;P值相等,比较卡方值(薛薇,2014);3)在非终端节点处,如节点样本量小于10,则该变量不作为重要变量。

2 结果与分析

2.1 决策树模型分析

本研究所创建的决策树共5层、27个叶节点(图1),筛选出7个对幼儿体质有重要意义的变量。根据上述变量重要性排序规则,排序依次为:1)周末PA;2)周末静坐行为(sedentary behavior,SB);3)性别;4)周末中-大强度身体活动(moderate to vigorous physical activity,MVPA);5)上学日PA;6)钙;7)上学日SB。

决策树模型显示,树形结构的第1层按照周末PA变量来拆分节点,周末PA越大,幼儿体质合格率越高(图 1)。其中,该层设定“≤2”“(2-7]”“>7”3个节点。参考赋值情况来看,周末平均PA时间长于3 h/天(95.35%)幼儿的体质合格率最高,其次为1~3 h/天(91.43%),0.5 h/天及以下(85.43%)时最低,三者比较具有非常显著性差异(P=0.000)。

表2 影响因素指标及赋值情况Table 2 Influence Factors and Value Assignment

图1 CHAID模型Figure 1.CHAID Model

在第 2层叶节点中,周末PA的“≤2”“(2-7]”节点根据“性别”进行拆分,均为女童合格率优于男童(图1)。该结果提示,周末平均PA时间在3 h/天以内的幼儿受试中,女童体质合格率显著高于男童。然而,周末PA的“>7”节点则根据周末SB变量进行拆分,周末SB越小,幼儿体质合格率越高(图1)。参考赋值情况来看,在周末平均PA时间3 h以上的幼儿受试中,周末平均SB时间4 h/天及以下的幼儿体质合格率(96.50%)显著高于SB时间4 h/敢死队以上(88.57%)的幼儿(P=0.000)。

从第2层叶节点向下分枝,不同节点的分枝特征具有很大差异。第1层周末PA的“≤2”节点至第2层即不再生 长 ,“(2-7]”“ >7”两个节点则继续生长至第5层(图1)。

在周末PA的“(2-7]”节点方面,其性别“1”节点的第3层叶节点为钙,而钙“1”的第4层叶节点为出生体重(图1)。参考赋值情况来看,在周末PA时间为1~3 h/天的男童中,钙摄入幼儿的体质合格率显著高于无钙摄入幼儿(P=0.024);无钙摄入的幼儿中,出生体重≤3.980 kg的幼儿体质合格率显著高于出生体重>3.980 kg的幼儿(P=0.009)。在性别“2”节点的叶节点中,第3层为周末MV‐PA,周末MVPA“≥2”的第4层叶节点为上学时SB,上学时SB“≤4”的第5层叶节点为上学日MVPA(图1)。参考赋值情况来看,在周末PA时间为1~3 h/天的女童中,周末MVPA时间≥15 min/天幼儿的体质合格率显著高于周末基本无MVPA的幼儿(P=0.003);周末MVPA时间≥15 min/天的幼儿中,上学日SB≤2 h/天幼儿的体质合格率显著高于上学日SB>2 h/天的幼儿(P=0.004);上学日SB≤2 h/天的幼儿中,上学日MVPA时间≥15 min/天幼儿的体质合格率显著高于上学日基本无MVPA的幼儿(P=0.042)。

在周末PA的“>7”节点方面,周末SB“≤6”节点的第3层叶节点为上学日PA,上学日PA“>4”的第4层叶节点为性别,性别“1”的第5层叶节点为看护人(图1)。参考赋值情况来看,在周末PA时间>3 h/天且周末SB时间≤4 h/天的幼儿中,上学日PA时间>1.5 h/天幼儿的体质合格率显著高于上学日PA时间≤1.5 h/天的幼儿(P=0.026);上学日PA时间>1.5 h/天的幼儿中,女童体质合格率显著高于男童(P=0.046);男童中,父母独立看护的幼儿体质合格率显著低于其他看护方式(P=0.037)。在周末SB“>6”的叶节点中,第3层为上学日PA(图1)。参考赋值情况来看,在周末PA时间>3 h/天且周末SB时间>4 h/天的幼儿中,上学日PA时间>2 h/天幼儿的体质合格率显著高于上学日PA时间≤2 h/天的幼儿(P=0.006)。

2.2 决策树模型评价

采用10层交叉验证模型的准确率识别结果显示,本研究所构建的决策树模型准确率达91.99%(表3)。

3 讨论

表3 模型识别准确率Table 3 Recognition Accuracy of the Model

3.1 幼儿体质决策树模型构建

本研究作为首个将决策树算法引入到幼儿体质领域的研究,主要期望能够在针对幼儿样本分类的数据挖掘上进行有益的尝试。在幼儿领域的研究方面,全部样本中自变量与因变量往往不是简单的线性关系。当针对不同类型的变量对样本进行分割后,则能够挖掘出某一类样本中自变量与因变量的密切关系。如幼儿身体活动与身体生长的关系方面,研究者发现,男童中MVPA与体重呈显著正相关,与身高无显著关联性;女童中MVPA与身高呈显著正相关,而与体重无显著关联性(赵广高等,2017)。该研究提示,不同性别幼儿样本的分类中,自变量与因变量的呈现完全不同的关系特征。另一项研究中,男童中发现合计MVPA与高健康体适能(High healthy fitness,HPF)间存在非线性关系。合计MVPA≤65 min/天时,MVPA与HPF呈显著正相关;合计MVPA>65 min/天时,二者无显著相关。女童中则无此非线性关系(全明辉等,2020)。该研究提示,在某一性别分类的幼儿样本中,仍可选择合适的分界点(如本研究中的MVPA=65 min/天)继续对其他变量进行数据挖掘。由此可见,针对哪些变量进行分类,以及如何选择最优分界点进行分类,是研究者们亟需解决的重要问题。决策树作为数据挖掘中的一种重要分类技术,其重要功能即为能够针对多种类型的变量对样本进行最优分割,按照检验的显著性进行自动判断分类,无疑是解决上述问题的有效方法。此外,决策树同样能有效甄别幼儿体质的关键性影响因素,且能克服共线性问题,并通过树形图展现不同水平变量间的交互关系(Henrard et al.,2015)。

本研究采用了决策树中的CHAID算法模型。CHAID输出字段特别适合分类变量,当处理连续变量时会自动分为10段而产生多分枝的决策树,从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程,依据目标变量实现对输入变量众多水平的划分。本研究具有大样本,多指标,连续变量与分类变量同时存在等特点,故选用CHAID模型。所构建的CHAID模型高5层,分27个叶节点,树形枝繁叶茂。模型准确率达91.99%,满足本研究需要。

3.2 幼儿体质影响因素决策树分析

本研究筛选出周末PA、周末SB、性别、周末MVPA、上学日PA、钙、上学日SB共7个重要变量。从变量排序来看,除第3、第6位的性别、钙外,其余均为身体活动与静坐行为变量,表明二者对于幼儿体质的重要作用,这也与以往研究结论(方慧等,2018;王欢等,2018;Carson et al.,2016;Fang et al.,2017;Júdice et al.,2017;Lep‐panen et al.,2016,2017;Zaqout et al.,2016)相一致。其中,反映周末的身体活动与静坐行为变量重要性高于上学日。这可能是因为在本研究开展的学期期间,相比上学日较为规律的生活方式,周末幼儿在身体活动与静坐行为内容的选择上更具自由度,从而对幼儿体质的影响也更大。

在决策树模型树形结构的根节点处,周末PA>3 h/天被确定为重要分割点。幼儿周末PA>3 h/天(即180 min/天)时,体质合格率高达95.35%,与其他节点相比具有非常显著性差异(P=0.000)(图1)。回顾幼儿身体活动指南的演变历程,2012年之后幼儿PA的推荐量标准逐渐在各国形成共识(Pate and O'Neill,2012)。在美国(3~5岁)(Piercy et al.,2018)、英国(<5岁)(The British Heart Foundation National Center for Physical Activity and Health,2011)、加拿大(0~4岁)(Tremblay et al.,2012)、澳大利亚(1~5岁)(Australian Government Department of Health,2010)等国家相关机构发布的学龄前儿童身体活动指南中,均将180 min/天作为PA的推荐量标准,与本研究决策树模型根节点处的分割点值一致。

幼儿PA推荐量标准建立的依据主要源自于PA与幼儿健康指标的关系(Tremblay et al.,2012)。幼儿PA具有广泛的健康效益。2012年,为建立科学的身体活动指南,加拿大研究团队纳入了22篇文献共12 742名受试者,对幼儿PA与健康指标的关系进行了系统评价研究(Tim‐mons et al.,2012)。之后在2017年,该研究团队又对该研究进行了补充和延伸,纳入了来自36个国家、71 291名受试者,包含随机对照实验(randomized controlled trials,RCTs)、交叉实验(cross-over trial)等4类实验研究设计和横断面(cross-sectional)、队列(longitudinal)等5类观察性研究设计的96篇文献,对幼儿PA与健康指标的关系进行了更为全面深入的系统评价(Carson et al.,2017)。综合现有研究成果发现,幼儿PA对于肥胖(adiposity)、运动技能发展(motor skill development)、社会心理健康(psycho‐social health)、认知发展(cognitive development)、骨健康(bone and skeletal health)、心脏代谢健康(cardiometabolic health)以及体质或体适能(physical fitness)指标具有关键(critical)或重要(important)作用(Carson et al.,2017;Tim‐mons et al.,2012)。本研究则以体质指标为视角,证实了幼儿PA的健康效应与PA推荐量标准的科学性。

决策树模型的第2层叶节点显示,在周末PA>3 h/天的幼儿中,周末SB越小,幼儿体质合格率越高(图1),周末SB≤4 h/天时幼儿体质合格率达96.50%。现有的幼儿身体活动指南中,研究者在发布PA推荐量标准时,会同时为SB提供标准或建议(Australian Government Depart‐ment of Health,2010;The British Heart Foundation Nation‐al Center for Physical Activity and Health,2011)。也有研究者专门研制幼儿静坐行为指南(Tremblay et al.,2012)。为了使家长和儿童教育工作者更好地理解,Riazi等(2017)综合一天中身体活动、静坐行为和睡眠3项内容,制定了幼儿24小时活动指南,指南中,除对PA(180 min/天)和高质量睡眠时间(10~13 h)进行强烈推荐(strong recommendation)外,还强烈推荐幼儿在减少长时间静坐行为的同时,限制静坐屏幕时间(<1 h)等。鉴于SB对于儿童身体成分(body composition)、代谢综合征(metabolic syndrome)/心血管疾病(cardiovascular disease)危险因素、行为品质(behavioural conduct)/亲社会行为(pro-social be‐haviour)、学业成绩(academic achievement)的关键作用(Carson et al.,2016),结合本研究对于体质的研究结果认为,幼儿在满足PA推荐量标准的基础上,进一步减少SB时间,具有广泛的健康效益。

决策树模型第2层的另外2个叶节点发现,在周末PA≤3 h/天的幼儿中,女童合格率显著高于男童(图1)。该结果提示,与女童相比,PA未达推荐量标准的行为方式对男童体质的不利影响更大。在现有涉及不同性别体质比较的研究中,从研究结论简单来看,呈现两种完全相反的观点。但通过深入阅读可知,在以《国民体质测定标准手册(幼儿部分)》的评分标准进行评分时,研究中女童体质优于男童(韩霞等,2019;马宇飞等,2014),本研究与该类研究结果相似。当直接以某些体质单项指标的测量值进行统计分析时,男童体质优于女童(Fang et al.,2017;Latorre Román et al.,2017),与前一类研究结论相反,这是由于前一类研究中采用了男童标准高于女童的评分标准的缘故。

对照模型第3层及以下叶节点的研究结果(图1),还可以挖掘出以下决策信息:1)幼儿周末PA在满足推荐量标准的情况下,无论周末SB如何,都应在上学日注重开展PA;2)对于周末PA未达推荐量标准(1~3 h/天)的女童,可通过增加周末与上学日MVPA时间、减少上学日SB时间来提升体质水平。关于MVPA对于幼儿体质的有益作用,目前已得到学界认同(方慧 等,2018;王欢 等,2018;Carson et al.,2016;Fang et al.,2017;Leppanen et al.,2016,2017;Zaqout et al.,2016);3)周末PA未达推荐量标准(1~3 h/天)的男童,可通过补钙来增强体质。

3.3 研究的局限性

1)受试对象来源于南昌市,存在选择偏倚;2)问卷有效回收率不高(76.09%),导致样本大量流失;3)本研究调查问卷原包括家长和教师两份,其中教师问卷主要用于调查上学日“校(园)内”幼儿静坐与身体活动情况,而家长问卷仅涉及“校(园)外”静坐与身体活动。但由于上学日“校(园)内”活动受幼儿园课程安排限制,不同幼儿间静坐与身体活动情况非常相似,教师问卷结果区分度很低,因此本研究并未采用。上学日“校(园)内”幼儿静坐与身体活动影响因素的缺失,一定程度上影响了本研究的实践价值。

4 结论

本研究所建立的决策树模型准确率高(91.99%),叶节点多(27个),能够满足幼儿体质研究需要。根据决策树变量重要性排序规则,幼儿体质的重要影响因素排序依次为周末PA、周末SB、性别、周末MVPA、上学日PA、钙、上学日SB。

树形图结果提示,为增强幼儿体质,幼儿周末PA应超过3h/天的国际推荐量标准,并在此基础上减少SB时间、提升上学日PA水平。未达推荐量标准的幼儿体质合格率具有性别差异,女童显著优于男童。周末PA未达推荐量标准(1~3 h/天)的女童应增加周末与上学日MVPA时间、减少上学日SB时间,男童可通过补钙来增强体质。

猜你喜欢
决策树男童合格率
根因分析法提高药品不良反应报告合格率
提升眼科机械清洗合格率的护理方法及成效探究
简述一种基于C4.5的随机决策树集成分类算法设计
2017年“国抽“建筑装饰材料产品合格率92.2%
决策树学习的剪枝方法
阿明的疑惑
男童被熊咬是不该发生的悲剧
决策树在施工项目管理中的应用