基于近视筛查数据的近视影响因素分析和近视预测

2021-04-09 03:10黄峻嘉苏宇涵

电子科技大学学报 2021年2期

黄峻嘉，张琪，赵娜，李蓉，苏宇涵，周涛

(1. 云南大学软件学院昆明 650504；2. 小艾眼科诊所，艾视医疗科技成都有限公司成都 610041；3. 电子科技大学大数据研究中心成都 611731)

2010 年全球近视人群约有19.5 亿，占世界总人口的28.3%[1]。2018 年我国儿童青少年总体近视率为53.6%[2]，远超国际水平[3]。目前美国[4-5]、新加坡[6-7]、澳大利亚[8]等国家已采用队列研究的方法对儿童近视影响因素展开研究。国内也有不少针对中国各城市青少年近视情况的分析，如上海[9-10]、安阳[11]、广州[12]、温州[13]、北京[14]等。文献[15]分析了来自Orinda 近视纵向研究的数据子集MYOPIA，认为父母近视情况、户外运动时间、阅读时间和性别等因素对近视有较大影响。Orinda近视纵向研究[15-17]、CLEERE 父母近视史的研究[18]以及近视影响因素研究[19]都认为青少年早期屈光度能够用于预测其未来近视的发生。文献[20]分析了长达10 年的临床屈光数据，发现机器学习方法可以有效预测高度近视发生的几率。

现有研究中使用最多的方法为队列分析和逻辑回归[21]。其中队列研究是探讨疾病病因的常用方法之一，能较好地揭示两事件间的因果关系。但设计和组织实施较难，收集与分析资料较复杂。逻辑回归分析其决策面是线性的，难以处理数据不平衡的问题。本文利用斯皮尔曼相关系数(spearman's rank correlation coefficient)[22]分析各影响因素与未来视力的相关性，并细分高度近视与普通近视随年龄的变化情况。斯皮尔曼相关系数是衡量两个变量的依赖性的非参数指标，利用单调方程评价两个统计变量的相关性，适用于总体分布未知或有序变量相关性分析。本文构建了适用于小数据集和一次检查数据的集成学习算法模型，仅需输入一次检查数据即可对未来任意时刻视力情况进行量化预测。通过对比5 种常见的集成学习算法，发现随机森林模型的综合表现最佳。本工作在近视预测及防控方面具有一定的参考价值。

1 标准与数据

根据2019 年10 月15 日国家卫健委办公厅印发的《儿童青少年近视防控适宜技术指南》，近视率指近视人群的占比，而筛查近视的标准为裸眼视力低于5.0，且非睫状肌麻痹情况下电脑验光等效球镜(简写为SE，后均指在非睫状肌麻痹情况下进行的检查)度数小于-0.50D，其中等效球镜度数为球镜度数加上1/2 倍柱镜度数。在已判断为近视的人群中，近视程度划分标准如下：1) 低度近视——SE 度数在-3.00D～-0.50D(含)之间；2) 中度近视——SE 度数在-6.00D～-3.00D(含)之间；3) 高度近视——SE 度数小于-6.00D。

本文分析了3 个视力检查数据集。其中数据集A 和B 来自艾视医疗科技成都有限公司(简称艾视科技)2019 年6 月-2020 年7 月成都市3～16 岁用户双眼近视检查，包含性别、年龄、球镜、柱镜、裸眼视力、等效球镜、是否近视等数据项。已经排除了近期有眼部活动性病变者和近期配戴接触镜者的对应数据。数据集A 中每个用户仅有一次检查数据，共19 467 条。纳入的研究对象平均年龄(9.23±2.55)岁，男性10 137 例，占52%，女性9 330 例，占48%。左眼等效球镜平均(-0.79±1.75)D，右眼等效球镜平均(-0.90±1.76)D，左眼裸眼视力平均 (4.8±0.32)，右眼裸眼视力平均(4.78±0.33)。裸眼视力采用五分记录法。整体近视率为41.1%。其中近视程度为不近视、低度、中度、高度的分别占比58%、28%、12%、2%。数据集B 中每个用户有两次检查数据，共1 470 条、735 对。纳入的研究对象平均年龄(8.42±2.23)岁，男性748 例，占51%，女性722 例，占49%。左眼等效球镜平均(-0.21±0.89)D，右眼等效球镜平均(-0.26±0.9)D，左眼裸眼视力平均(0.96±0.22)，右眼裸眼视力平均(0.97±0.24)。裸眼视力采用小数记录法。同一个检查对象两条数据之间的间隔时间从30～180 天不等。第一次检查时整体近视率为19.6%。第二次检查时整体近视率为32.0%。第一次检查未近视的样本中有15.4%在第二次检查时变为了近视。数据集C 来自Orinda 近视纵向研究数据子集，每年由父母或监护人完成一次调查，包括调查对象视力检查数据以及年龄、近视家族史和相关视觉活动时间数据。本文使用的部分来自618 名进入研究时并非近视受试者的初次检查结果。数据均来自对象的右眼。纳入的研究对象中男性302例，占49%，女性316 例，占51%。其中年龄平均(6.3±0.71)岁，每周户外活动时间平均(11.95±7.96) h，每周阅读时间平均(2.8±3.07) h，每周电脑使用时间平均(2.11±3.05) h，每周学习时间平均(1.49±2.11) h，每周看电视时间平均(8.95±5.71) h。其中户外活动、阅读、使用电脑、看电视和学习时间仅统计校外活动。该数据集样本的近视率为13.1%，所有近视对象均为低度近视。

2 影响因素分析

本文分析了性别和近视以及高度近视发生的关系，发现在我国的数据中，性别和近视发生无显著的关联关系，故后文不以性别为影响因素。图1 给出了根据数据集A 得到的不同年龄段近视发生率：深色代表近视人数，并用数字标识；浅色代表非近视人数；曲线给出了不同年龄的近视率。其中6 岁以下及14 岁以上数据量较小，故未计算其所对应的近视率。由图可见，6～14 岁随着年龄的增长，近视率逐渐升高，到14 岁时近似率已经接近80%，远远超过世界平均水平。

图1 数据集A 中不同年龄的近视情况

为分析近视人数增长情况，本文计算了不同年龄的近视转化率a(t)=[p(t+1)-p(t)]/[1-p(t)]，其中p(t)是年龄为t 的孩子中的近视率，a(t)表示有多少比例在年龄为t 时还不是近视的孩子恰在这一年转化为近视。根据数据集A，孩子在6～13 岁的近视转化率分别为6.87%、14.22%、17.94%、20.38%、18.77%、21.89%、18.20%和14.14%。从转化率分析可以看到，8～12 岁是近视新增的高发时期，平均每年约有20%的非近视学生转为近视学生，13 岁以后每年从非近视转化为近视的风险开始显著下降。

图2 给出了根据数据集A 得到的不同年龄段高度近视发生率：深色代表高度近视人数，并用数字标识；浅色代表非高度近视人数；曲线给出了不同年龄的高度近视率。其中6 岁以下及14 岁以上数据量较小，故未计算其所对应的高度近视率。由图可见，高度近视的占比随年龄的增长而不断增长。从8 岁开始高度近视率显著提升，且随年龄的增长逐渐升高。类似地，本文计算了不同年龄的高度近视转化率，从6～13 岁分别为-0.98%、-0.33%、0.36%、0.81%、1.72%、2.77%、2.60%和4.36%。其中在6 岁和7 岁出现负数，可能有两个原因，一是因为数据量太小造成统计上波动太大，二是有一些遗传性的眼病导致极年幼就出现高度近视，这部分孩子的增长规律与其他孩子有所不同。随着未来数据量的增长，可以得到统计上更可信的结果。与此同时，8 岁以后高度近视占比的增长非常显著，且10～14 岁是高度近视快速增加的高危时期。14 岁以上孩子数据较少，留待以后分析。

图2 数据集A 中不同年龄的高度近视情况

本文计算了数据集C 各数据项与“近视与否”的斯皮尔曼相关系数，并做双尾检验。数据结果显示，父亲是否近视、母亲是否近视和每周户外活动时间与“近视与否”有显著影响(98%置信度水平上显著)，其余各项(包括阅读、使用电脑、看电视和学习)在98%置信度上均无显著影响。

图3 给出了父母近视与否对孩子近视情况的影响。父母中有一人近视时孩子的近视率为13.2%，是父母均不近视时的4 倍，父母均近视时孩子的近视率为22.3%，为父母均不近视时的6.75 倍。可见遗传对于近视影响是巨大的。

图3 父母是否近视对孩子近视与否的影响

图4 给出了每周户外活动时间和近视率的关系，其中统计在内的只包括离开学校后的户外活动。由图可知，除了曲线前部因为样本数量少出现波动外，整个曲线是近似单调的——户外活动时间越长，近视比例越低。在4 ～9 h 区间内，增加户外活动时间带来的近视率的降低尤为显著。当每周户外活动时间大于15 h 的时候，近视率不再显著变化。

图4 每周户外活动时间和近视率的关系。其中纵坐标给出的是每周户外活动时间不超过给定值的情况下近视的比率

3 近视预测

本文选取了随机森林(random forest)[23]、自适应提升(AdaBoost)[24]、装袋(bagging)[25]、梯度提升(gradient boosting)[26-27]和极端梯度提升(XGBoost)[28]5 种集成学习模型，把数据集B 中同一个检查对象的前一个时间点数据(含个人信息)和间隔时间一起作为训练数据，预测其后一个时间点的近视情况。样本数据随机划分为70%训练集和30%测试集，预测对象为裸眼视力和等效球镜，并用预测值与真实值差的绝对值作为误差。预测模型的结构如图5 所示。

图5 预测模型结构

如表1 所示，随机森林方法和梯度提升方法的误差相对最低，但梯度提升方法在间隔时间较长之后，会出现结果突变和失稳，特别是突然出现视力大幅度变好的情况，而这与医学实践知识是不符合的，也没有在其他具有更长时间间隔的真实数据中观察到。因此，综合考虑算法的精确性和鲁棒性，我们认为随机森林是最好的模型，而如果只预测较短时间之内的视力变化情况(如半年之内)，则梯度提升方法效果也很好。如果用随机森林算法，只对下一个时间点“是否是近视”进行预测，则准确度可以达到92.8%。

表1 不同模型预测误差对比

4 结束语

本文分析结果显示中国青少年近视发生率远远超过国际水平，其中8～12 岁是近视新增的高发时期，平均每年约有20%的非近视学生转为近视学生，而10～14 岁是高度近视新增的危险时期。父母近视情况和户外活动时间对近视形成的影响最大。本文还构建了一个仅需单次检查数据即可得出未来视力预测结果的模型，可以定量给出未来指定时间点的左右眼裸眼视力及左右眼等效球镜值，可以据此进行近视及近视程度的预测。如果只对近视与否进行判断，预测准确度接近93%，有相当的参考价值。

结合影响因素的分析，本文认为我国青少年近视率远高于世界平均水平的一个很重要的原因，就是课后户外活动时间严重不足，这可能归因于中国孩子从小课业压力过大。根据数据分析结果，本文建议应尽量保障每个孩子平均每天在校园外有2 h的户外活动时间，在非周末也应该每天至少1 h 以上的户外活动时间。在8～12 岁近视转化率是最高的，这个时间点恰好在小学阶段，如果教育部门能够持续有力地推动素质教育，降低考试成绩在小学学习过程中的重要性，学校和家长就能够更从容主动保障孩子的户外活动时间，降低近视发生率。如果孩子在小学阶段视力很好，后面转为近视的风险会相应降低。

本研究的数据还具有明显的局限性，缺少6 岁以下以及14 岁以上的数据，样本区域集中代表性不充分，在国内还没有大规模针对家庭情况和生活习惯的调查。这使得本文结论的适用度和可信度都有相当大可提高的空间，特别是无法准确判断海外数据(数据集C)对中国情况的解释力——这还需要针对国内类似调查数据的分析。目前研究组正在进行针对数十万青少年的视力筛查，并匹配对数万抽样家长的问卷调查，有望在近期给出更充分全面的分析。

青少年近视防控是一项系统工程，需要政府、学校、医疗卫生机构、家庭和学生本人共同努力。政府应该主动出台近视防控计划，每3～5 年为一期，给出明确的目标和可操作的方案，并通过广覆盖的筛查数据分析获得定量化的反馈，切实有效地提升青少年视力水平。

基于近视筛查数据的近视影响因素分析和近视预测

1 标准与数据

2 影响因素分析

3 近视预测

4 结 束 语

4 结束语