基于 LSTM 的高校高考录取分数预测研究

2020-03-19 12:07王宏利孙全亮吕震宇

经济师 2020年2期

●王宏利边帅,2 孙全亮吕震宇

一、引言

在高考志愿填报中，精准预测一所高校的录取分数可以有效避免志愿填报的盲目性。由于历年高考试题在难易度上有所不同，高考分数也会随之上下浮动，因此无法根据某高校前几年度录取分数直接估计出当年录取分数。目前，各省考试院都会公布诸多高考数据，包括分批次、分文理科的高校录取最低分、平均分、录取人数信息、分文理科一分一档表、省控线信息等。目前比较流行的高校录取分数预测方法包括线差法、等效分法、平均排位法等，都是通过对高考信息的某种线性变换实现的。然而高校录取人数的变化、历史数据年份的长短等因素以某种不可预知的非线性关系也在影响高校录取分数，因此需要一种能够充分吸纳这些非线性因素的新预测方法，以实现更为精准的高校高考录取分数预测。

二、相关研究

目前对高校高考录取分数预测的主流方法包括线差法、等效分法、平均排位法、修正的平均排位法、组合预测模型、神经网络等。

线差法是用“当年省控线+上年录取分与省控线的差值（线差）”作为预测录取分数的一种方法。该方法计算简便，但预测精度较低，尤其是距离省控线越远预测精度越低。等效分法首先根据上年一分一档表将上年录取分映射为排名，再根据当年一分档表将排名反向映射成预测录取分的一种方法。该方法预测准确度相对较高，但未考虑考生总容量和省控线变化对预测的影响。平均排位法是一种改进的等效分法，它使用前n-1 年最低录取分排名平均值预测第n 年的录取分，同样存在预测精度不高、受考生总容量和省控线变化的影响等问题。修正的平均排位法使用上年高校排名和当年录取人数增减变化修正平均排位法结果，能够部分提升排名靠前的高校录取分预测精度。

组合预测模型是通过各种不同的单项预测模型所组成的一种模型。周帆①将三种不同的单项预测模型组合在一起，通过最小二乘法运算得出所需要的最优变权重的系数，最后再利用常用的误差平方和做对比验证。通过2002——2008 年重庆市文科二批录取分数实验得出，组合模型的预测精度高。但此模型并未能解决高考分数线受题目难易程度的影响等因素。李敬文②等采用能用数学思维阐述不分明现象的模糊数学和需要较少观测数据的灰色预测模型相结合的方式构建模糊灰色模型，此模型综合考虑省控线、招生计划人数、学生对学校的喜好程度等因素。通过兰州大学和兰州交通大学2006——2011 年的数据进行分析检验，得出此模型的预测精度相对较好，但此模型所选取的实验数据较为单一，不能更好说明模型预测的精准度。贾妮③采用神经网络模型，将三年西安工业大学数据进行处理，通过主成分分析进行降维来实现影响因素的归一化处理，最终由BP 反向传播算法计算最佳的权重值，提高了预测精度，此方法依旧存在测试样本集较少问题，不具有代表性。

综上，只有充分考虑历年分数、排名、省控线、招生人数等因素以及相互之间的非线性影响，才能更为精确地预测高校高考录取分数。

三、模型设计

1. 线上百分位。线上百分位是一种综合考虑省控线和排位的录取水平测度，其取值在0%到100%之间。0%表示录取分与省控线相同；100%表示录取分达到上一批次省控线（本科二批或高职专科批）或全省排名第一（本科一批）。

设r=f(c,s,k,y)为成绩映射为排名的函数，c=g(r,s,k,y)为将排名反向映射为成绩的函数，其中，r 为考生排名，c 为考生成绩，s 为考生所在省份，k 为文理科，y 为高考年份。在s，k，y 相对固定的情况下（后续内容均在此假设基础之上），上述映射可以简化为：r=f(c)，c=g(r)，可通过查询当年一分一档表获得。

设c1为本科一批分数线，c2为本科二批分数线，则考生成绩c 对应的一本线上平均百分位或二本线上平均百分位分别为：

使用线上百分位作为高校高考录取分数高低的测度可以有效的化解因考试题目难易程度而引起的分数不同问题，同时也间接实现了LSTM模型数据输入前的归一化问题。

2.平均排位法。平均排位法是通过对高校前n-1 的投档分数对应的全省排名的平均值所对应的分数即为这一年度高校录取投档分。

3. 长短时记忆（LSTM）神经网络。长短时记忆网络（long short term memory,LSTM）作为一种特殊存在的循环网络④结构，它能够较好的处理神经网络中的长期依赖情况。由Sepp Hochreiter 和Jurgen Schmidhuber 在1997 年提出。LSTM⑤链式结构示意图，如图1。

图1 LSTM 的链式结构图

LSTM独特之处在于拥有三扇“门”⑤分别为输入、遗忘和输

出门，门的作用主要是依靠sigmoid 激活函数神经网络层和点乘来实现。本文所构建的LSTM神经网络模型，如图2 所示。

图2 LSTM 模型

其中本文选取最低分线上百分位、平均分线上百分位作为输入变量，输出变量为最低线上百分位。用四年的数据预测下一年的录取分数，再经过全链接神经网络最终输出第五年预测最低分线上百分位。

四、模型实现

1. 数据集的采集与归一化处理。本文采集的数据⑥包括：2010—2017 年各高校在河北省招收本科一、二批文理科学生的录取平均分和最低分，并以此计算得到对应的最低分线上百分位和平均分线上百分位，将数据归一化处理。其中高校数据采集输入、输出数据如表1 所示。

表1 部分高校数据采集表

滚动选取前n-1 年数据作为输入，第n 年数据作为预测输出，即用2010—2013 数据预测2014 录取成绩；2011—2014 数据预测2015 录取成绩。训练样本集数据取自2010—2016 年各高校在河北省本科一、二批文理科录取分数的最低线上百分位、平均线上百分位和2017 年本科一批文科录取分数的最低线上百分位。测试样本集数据取自2013—2017 河北省本科一批理科录取成绩。在输入数据选取过程中，首先剔除年份残缺的不完整数据，得到5078 个训练数据，同时为了确保线上百分位较高的院校录取分数预测精度，将清华大学、北京大学等481 个输出最低线上百分位在95%以上的训练数据重复加入训练数据集，最终得到训练样本集数据5559 个，测试样本集数据251 个。

2.参数设置。搭建LSTM神经网络⑦模型，将前四年的最低分线上百分位和平均分线上百分位作为输入变量，即输入为4 个cell，8 个变量，将预测当年的最低分线上百分位作为输出变量，即输出为1 个变量。将LSTM模型隐藏维度(hidden dimention)设为32，mini-batch 设为200，学习率（learning Rate）设为0.0001，采用误差平方和作为损失函数。表2 显示了训练epoch从1200 到12000 时测试数据集上的误差平方和。

表2 训练epoch 数与测试数据集误差平方和的对照关系

可以看出，随着训练次数epoch 的增加，LSTM预测的最低分误差平方和逐渐减小，当epoch 超过12000 时，LSTM的最低分误差平方和未出现明显下降趋势，反而略有上升。随epoch 增加而变化的LSTM最低分误差平方和变化趋势如图3 所示：

图3 LSTM 最低分误差平方和变化趋势图

3.模型求解。将LSTM神经网络模型输出的预测分数与实际分数、传统的平均排位法预测分数进行对比分析，如表3。

表3 部分高校LSTM 预测与平均排位法2017 年预测的结果表

通过对2017 年本科理科一批各院校的录取成绩预测结果分析，用误差平方和比较平均排位法与LSTM模型两种方法的预测准确度。其中平均排位法最低分的误差平方和为36681，LSTM 最低分的误差平方和为17424，LSTM 预测的准确度远高于平均排位法。

通过对录取分数的预测结果⑧分析，得到如下结论：

（1）LSTM预测结果准确度明显高于平均排位法预测结果。在LSTM的预测结果中，可以看出大多数高校录取分数的预测值准确度都高于或等于平均排位预测值。但在招生人数存在明显变化的高校中，LSTM的预测值准确度远高于平均排位法的准确度。如表4、表5、图4。

表4 部分高校招生人数变化表

表5 部分招生人数变化高校两种方法预测2017 年成绩结果对比表

图4 部分高校招生人数与最低百分位对应关系图

（2）对于录取分数较高的个别院校录取成绩预测，LSTM 的预测值不如平均排位法精准。如表6。

表6 个别录取分数较高的院校平均排位与LSTM 2017 年预测结果对比表

本文在实验中考虑到此项问题，并通过重复增加高分院校的样本数量进行训练，以达到充足的样本数，确保实验训练结果。

（3）LSTM能预测出录取最低分的趋势，从而使预测精准度进一步提升，如表7、图5、图6、图7。

表7 部分院校平均排位与LSTM 2017 年预测分数对比表

图5 北京体育大学录取最低、平均线上百分位分布图

图6 华南师范大学录取最低、平均线上百分位分布图

图7 沈阳建筑大学录取最低、平均线上百分位分布图

通过平均排位法和LSTM方法预测分数对比，LSTM最低分误差平方和小于平均排位法最低分误差平方和，说明LSTM预测更准确。通过历年高校录取最低、平均线上百分位分布图得出LSTM方法能较为准确地预测出录取分数趋势，进一步提高预测准确度。

五、结论与展望

1.LSTM方法可以有效预测高校录取分数，并且预测准确度远高于传统的平均排位法。

2.LSTM能较为准确地预测到高校录取分数的未来趋势，进一步提高录取分数预测准确度。

3.本文LSTM方法在未考虑招生人数变化的情况下，对于扩招院校录取分数预测的结果好于传统的平均排位法，若将招生人数变化情况考虑到模型中，预测结果是否提升有待进一步实验研究。

注释：

①周帆.变权重组合预测法预测重庆市高考分数线[J].科教文汇(上旬刊),2009(9):287- 288

②李敬文.组合预测模型在高考数据预测中的应用研究[J].计算机工程与应用,2014,50（7）:259～292

③贾妮.大数据处理技术在录取分数线预测中的应用[J]研究价值工程,2016.200- 201

④Deng L,YuD.Deep learning：methods and applications[J].Foundations and Trends in Signal Processing，2014，7（3/4）：197- 387

⑤Hochreiter S, SchmidhuberJ.Long short- term memory[J].Neural Computation,1997,9（8）:1735- 1780

⑥河北省教育考试院.全国普通高校在河北招生录取分数分布统计[M].石家庄:河北人民出版社,2016

⑦白盛楠,申晓留.基于LSTM 循环神经网络的PM_(2.5)预测[J].计算机应用与软件,2019,36(01):73- 76+110

⑧吴强,方睿,韩斌,贾川,浦东.基于决策树- LMBP 神经网络的学生成绩分析及预测模型的研究[J].成都信息工程大学学报,2018,03:274- 280