基于校园大数据的助学金获取关键因素分析*
——以某高校一卡通数据为例

2018-10-08 02:45刘彤彤
中国教育信息化 2018年17期
关键词:共线性助学金一卡通

王 煜,刘彤彤,郭 磊

(山东师范大学 商学院,山东 济南 250300)

一、引言

助学金是帮助困难学生完成学业,保障学习质量的重要手段。精确的助学金资助策略,体现了决策者的管理智慧和教育公平性。目前国内许多学者主要关注以下几个方面的研究内容:①助学金管理模式的探索及体系的完善。国内学者从影响资助的不同因素出发,构建了多样化的资助评价体系。如余春玲根据平衡加分卡思想,分析了目前高校贫困学生资助模式存在的问题,并基于平衡记分卡,构建了一个包含财务、客户、内部流程管理过程、学习与成长四个方面指标的高校贫困学生资助评价体系。[1]张彦坤结合高校国家助学金评定实际情况,构建了一套包括4项一级指标、12项由一级指标细化而来的子因素的助学金量化评定指标体系。[2]②助学金制度绩效调查分析。国内学者大多从财政教育投资的投入、活动、产出、结果和影响等方面,多角度构建了多层次的高等教育绩效评价体系。[3]如陈绵水等从助学金发放(资金投入指标)、助学金使用(过程指标)、助学金效果(产出指标)三个方面评价助学金制度绩效,得出我国助学金评定基本做到公平公正,但仍存在宣传工作不尽人意,信息不够畅通,存在少量暗箱操作等问题。[4]③关于影响助学金发放的因素模型的探究。国内学者大多综合利了模糊评价与熵权法,建立模糊评价模型。[5]如夏阳针对资助判定问题,运用模糊层次分析方法,构造模糊一致矩阵,建立了助学金判定模型。[6]也有学者利用了SPSS中的多元线性回归模型。如邓海云进行多元线性回归分析,应用 stepwise方法,建立了评定的多元线性回归关系模型。[7]

现有文献研究多局限于理论层面的宏观分析,实证分析和数学模型的辅助研究较少,并且已有的实证分析大都是通过问卷调查得到的数据,具有一定的主观性。本文则针对某高校校园一卡通的客观数据,采用数据挖掘技术,利用相关性分析提取与获得助学金与否有关的特征因子,以期进行精准助学金发放。本文的数据直接来自于较为客观的学生一卡通数据,在此基础上,本文将获得助学金与否作为被解释变量,建立二分类Logistic回归模型来直观说明影响助学金获得与否的关键因素。

二、模型设计

逻辑回归又称logistic回归,是一种广义线性回归,用于在被解释变量是非连续情况下进行回归分析。根据被解释变量的分类方式不同,有二分类logistic回归和多分类logistic回归。

1.模型选择

二分类logistic回归模型如下。[8-9]记影响被解释变量的m个解释变量分别为x1,x2,…,xm。事件发生与否的两个概率记为:

本文就学生一卡通信息与获得助学金与否的关系进行实证分析,把获得助学金与否作为被解释变量,学生一卡通信息作为解释变量,构建二元逻辑回归模型:

在式中,p表示获得助学金的概率,1-p表示未获得助学金的概率;xi表示学生一卡通信息,由消费信息与学习信息两部分组成。

2.变量选取

本文将获得助学金与否(Y)作为被解释变量,获得助学金,Y值为1;未获得助学金,Y值为0。将学生一卡通信息(xi)作为解释变量,分为消费信息与学习信息两大类。其中食堂消费(x1)、超市消费(x2)、开水房消费(x3)、坐校车次数(x4)作为消费信息,用于反映学生的日常消费情况;把成绩排名(x5)、去图书馆次数(x6)作为学习信息,分别用于反映学生的学习情况及学习态度。具体变量定义如表1所示。

表1 变量定义表

三、实证分析

本文根据某高校学生一卡通数据,选取108名学生作为样本,进行实证研究。

1.变量描述性统计分析

本文从极小值、极大值、均值、标准差四个方面对108名学生一个月的一卡通数据进行描述。在各消费中,食堂消费的均值最大,为318.5,说明该校学生的花销大多用于伙食消费;成绩排名的标准差最大,达到843.5,说明所选学生的学习存在明显的两极分化;开水房消费与坐校车次数的极小值为0,说明开水房消费与校车消费并不是学生的必须消费;去图书馆次数的标准差较大,说明学生的学习态度存在较大差异。具体描述情况见表2。

表2 描述统计量

由各描述信息可见该校学生的消费情况及学习情况差异较大。本文选取变量的量纲不同,为保证结果的可靠性,需要对数据进行标准化处理[10],将其转化为无量纲的纯数值。由于数据的极大值、极小值已知,本文选取较为简单的min-max标准化处理方法。公式如下:

在式中,xmin为数据的极小值,xmax为数据的极大值。对所有数据标准化后,进行多重共线性分析。

2.多重共线性分析

Hanushek和Jackson认为Logistic回归模型的参数易受解释变量间共线性的影响[11],由于本文是多因素分析,为了防止各变量存在多重共线性,避免各个变量之间的相互影响,保证结果的准确性,首先对解释变量与被解释变量进行多重共线性检验。[12]

本文选取方差膨胀因子(VIF)和条件索引(CI)来检验变量间的共线性[13],一般认为VIF值越大则变量共线性越强,VIF≥5时存在复共线性,VIF≥10时存在严重共线性。当条件索引 30≥CI≥10时存在弱共线性,100≥CI≥30时存在中等共线性,CI>100时存在严重共线性。而当CI<10时认为不存在共线性。

从表3的多重共线性分析结果可以看到,各个解释变量的方差膨胀因子(VIF)的最大值为1.182,未超过5;条件索引(CI)的最大值为7.481,小于10,说明各变量之间不存在多重共线性问题,可以在一个模型中使用。

3.逻辑回归分析

本文选取H-L拟合优度检验[14-15]来判断模型的拟合情况,零假设为模型能够很好地拟合数据。分析结果显示,Sig=0.596>0.1,接受零假设,说明模型拟合数据程度好。

表4是对所有变量进行二元逻辑回归的结果。结果显示,食堂消费、开水房消费与获得助学金与否在1%的概率水平下呈显著的负相关关系;坐校车的次数与获得助学金与否在10%的概率水平下呈显著的负相关关系。而超市消费、成绩排名、去图书馆次数与获得助学金与否的关系并不明显。

表3 自变量的多重共线性分析

表4 二元逻辑回归结果

四、总结

1.结论分析

通过构建logistic回归模型以分析助学金获得与否的影响因素,确定被解释变量、选取解释变量、检验变量间多重共线性、检验模型拟合度并利用SPSS软件进行模型分析与检验,得出以下结论:食堂消费、开水房消费、坐校车的次数与获得助学金与否呈显著的负相关关系;而超市消费、成绩排名、去图书馆次数与获得助学金与否的关系不明显。

本文认为,食堂、开水房、校车等场所只能以学生一卡通作为消费的途径,可以较好地反映学生的实际经济情况,而超市等场所除可用学生一卡通支付外,还可使用现金,不能较好地反映学生的实际经济情况。由此可见,可以根据学生一卡通的食堂消费、开水房消费、坐校车次数等因素进行助学金的评定,而超市消费则不能作为评定的依据。同时,学生的用功情况及学习成绩也不作为评定的依据。

2.对策建议

由实验可得出,评定助学金可以以学生一卡通信息为依据,但通过一卡通信息进行助学金评定时,应选择学生的食堂消费、开水房消费、坐校车次数等单消费途径的因素,超市消费等多消费途径的因素由于不能反映学生的实际经济情况,不应在考虑范围之内。

在此提出建议:在评定助学金时,通过学生一卡通消费情况确定其家庭经济情况,以此作为发放的依据。在家庭经济情况相同时,可以优先考虑评选学习成绩较好、学习态度端正的学生,将学习情况也纳入评定助学金的指标,以此激励学生刻苦学习。

猜你喜欢
共线性助学金一卡通
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
基于“一卡通”开发的员工信息识别系统
公共交通一卡通TSM平台研究
向心加速度学习一卡通
一卡通为新农合基金加密
The Value of a University Education