统计学专业“大数据分析综合实践”教学探究*

2022-08-30 08:17何少芳李绪孟杨玉蟾吴自然
科技与创新 2022年17期
关键词:建模统计学模型

何少芳,周 丽,李绪孟,杨玉蟾,吴自然

(湖南农业大学信息与智能科学技术学院,湖南 长沙 410128)

大数据时代背景下,运用大数据科学技术从海量的、各种各样的数据源中采集有用的数据信息,并进行数据的预处理(包括数据探索和清洗)、分析与建模并展示,已经被广泛应用于各个学科领域中。随着数据信息在现代生活和社会发展中展现出愈发重要的作用,数据分析能力也逐渐成为大数据时代对新型人才提出的新要求[1]。因此,在人才培养中,着重加强数据综合分析与应用能力尤为重要。统计学已深入医学、社会学和管理学等众多研究领域,成为数据分析中不可或缺的手段,而具有数据分析思维和行业数据分析能力的统计学专业人才在各行各业中均发挥着重要的作用[2]。统计学可以分为理论统计学(数理统计学)和应用统计学,相对于理论统计学侧重于理论研究,应用统计学以具体问题为研究对象,着重强调统计方法论的实际应用,通过对研究对象的定性分析和统计学领域的定量研究得到有价值的结论[3]。与快速发展的大数据分析技术相比,统计学本科专业实践课程的改革相对较慢,如何结合高等院校自身学科的特点和优势,凝练出既能满足社会需要又具有自身特色的统计学专业培养方向,是一个值得探究的问题。具体的,通过统计学专业相关实践课程教学改革[4-5](如“大数据分析综合实践”课程、“统计学实践”课程[6]和“时间序列分析实践”课程[7]等),实现由理论统计学向应用统计学的成功转变,这是一件非常有意义的工作。

应用统计学人才的培养目标是:培养具有良好的数学和计算机基础,掌握特定领域的基础知识和统计学的基本理论、方法和技术,能理论联系实际,利用统计学专业知识解决该领域具体问题的人才[8]。“大数据分析综合实践”是统计学专业的重要实践课程之一,一般安排在第六学期,共40课时。该课程的教学目标与人才培养目标一致,旨在利用良好的数学基础、Python或R语言以及多元统计分析、应用回归分析和时间序列分析等理论方法,对具体问题建模并进行数据处理与分析。它是对统计学相关知识融会贯通并综合运用到实际问题中的实践类课程。大数据分析现有的教学研究主要集中于实践平台建设[9]和数据分析课程教学资源与教学改革[10]等。本文结合本校统计学专业学生的具体情况,先对“大数据分析综合实践”课程教学的必要性进行说明,然后对实践教学内容与框架进行设计,最后结合源自文献的实践项目给出教学案例分析。

1 “大数据分析综合实践”教学的必要性

1.1 “大数据分析综合实践”课程实质

为统计学专业学生开设的“大数据分析综合实践”课程旨在运用统计学的基本理论、方法和技术解决具体问题。与该门实践课程密切相关的先修课程主要有“高等数学”“概率论与数理统计”“统计学”“多元统计分析”“应用回归分析”“时间序列分析”“大数据处理与分析”。“多元统计分析”[11]中的主成分分析、因子分析、聚类分析、判别分析、典型相关分析,“应用回归分析”[12]中的经典线性回归、广义线性模型、纵向数据(分层模型)、回归与分类方法(决策树、bagging、随机森林、人工神经网络、支持向量机、k最近邻方法)、生存分析和Cox模型以及“时间序列分析”中处理时间序列的典型方法和模型等,都为大数据分析综合实践中用到的机器学习算法提供了丰富的理论基础。

1.2 “大数据分析综合实践”教学现状

当前,“大数据分析综合实践”的实践项目一般从大学生统计建模竞赛、大学生数学建模竞赛、大数据竞赛平台DataFountain[13]的历届赛题以及已出版的文献中选择,因而,在实践教学过程中没有标准的实践项目指导教材。从另一方面来说,该门课程学习目标明确,完全遵从问题驱动或者数据驱动模式,即从问题或数据出发,除了会灵活运用统计学专业知识外,还得需要什么就临时学习什么,由此获得更多的知识和自主学习的能力。

1.3 “大数据分析综合实践”课程作用

在“大数据分析综合实践”教学过程中,学生的学习和实践情况不仅能有效反映该学生对统计学基本知识与方法的掌握情况,还能体现学生融会贯通、综合运用知识解决实际问题的能力。通过该课程的学习,不仅能加深学生对统计学相关理论知识的理解,还能深化学生的实践意识,促使学生选择适当的模型与方法分析问题和数据,并利用统计学软件或Python语言对各种数据进行处理与建模分析,进而获得有价值的结论。换句话说,该门课程既能使学生分析问题和处理数据的能力得到有效提升,还能培养学生科学创新的能力,为顺利完成第四学年的大学生毕业论文保驾护航。学习能力较强且实践项目完成得较好的学生可以通过查阅相关参考文献,对项目中涉及的模型或方法进一步拓展或改进,将项目内容完善成一篇优秀的本科毕业论文。

2 “大数据分析综合实践”教学框架构建

结合人才培养方案中统计专业学生开设的课程内容,“大数据分析综合实践”教学框架的构建最大限度地利用先修课程知识和现有的实验室条件。以大数据分析技术与统计学知识完美结合为依托,达到提升统计学专业学生的统计学运用能力的目的。该课程的实践项目一般来源于大学生统计建模大赛、大学生数学建模竞赛、大数据竞赛平台的赛题和已出版的文献。本文以统计学专业已完成的实践教学活动为基础,构建教学框架如下。

2.1 实践项目设计

考虑到课时有限,教学内容仅包括5个实践项目,其中,前4个来源于大数据竞赛平台DataFountain,第五个来自已出版的文献,项目信息如表1所示。项目任务既有回归也有分类,前3个项目属于分类问题,后面2个是回归问题。项目涉及的知识点主要有数据预处理、特征工程、类别不均衡处理、回归与分类模型、集成学习、模型评估分析以及可视化等。值得注意的是,所涉及的知识点中有部分是以前未学过的,如用户画像、RFM模型、海洋漂流轨迹建模、车辆碰撞状态建模和SHAP模型,它们都需要在实践过程中即学即用。实践项目中包含少部分未学知识,旨在拓宽学生的大数据思维,让其深刻体会“掌握特定领域的基础知识和统计学的基本理论、方法和技术,理论联系实际,利用统计学专业知识和大数据分析技术解决该领域的具体问题”。

表1 实践项目信息

2.2 实践项目内容框架

实践项目内容的一般框架是数据预处理、特征工程、模型预测、模型评估分析以及分析与决策,而可视化贯穿其中,利用图形绘制的方式对数据处理与分析结果进行展示。以基于随机森林算法实现电信用户流失预测任务为例,框架如图1所示,数据集提供了7 043条用户样本,每条样本包含21列属性,数据预处理需要做的工作是异常值处理和缺失值处理;考虑到属性较多,先对特征进行可视化分析,如流失客户占比,基本特征对客户流失的影响、业务特征对客户流失影响和合约特征对流失客户的影响等,再进入特征工程(特征选择和特征提取);模型预测中涉及类别不平衡问题处理和交叉验证调参;模型评估分析采用精确率、召回率和F1值评价模型性能。

图1 电信用户流失预测项目框架

3 实践教学案例分析

本文以源自文献“基于XGBoost的在线短租市场价格预测及特征分析模型”[14]的实践项目为例进行实践教学案例分析。

3.1 案例设计目的

目前,针对房产相关的研究主要集中在价格预测模型和影响因素分析方面。文献[14]选取美国洛杉矶2020年最新的Airbnb数据集(含37 048条样本、105个属性特征)为研究对象,提出一种基于XGBoost的在线短租市场价格预测及特征分析模型,建模流程[14]如图2所示。它在对原始数据实施特征工程和特征选择后,基于XGBoost模型建立了在线短租场景下的价格预测模型,通过与多个已有价格预测模型在性能指标上对比来验证模型的性能,并采用SHAP值对模型中价格的影响因素进行分析。利用SHAP模型解释结果,分析影响价格的因素,以增强模型的可解释性,为房东定价和服务提升提供决策参考。该文献完整呈现了大数据分析综合实践内容框架中的各个要素。通过学习该文献并进行项目的实践操作,学生不仅能掌握大数据分析的常用方法和技术,切身体会如何运用所学知识解决实际问题,还能学习论文写作方法和技巧,为毕业论文写作打下坚实的基础。

图2 XGBoost建模流程

3.2 实践教学开展流程

项目实践教学流程依据文献内容布局而定,主要包括价格预测问题的国内外研究现状的了解、模型与方法的学习、特征工程、模型优化和评估以及基于SHAP模型解释分析的编程实现。模型与方法的学习主要有XGBoost、LightGBM、ExtraTrees、AdaBoost、GBR和SHAP模型。编程部分在Python语言集成环境平台(如Anaconda、PyCharm)上实现,其中,特征工程需要实现数据异常值及目标变量处理、缺失值处理及独热编码、Lasso特征选择,并将部分处理结果可视化,包括房源价格分布直方图、部分特征变量与目标变量热力图、数据缺失情况柱状图和Lasso特征选择的特征重要度直方图;模型优化采用交叉验证和网格搜索实现超参数调优,而模型收敛情况则通过可视化XGBoost与各分类模型的学习曲线来分析;模型性能采取与同类工作以及其他主流机器学习模型对比的方式来评估;模型解释用可视化SHAP特征分析摘要和SHAP特征依赖关系来说明。

3.3 教学效果检验

“大数据分析综合实践”的教学效果主要通过学生在实践过程中的学习情况和项目内容的完成情况来检验。学生在每个项目中获得的成绩根据该项目各个部分内容的实际完成情况来综合评定,对于学习能力强、动手能力强以及有创新意识学生将给予更高的成绩。学生的总成绩由所有实践项目成绩加权平均获得,权重因子依据每个项目的难易程度确定。

4 结束语

大数据背景下,将统计学专业知识与大数据分析技术相结合,培养具有数据分析思维和行业数据分析能力的统计学专业人才,有利于优化统计学专业人才培养方案。实践课程教学在统计学专业教学中具有重要的地位,通过专业课程实践培养学生的专业技能、实际动手能力和创新思维。本文以统计学专业的“大数据分析综合实践”课程为研究对象,从课程实质、教学现状和课程作用3个方面对“大数据分析综合实践”课程教学的必要性进行阐述;对实践项目内容和教学框架进行设计,并以来自文献“基于XGBoost的在线短租市场价格预测及特征分析模型”的实践项目为例进行详细的实践教学案例分析。统计学专业2018级学生已完成该课程学习,由教学效果检验可知,这届学生在统计学基础知识和大数据处理与分析能力等方面都有较大提升。

猜你喜欢
建模统计学模型
自制空间站模型
物理建模在教与学实践中的应用
在经历中发现在探究中建模
思维建模在连续型随机变量中的应用
求距求值方程建模
大数据的统计学基础分析
统计学教学与实验实践的一体化整合初探
模型小览(二)
圆周运动与解题模型
省属地方高校应用统计学专业人才培养模式研究