大数据时代统计学类专业教学中的R语言应用研究

2022-05-24 22:58徐锋蒋远营
高教学刊 2022年13期
关键词:R语言教学

徐锋 蒋远营

摘  要:在统计学类专业的教学中常常涉及多个软件,导致学生们把精力分散到多个软件的学习中,而没有真正掌握好一款软件。文章分析目前市场上各种统计软件的优缺点,介绍R语言的特点,并结合例子探讨其在教学中的优势。在统计学专业的教学中结合R语言,能够更好地满足社会需求将学生培养为综合性和应用型的人才。

关键词:R语言;统计软件;教学

中图分类号:G642      文献标志码:A          文章编号:2096-000X(2022)13-0010-04

Abstract: In the teaching of the major of Statistics, many softwares are often involved, which lead students to disperse their energy into the study of many softwares without really being good at a software. By analyzing the advantages and disadvantages of various statistical software in the current market, this paper introduces the characteristics of R language, and discusses its advantages in teaching with examples. Integrating R language into the teaching of Statistics can better meet the needs of society and train students into comprehensive and applied talents.

Keywords: R language; statistical software; teaching

一、统计学类专业教学中软件使用的基本情况

如今是大数据时代,各行各业无不都在分析和应用数据来管理和运行自己的公司。数据的分析和应用与统计学专业有着密不可分的联系。随着计算机的普及和统计软件的广泛使用,了解和运用统计学知识的人也越来越多。为了适应时代的发展,迎接大数据时代,抓住时代所给的机遇。2011年,国务院学位委员会和教育部批准印发了《学位授予和人才培养学科目录(2011年)》。新目录将统计学由原来的经济学二级学科调整为理学的一级学科,并可授予经济学和理学学位[1]。这意味着统计学在时代的发展中有着举足轻重的地位。统计学专业是培养数据分析人才的基本单元,统计软件是提升学生实践能力的有效载体[2]。统计学专业的学生想要提升数据分析能力,满足市场的需求,掌握一款统计软件是最基本的要求。然而由于市场上统计软件多样化,授课老师往往根据自己的喜好或者根据教材使用的统计软件而选择相应的统计软件,导致每门课使用不同的统计软件。例如,计量经济学课程一般采用Eviews;回归分析课程一般采用SPSS;涉及到矩阵或数学建模的课程一般采用Matlab。当然,不同的课程采用不同的软件也是由于不同软件自身适合各自课程的特点导致的。但是过多的软件导致学生花费大量的精力学习多种软件,而往往又没有真正地掌握好一款统计软件。山西财经大学统计学院的调查也证明了这一点。同学们普遍认为粗浅的学习多个统计软件太分散精力,倒不如精通一款统计软件[2]。在目前的统计学专业的教学体系中,如何做到在不影响专业课教学任务和效果的基础上,让学生把分散到多个软件的精力集中到一款软件的学习中就显得特别重要。如何在众多的统计软件中选择一两款合适教学的统计软件是统计学类专业面临的一项新课题。

二、统计学类专业教学中软件的选择

目前市场上能进行数据分析的软件很多。例如,收费的软件有SAS、SPSS、Matlab、Stata、Eviews等。开源免费的软件有R语言和Python等。SAS是一款标准的商业软件,统计功能完善,社会上也有比较认可的考级证书。但是其体积庞大,费用较高,升级频繁,命令较多,编程困难。Matlab是数值计算和图像处理的首选,它的矩阵运算能力强,但是它的统计方法有限,需要编程,费用也较高。SPSS是一款非统计人员使用的软件,主要是因为它具有菜单式的命令,很多经典的方法通过点击鼠标即可得出结果。人文社科类的工作者比较常用。然而,其优点也是其缺点,一旦涉及工作者自己提出的方法就需要进行编程,并且这种编程极其困难。其他非编程类的软件也都有类似的缺点。后起之秀的R语言和Python由于开源、免费的缘故,在世界编程语言排行榜中一路飙升。目前各大公司招聘的数据分析岗位都会要求熟悉R语言或Python。TIOBE公布的2020年7月份编程语言排行榜中R語言排名第8,这说明社会对R语言的认可和需求。

教学目的之一也是为了学生能够适应和满足社会需求。因此为了让分散到多个软件的精力集中到一个统计软件的学习上,在众多的软件中选择一款好的统计软件就变得尤为重要。当前教学中常用软件的优缺点见表1。从表1中可以看出,R语言是一款优秀的软件。随着人们对知识产权的保护意识不断提高,开放源代码逐渐开始形成一种市场,而R语言也正是在这样的背景下不断发展的,也渐渐正成为数据分析中相当标准的统计软件[3-4]。R语言软件不仅在社会上的影响力逐渐提升,它自身的特点在统计学类专业的教学中也具有非常大的优势,在很多高校的教学中逐渐被重视。

(一)R语言软件的特点

R语言是属于GNU系统的一个自由、免费、源代码开放的软件,它是集统计计算、数据分析与统计制图为一体的统计软件[5]。具体有如下的一些特点。

1. 免费、开源。R的开源性使得它自从20世纪90年代被开发出来至今,其发展就一直没有间断过。它是完全免费的,并且源代码是开放的,托管在GitHub上。

2. 扩展性强、更新快。这里的扩展性是指R有着丰富的包,可以随时安装和调用贡献者发布的R镜像里的包,并且这些包的源代码绝大部分都是公开的,镜像上的每一个包都有相应的使用说明文档,方便学生查看和使用。R的扩展包更新极快,它来自全球的科研和数据分析工作者的贡献。

3. 可编程、入门快。R语言是一款编程语言,入门简单。可编程的特点使其可以实现自己提出的新方法,改进存在的方法。其入门比较简单,很多命令都是利用统计方法的名字来命名的,例如t检验的函数为t.test()、kmeans聚类的函数为kmeans()。

4. 制图功能强。R语言的制图能力是极高的,特别是R中的ggplot2扩展包。很多软件都借鉴ggplot2的思想。R语言强大的绘图能力有助于将数据进行可视化,方便学生理解数据和分析数据。R语言软件也可以绘制动态的网页图,为结果汇报锦上添花。

5. 交互性强。R语言的shiny包可以实现网页交互功能。该功能在数据分析完之后进行汇报时特别有用。它不需要知道HTML、Javascript等網页语言即可构造自己的交互功能。另外,还有一些Rnotebook、Rmarkdown等可生产分析报告,也可以生成实时的演示文档,教师可以一边讲解,一边演示代码。让学生能及时地获取到数据分析的结果。

(二)R语言在教学中的优势

数据分析的过程大概可以分为以下五个阶段:收集数据、处理数据、分析数据、展示数据和报告撰写。统计学的教学工作也大致是按照这五个步骤相应展开[6]。在R语言还没被大家所熟知的早些年,大部分的教师都选择自己的偏好软件进行教学。各式各样的软件在数据分析的整个过程都或多或少有一些不如意的地方,不像R语言这样能包揽数据分析的整个过程(从数据收集到最后的报告撰写)。R语言不仅是数据分析的利剑,对教学工作也极具优势。

在教学中,教师不仅仅只是教授理论知识,关键的是能将理论知识运用到实际案例中去。R语言在这方面就表现很优秀。首先,从基础条件上来看,R语言的开源、免费能使得学生使用正版的软件,保证统计分析的标准性。小巧的软件方便安装和携带,也方便了教师在更换教学场地的时候能够立马安装进行代码演示。其次,R语言强大的绘图功能能够将数据进行可视化,更加直观地展示给学生,使抽象的理论变得形象化,方便学生理解。再次,结合R语言是一款编程语言的特点,在讲授理论知识的时候可以利用R语言自己编写统计方法的代码,结合案例分析,进一步地体会统计方法背后的思想,并且代码简洁。这一点在如今的大数据时代显得尤为重要,不仅让学生掌握了统计方法,也锻炼了学生的编程能力,在今后的数据处理中能够实现自己的想法并改进存在的方法。最后,R语言也能写成动态的报告,最大限度地进行数据分析的可视化,增加学生的积极性。另外,R语言的开放性给数据分析带来更多的可能性,R镜像上的扩展包包含了成千上万种方法,并且持续地更新,这能够刺激学生想进一步了解统计方法的欲望和拓展统计学的前沿知识。

总之,R语言在教学中能够很好地将理论知识、案例分析与统计软件有效地结合起来。此外,R语言的可视化报告展示能够增加学生学习理论知识的积极性,最大限度地调动学生的主观性,以软件促进理论学习,能获得最优的学习效果,将来学生也能满足社会对数据分析的要求。

三、R语言用于统计学类专业教学的案例

统计相关性是一个重要的概念,如今大数据时代很多统计都不再追求因果性而是寻求两者之间的相关关系。皮尔逊相关系数是最基本也是最重要的指标之一。在R语言中可以利用cor(x,y)函数直接得出两者的皮尔逊相关系数值。然而在教学中,我们可以根据公式先自己编写函数来求解相关系数。假设有一组数据身高(x)和体重(y),其具体数值如下:

从上述可知,R语言代码简洁,不会因为软件需要编程而影响理论知识的讲解。最后,R 语言可视化可以展示模型拟合的效果,进一步帮助学生理解回归模型,如图1所示。从图中可以看出,数据大致分布在拟合线周围,说明模型拟合的较好。相关代码如下:

上面的例子是回归分析中最简单的一元线性模型,但在教学中结合R语言能够体现出多个优势。第一,编写了函数,加强学生对软件的使用;第二,通过编程公式加深对理论知识的理解;第三,模型检验的代码简单方便,不会因为编程软件的使用而影响理论知识的讲解;第四,模型拟合的可视化能够帮助学生进一步地理解回归模型。

四、结束语

当今在统计学类专业教学中涉及多个软件,常常会分散学生的精力,导致学生没能掌握、熟练用好其中的一款软件。而掌握好一款统计软件又是每一个统计学专业学生的重要任务。随着信息存储和检索技术的进步,想要从海量的数据中获取价值就不得不借助一些统计软件来实现,这使得统计学类的学生不得不掌握好统计软件的使用。R语言的免费、开源、入门简单等优点,使得其在教学中具有极大的优势:第一,通过编程加深对理论知识的理解;第二,代码简单不影响教师对理论知识的讲解;第三,强大的可视化帮助学生进一步地理解理论知识;第四,编程的过程中加强软件的使用,满足社会的需求。在教学过程中补充R语言内容,可以从根本上提高教学的质量,培养学生的数据分析能力,从而使其适应社会的需求,成为综合性和应用型的人才。

参考文献:

[1]李曼.统计学调整为一级学科后人才培养目标和模式改革研究[J].教育教学论坛,2014(11):43-44.

[2]朱波,刘晓艳.R语言融入统计专业课程教学的探索与实践——以山西财经大学为例[J].教育教学论坛,2020(12):210-211.

[3]张哲,张豪.浅谈R语言在生物统计学教学中的应用[J].教育教学论坛,2013(27):54-55.

[4]奚宁.R语言在统计学教学中的运用[J].科技资讯,2012(1):197.

[5]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.

[6]李雄英.基于R语言的统计教学应用初探[J].高教学刊,2017(1):50-51.

猜你喜欢
R语言教学
“自我诊断表”在高中数学教学中的应用
类比在高中数学教学中的探索
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
在遗憾的教学中前行
基于R语言的湖南产业结构对其经济增长贡献分析
计算教学要做到“五个重视”
注重统计思维培养与应用为主导的生物统计学课程建设
人民币汇率的均值回复检验及Hurst指数计算
教育教学