基于R语言的“概率论与数理统计”课程设计

2022-10-10 07:12丁梦珍
萍乡学院学报 2022年3期
关键词:概率论与数理统计数理统计概率论

丁梦珍

基于R语言的“概率论与数理统计”课程设计

丁梦珍

(安徽科技学院 信息与网络工程学院,安徽 滁州 233100)

“概率论与数理统计”是高等院校理工、经管类的核心基础课程,该课程能为后续很多专业课程的学习提供方法论的指导。文章基于大数据背景下应用型、创新型人才培养的需求,分析了“概率论与数理统计”课程教学中存在的问题,提出将开源统计软件R融入课程的混合教学模式,并探讨了软件在课程教学应用中需要注意的一些问题,最后通过数据处理和可视化呈现的案例分析说明应用软件辅助教学的必要性,这种混合式教学有助于“概率论与数理统计”教学效果的提升和教学目标的实现。

概率统计;回归模型;统计软件;教学设计

1 课程教学现状分析

大数据时代的来临,使得我们的日常生活、工作、娱乐休闲等与数据息息相关,挖掘数据中所隐含的信息和规律是一个棘手的问题,“概率论与数理统计”课程对于解决这一问题有着重要的指导意义。“概率论与数理统计”是研究随机现象规律性的一门重要的基础学科,随机现象的普遍存在性决定了该学科应用的广泛性。

当前“概率论与数理统计”课程教学仍以传统的教学模式为主,教师侧重于概念讲解、公式推导和定理证明,忽视统计思想的培养,缺乏对学生进行数据分析处理能力的训练,使得数学理论和方法与现实世界相脱节,学生难以利用所学知识分析解决实际问题。很多学生学完该课程后对这门课程的认知只停留在一些概率公式和抽象分布上,无法灵活地将数据分析方法应用到实际工程问题上,致使利用概率统计思想建模、分析和解决实际问题的课程目标很难达成,这种口授笔演的教学模式难以满足新时代对新型人才培养的要求,违背了应用型、创新型人才的培养初衷,因而推进课堂教学改革是当前亟须解决的问题[1]。

由于这门课程计算量较大,如果缺少统计软件的辅助,手动计算则需要消耗大量的时间且容易出错,而随着计算机科学的不断发展,统计软件越来越完善,为各类数据的采集、分析及处理提供了强有力的工具支撑,将统计软件嵌入教学不仅可以让学生从枯燥的计算中解放出来,还有助于学生深入理解“概率论与数理统计”的理论知识和思维方式,此外通过软件可将一些抽象难懂的内容可视化,增加课程趣味性,激发学生的学习兴趣;因此积极探索统计软件在“概率论与数理统计”教学中的应用,对培养学生的科学研究及实践创新能力具有深远意义[2]。理论教学与实践能力培养相结合的混合模式,有助于学生更好地向“概率论与数理统计”的课程目标迈进。

一些统计软件如Eviews、SPSS、Stata、R、Matlab等自带大量的统计计算函数,绝大部分还可以实现方差分析、相关性分析、回归分析等复杂的统计功能,用户只需要根据统计模型,对相关的参数进行操作就可灵活地进行数据处理和分析,它们的功能大同小异,各有各的优劣势,可针对不同的研究对象和研究需求选择合适的软件进行操作[3]。在教学过程中灌输自主思维能力与软件实践能力培养并重的理念对于实用性、复合型人才的培育有着重要指导意义,将复杂的运算交给软件处理,更多精力放在有价值的算法和逻辑思维培养上能有效地提高学习效率,但应引导学生避免过度依赖软件,成小题大做、本末倒置的现象,同时也不能只是运用软件求出数值结果,要结合实际背景去解释结果,培养学生描述性统计分析的能力[4]。

2 R语言在课程教学中的辅助作用

概率论与数理统计与很多学科有着密切的联系,广泛应用于保险精算、生物工程、经济管理等领域。因而,全面夯实学生的理论基础,实现该课程的教学目标至关重要。但其繁杂的运算令学生心生枯燥乏味之感,打击了他们的学习兴趣和热情,故辅以某种统计软件来调动学习积极性很有必要,一方面可以使学生避开冗杂的计算过程,专注于概率统计思想的理解和数值计算结果的解释;另一方面可以将抽象难懂的内容可视化,通过图形解释相关理论,激发学生的思想碰撞,培养学生从中发现问题、提出问题和解决问题的能力[5]。

R是一套比较完整的开源的统计计算、数据处理、数学建模和数据可视化系统,它的语法简练而强大,易于掌握,同时提供了大量统计程序包和集成的统计工具、统计函数,还可以通过编制函数来扩展现有的语言,甚至创造出符合需求的新的统计算法,这也是它的更新速度比SAS、SPSS等一些统计软件频繁的主要原因,所以大多数新生的统计方法都能在R中直接获取[6]。

下面通过阐述基于R语言可实现的多项式和样条回归例子及其拟合数据的优劣性来说明在课程教学中融入统计软件R的重要性。

3 样条回归模型的案例分析

记次样条基函数:

基函数表示为:

一般来说,样条回归比多项式回归的输出结果更加理想,一方面低阶多项式对非线性关系的解释力度不足,而随着阶数的增加,尽管可以改善数据的拟合效果,但通常会出现过拟合的弊端,或者生成异常值进而拟合出奇异的曲线;而样条回归基于样条函数具备了局部数据的特性,可以视为逐段回归或分段回归,即先将数据分成几段,再对每一段分别处理,从而根据不同区间的数据分布特点有针对性地拟合出一次、二次、三次等多项式,特别是对于波动幅度较明显的数据进行分析时,其拟合结果往往有着显著性的优势。但对于模型的选择并不是越复杂越“高级”则越好,而是要根据具体的数据来确定。

下面给出具体的模拟实例,以此说明教学中融入统计软件对理论知识的解释则会更加具象化,进一步加深对一些概念的认识和理解。

例1:Dampend函数表达式为:

该统计指标越小则说明拟合精度越高,图2绘制了箱线图,大体上反映了后者对数据拟合的优势更为明显。

图1 Dampend函数拟合曲线

图2 Dampend函数RMSE箱线图

例2:Doppler函数表达式为:

图3是随机试验结果的散点图,真实曲线,基于多项式回归的拟合曲线和基于样条回归模型的拟合曲线,图4是在Doppler函数下的箱线图。

图3 Doppler函数拟合曲线

图4 Doppler函数RMSE箱线图

从拟合图形和统计指标可看出不管在光滑程度还是得分上样条回归都明显优于多项式回归模型,样条回归模型能较准确地描绘数据的局部变化特征,更好地估计真实函数。

例3:Mexican hat函数表达式为:

图5是随机试验结果的散点图,图6是在Mexican hat函数下的箱线图。

图5 Mexican hat函数拟合曲线

图6 Mexican hat函数RMSE箱线图

从图5可明显观察到样条回归模型对振荡幅度较剧烈的数据有非常显著的拟合优势,尤其在0.5~0.7的数据上体现得较为明显,与真实曲线相差无几,即样条回归模型对数据有更强的适应能力,能够有效地捕捉到数据的局部特征。

以上几个案例可以看出通过图像能够帮助学生更直观地理解拟合曲线的概念和意义。R语言同样可以实现更加复杂的回归模型以及获得显著性检验等知识点,有利于学生避免繁琐的计算,提高解决实际问题的能力。

4 结论

本文通过两种回归模型的比较阐述了R语言在统计计算和数据可视化方面的强大功能,凸显了统计软件在“概率论与数理统计”教学中的重要价值。“概率论与数理统计”课程有着较强的理论性和逻辑性,概念和公式繁多,将统计软件融入教学中,既能加深学生对理论知识的理解,又能锻炼代码编写的技能和培养创造性思维。因而,大力贯彻行为指导型的教学理念,摒弃填鸭式的刻板套路,有利于实现复合型人才的培养,这是课程改革得以不断推进的源动力。

[1] 杨静, 杨新木, 许峰, 等. 大数据背景下《概率论与数理统计》课程改革探索[J]. 浙江水利水电学院学报, 2020, 32(4): 4.

[2] 胡娇铃. 工学结合背景下《概率论与数理统计》教材改革与数学模型思想的应用[J]. 高教学刊, 2019(10): 3.

[3] 王斌会. 数据统计分析及R语言编程[M]. 广州: 暨南大学出版社, 2017.

[4] 崔玉杰, 刘喜波. R和Python软件在《概率论与数理统计》教学中应用初探[J]. 教育教学论坛, 2017(12): 2.

[5] 闫朝晖. R软件在多元统计分析教学中的应用研究[J]. 科技创新导报, 2011(1): 157–158.

[6] 秦丽娟, 黎虹, 梁玥, 等. R软件在农业院校《概率论与数理统计》教学中的应用[J]. 甘肃联合大学学报: 自然科学版, 2019, 33(5): 99–103.

[7] 茆诗松, 王静龙, 濮晓龙. 高等数理统计[M]. 北京: 高等教育出版社, 1998.

Course Design of Probability and Mathematical Statistics Based on R Language

DING Meng-zhen

(College of Information and Network Engineering, Anhui Science and Technology University, Chuzhou Anhui 233100, China)

Probability and Statistics is the core foundation course of science, engineering and management majors in higher education. With the development of computers, methods of probability and statistics have blended into other disciplines and formed many marginal subjects, and the course can provide methodological guidance for the study of many subsequent professional courses. This paper analyzes the problems in the teaching of Probability and Statistics based on the needs of cultivating applied and innovative talents in the context of big data, and takes into consideration that statistical software can turn mathematical models into feasible algorithms and visualize them to guide students’ interest in learning. Therefore, the paper proposes a mixed teaching mode of integrating open source statistical software R into the course, and discusses some challenges that need to be paid attention to in the application of software in the course teaching. Finally, the paper illustrates the necessity of software-assisted teaching through a case study of data processing and visualization presentation, and this mixed teaching helps to improve the teaching effectiveness and achieve the teaching objectives of Probability and Statistics.

Probability and Statistics; regression model; statistical software; teaching design

2022-03-09

安徽科技学院校级教研项目(X202052);安徽科技学院人才引进项目(100005)

丁梦珍(1993—),女,安徽宿州人,助教,硕士,研究方向:非参数回归模型。

G642.0; O212.7

A

2095-9249(2022)03-0096-04

〔责任编校:陈楠楠〕

猜你喜欢
概率论与数理统计数理统计概率论
线上线下混合教学模式在概率论与数理统计课程中的应用
概率论教学中建模思想的应用意义研究
对一道教材习题的思考
概率论方法在高等数学解题中的应用
《概率论与数理统计》教学创新探究
行动导向教学法背景下的《概率论与数理统计》
加强计算机技术在“概率论与数理统计”课程中的应用
翻转课堂教学模式在《概率论与数理统计》课堂教学中的实践研究
关于概率论与数理统计课程改革的思考
概率统计教学中培养学生创新思维和实践能力的探索与实践