如何在计算机R语言教学中实现数据可视化的应用研究

2017-06-06 12:00吴冬梅永城职业学院
数码世界 2017年5期
关键词:线图自带直方图

吴冬梅 永城职业学院

如何在计算机R语言教学中实现数据可视化的应用研究

吴冬梅 永城职业学院

本文通过介绍数据可视化的相关知识,并选取部分R语言自带的数据集,将这些数据以散点图、线图、直方图、箱线图以及条形图的形式进行数据可视化展示,体现出了R语言在数据可视化中的应用以及R语言在绘图方面的基础功能,R语言作为一种开源的统计分析语言,其免费、共享、易学以及功能丰富的软件包支持的特性,决定了其广泛的应用前景和应用价值,本文仅是简单介绍其在绘图方面的应用,希望可以起到抛砖引玉的作用,从而引起大家对于R语言的学习兴趣。

R语言教学 实现 数据可视化 应用

1 数据可视化

可视化,也称科学计算可视化(Visualizationin Scientific Computing),其定义为:“可视化是一种计算方法,它将符号或数据转换为直观的几何图形,便于研究人员观察其模拟和计算过程。可视化包括了图像综合,这也就是说,可视化是用来解释输入到计算机中的图像数据,并从复杂的多维数据中生成图像的一种工具。”数据可视化本身是一门复杂的学科,包含了很多方面;现代的数据可视化(Datavisualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。随着科学技术的发展,数据可视化概念也在不断地扩展,它不仅包括科学计算数据的可视化,而且包括工程数据和测量数据的可视化。

2 R语言简介

R是用于统计分析、统计绘图的语言和操作环境,是属于GNU系统的一个自由、免费、源代码开放的软件。是贝尔实验室(Befl Laboratories)的RickBeeke、JohnChamberS和AllanWilkS开发的s语言的一种实现,提供了一系列统计和图形显示工具。s语言则是目前比较流行的统计软件S-PLUS的基础。R的创始人RosSIhaka和RobertGentleman,由于这两位“R之父”的名字都是以R开头,所以就命令为R。

3 R的绘图系统

在数据挖掘过程中,当完成数据的导入、清洗,并将其汇总统计以后,接下来的工作就是绘图,R有三种不同的绘图系统可供选择:

第一个图形系统base图形系统是最古老的系统,在R的存在初期它就已经存在了,base图形很容易上手,但其所绘制的图形有时需要大量的修改,而且它很难扩展到新的图标类型中,通过对base中的一些限制进行开发形成了grid图形系统,从而使绘图更加灵活,grid允许你在绘图时涉及系统底层,可以具体指定在哪里画哪个点、线或矩形。

第二个图形系统lattice建立在grid系统之上,它为所有常见的图表类型提供了高级函数,它有两个突出的特点是base图形系统所不具备的。首先,每个绘图的结果能被保存到一个变量中,而不仅仅是绘制在屏幕上;第二,它可以在一个格子中包含多个面板,因此你能把数据分成不同的类别并比较各组之间的差异。

第三个图形系统ggplot2也是建立在grid系统之上,gg代表granlnlarofgraphics(制图语法),其目标在于把图形分解成不同的组块。ggplot2图形系统是功能最强大的图形系统,你几乎可可以使用ggplot2做任何事情,但它与其他图形系统相比需要更多的计算。

4 通过R实现数据可视化

数据可视化本身是一门复杂的学科,包含了很多方面,在R中实现数据可视化,目前主要是指数据的统计图展示。在展示时,分为低维数据的展示和多维数据的展示。由于ggplot2图形系统是R中功能最强大的图形系统,使用ggplot2展示的数据会更加美观和方便,所以本文在展示R中的各类统计图时选用ggplot2图形系统。

在使用ggplot2之前,需要先安装并载入该包:

4.1 散点图

散点图是展示在回归分析中,数据点在直角坐标系平面上的分布图。它用于研究两个连续变量之间的关系,是一种最常见的统计图形。

R语言自带的数据carsi记录了1920年代汽车速度对刹车距离的影响,通过使用R语言中的散点图绘图函数,我们可以清楚的看出刹车距离在不同车速情况下的分布情况:

4.2 线图

如果想研究连续变量如何随特定参数变化,线图往往比散点图更加容易理解。

以R自带的preasure数据为例,该数据记录了温度随着气压的升高而的变化规律。通过R语言的线图绘图函数,将气压的升高与温度变化曲线进行绘图,形可直观的展示出,气压从零开始升高时,对温度的影响巨大,但随着气压达到一定程度,其对温度的影响作用是逐渐变弱的:

4.3 直方图

直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。

以r语言自带的数据beaverl为例,该数据记录了持续对一只海狸每109钟进行体温监测的数据,共114条数据,为了便于观察海狸正常的体温分布,我们可以使用R语言的绘图函数绘制直方图来进行观察:

[1]庄作钦.Boxplot——描述统计的一个简便工具[J].统计教育.2003(1)

[2]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010

猜你喜欢
线图自带直方图
符合差分隐私的流数据统计直方图发布
一些图运算的调和指标与调和多项式的线图∗
预测瘢痕子宫阴道试产失败的风险列线图模型建立
基于FPGA的直方图均衡图像增强算法设计及实现
自带滤镜的底妆,你用了多少?
用直方图控制画面影调
周迅:天才,自带拨乱反正的能量
好的爱情自带成长属性
中考频数分布直方图题型展示
一类图及其线图的Wiener指数