浅谈资料正态分布检验在气象统计分析中的重要性

2013-04-12 20:00夏俊荣
关键词:正态分布气候气象

王 慧 吴 丹 夏俊荣

(南京信息工程大学 大气科学学院/气象灾害教育部重点实验室,江苏 南京 210044)

正态分布又名高斯分布,是一种非常重要的概率分布,其在统计学的许多方面有着重大的影响力。资料的正态分布检验和正态化转换方法是大学本科课程“气象统计方法”中的一部分内容。该课程是在概率统计、线性代数的基础上,学习利用统计学方法对气象要素的特征及成因进行诊断和分析或对气象现象进行预报的方法。它是大气科学专业的一门专业主干课。通过该课程的教学,使学生能够掌握对天气、气候现象进行诊断分析及预报的常用统计学方法的基本原理和技术,培养学生运用所学的方法与技能从事科学研究的能力,为将来从事实际气象业务预报及科学研究工作打下基础。本文针对该课程教学中对资料正态分布检验问题重视不够,导致学生在科研工作中往往出错等问题,提出自己的看法,希望引起大家的重视,使学生更好地理解和利用统计学方法解决气象中的一些科学问题,这对学生将来的工作有很大的帮助。

1 存在的问题

目前,在“气象统计方法”课程中对资料的正态分布检验这部分,很多教师只是简单讲授资料正态分布的统计量和正态化方法等,多数是抽象地介绍课本上的相关公式,关注的是学生能否记住统计量的名称、意义和应用条件。因而大部分学生为了应付考试,都是死记硬背定义和公式,考试也最多考到正态分布统计量的名称,等考试完了也都全忘记了,根本不能引起学生的注意。所以,如果教师对这部分内容不进行强调和详细讲解,很多学生并不能很好地理解和认识其重要性,这可能导致他们在以后的科研和预报工作中犯一些低级错误,研究结果有误自己都不能发现。在硕士甚至博士研究生答辩中都有类似事情发生。

2 教学方法

对于资料的正态分布检验这部分内容没有固定的学时安排,授课时间因教师而异,有些教师可能自己也不重视,快速、简单地讲授一下,不超过一个学时就讲完了。这部分内容笔者一般安排2个学时的课程讲授。资料正态分布检验的重要性大概占0.5个学时。

首先,对正态分布进行简单介绍,展示正态分布曲线图形。若随机变量X服从一个数学期望为μ、方差为σ2的高斯分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了其分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ=0,σ=1的正态分布。正态曲线与横轴间的总面积等于1。正态曲线下横轴上一定区间的面积反映资料的取值分布在该区间的个数占总观测次数的百分比,或变量值落在该区间的概率。横轴(μ-σ,μ+σ)区间内的面积为68.3%,(μ-1.96σ,μ+1.96σ)区间内的面积为95.4%,(μ-2.58σ,μ+2.58σ)区间内的面积为99.7%。这也是我们通常说气候异常超过±1.96σ和±2.58σ的概率不超过0.05和0.01的原因。

接着,重点介绍气象统计分析中气候资料正态分布检验的必要性和重要性。资料符合正态分布是各类统计预报模型和统计检验方法的先决条件,大多数气候诊断方法和预报模型是在气候变量呈正态分布假定前提下进行的[1-3]。变量是否遵从正态分布,直接影响气象统计分析结果和预测模型的应用效果。因此,对于气候变量是否为正态分布的检验,不仅很有必要而且很重要。研究表明,年、月平均气温、气压、多雨地区的月降水量通常符合正态分布[4],旬平均气温基本符合正态分布。现实生活中,非正态变量在气候要素中占有重要地位,如候、旬降水量,降水稀少地区的月降水量[4],各种天气(如降水、积雪、冰雹、大风和高温等)日数和旱涝指数等。近年来,在全球气候变暖背景下,极端气候异常频繁地光顾地球,严重影响着世界各国的经济社会发展和人民生活,所以对极端气候事件的研究成了大家关注的焦点。由于大多的天气、气候极端事件往往出现于非正态时间序列中,所以在研究这些气候要素的时空特征和演变规律时,若应用基于正态分布条件下的各种统计方法,由于其分布的非正态性,可能会导致研究和预报的失败。长期以来,我们对月、季、年降水量预报准确率不高,这可能是原因之一[4]。这里建议举一些现实生活和科研工作中的例证加以说明,使学生更容易理解且记忆深刻。比如笔者会拿平均值举例,某同学到一个公司找工作,公司负责人告诉他,该公司的月平均工资是5 000元,该同学一听很高兴,但到公司上班后发现每月只拿到2 000多元,这是为什么?其实该公司一共25人,有普通员工18人,月工资是2 000多,有主管5人,月工资是10 000多,还有2个部门经理,月工资是20 000多,这样该公司的平均工资就是5 000多。统计学上,平均值的物理含义是描述某一数据序列平均水平的量,这是基于数据序列呈正态分布的前提下。但是因为该公司的工资不呈正态分布,所以这时的平均工资根本代表不了该公司工资的平均水平。该同学不了解这一点自然吃亏上当。再比如某一同学研究东亚夏季风的爆发时间及其环流特征,研究发现东亚夏季风爆发时间集中在两个阶段,一个在4月中上旬,一个在5月中下旬,这时他将两个时段平均了一下,得到东亚夏季风平均在5月初爆发,然后从5月初的大气环流背景场上找东亚夏季风爆发的成因,怎么也找不到合适的解释。这是必然的结果,因为5月初恰恰正是东亚夏季风不爆发的时间或东亚夏季风比较弱的阶段。这位同学忽视了他所分析资料的非正态分布问题,随意地取平均值从而导致了研究的失败。

3 结语

在利用气象统计方法进行气象科研和预报工作中,资料是否符合正态分布问题非常重要,这一点值得注意。教师在教学中应对此进行强调和详细讲解,使学生能够更好地理解和认识其重要性。对于一些非正态分布气候要素(如候、旬降水量,降水日数,积雪日数,风速,旱涝指数和极端气候事件等),我们必须首先进行资料正态化数学变换(如对数变换、立方根变换和双曲正切转换等)使之变为正态分布的序列后再进行分析。

参考文献:

[1]魏凤英.现代气候统计诊断与预测技术[M].北京:气象出版社, 2009.

[2]黄嘉佑.气象统计分析与预报方法[M].北京:气象出版社,2000.

[3]施能.气象统计预报[M].北京:气象出版社,2009.

[4]曹杰,陶云.中国的降水量符合正态分布吗[J].自然灾害学报,2002,11(3):115~120.

猜你喜欢
正态分布气候气象
气象树
《内蒙古气象》征稿简则
大国气象
瞧,气候大不同
气候变暖会怎样?
美丽的气象奇观
基于对数正态分布的出行时长可靠性计算
正态分布及其应用
正态分布题型剖析
χ2分布、t 分布、F 分布与正态分布间的关系