历史上的平均数、中位数和众数

2016-08-23 10:08徐传胜
关键词:平均数中位数观测

徐传胜

大千世界充满着不确定性:明天晴否?成年后你身高多少?下次数学考试成绩如何?将来从事何种职业?和谁结婚生子?等等。从远古时代起,估计各种可能性就是人类的一件要事。为研究不确定性。人们开始了数据统计以及数据分析,以求对自然和社会现象作出较为客观的近似估计。原始数据的提炼应尽可能抓住事物的本质特征。这就有了统计量。反映研究对象集中程度的统计量主要有平均数、中位数和众数。它们都已有较长的历史。

一、平均数

平均数的应用很多,不过它最早是用来估计较大的数据。约公元4世纪。印度有棵枝叶茂盛的大树,某人想估计其果实的数目。他首先计算了根部一条细枝上果实的数目,再数出整棵大数的细枝的数目,然后将两数相乘得到估计值为2095。尽管不能确定他如何选择那条细枝,但猜测他应该是选择了一条具有平均大小的细枝。类似地。我们可以估计某市某街道一天通过的车辆数。也可以估计我们掌握的英文单词数量。

天文学的发展促进了统计学的发展。也使得平均数更有用武之地。1585年,荷兰数学家斯蒂文(1548-1620)系统地探讨了十进制记数法,并发明了小数。这就为平均数推广到n个数的情形提供了便利。当时,天文学家需要计算多个观测值的平均数。以便把误差降低到较小的程度。最为典型的是,丹麦天文学家第谷(1546-1601)把对观察数据分组的技巧引入了天文学。1572年11月11口,第谷发现了仙后座中的一颗新星。后来。他受丹麦国王的邀请,在汶岛建造了天文观象台。经过20年的天文观测,第谷发现了许多天文现象,其观测精度之高,令同时代的学者望尘莫及。比如,为获得某天文学数值的估计量,他先从1582年的天文观察数值中。挑选了3个数据;又把1582年至1588年的24个数据,两两任意分组,分别求出其平均数,得到12个数据;最后求出所得的15个数据的平均数,作为真值估计。第谷所编制的恒星表相当准确,至今仍有学术价值。开普勒(1571~1630)就是在第谷天文观测数据的基础上。发现了行星运动的三大定律。

英国科学家、数学家哈雷(1656-1743)的名字永远和哈雷彗星联系在一起。1705年,他根据天文观测数据。发现了一个彗星的运动周期,预言其将于1758年返同地球。虽然哈雷没能亲眼看到预言实现,但1758年彗星再次照亮了夜空!哈雷在处理数据方面也有特色才能。他根据统计数据得出布雷斯劳市一些人口方面的结论:平均每年出生1238人,其中平均有348个婴儿不到1岁就夭折,平均有692人的寿命为70岁;平均每年有1174人去世等。

英国天文学家、数学家辛普森(1710-1761)是个自学成才者。他试图推广天文学界计算平均数的方法,但并不为人们所接受。辛普森证得。若以观测值的平均数去估计真值。误差将比单个观测值要小。而且随着观测次数的增加误差会进一步减小。同学们不妨考察投掷硬币的情形,就会理解这是一个很了小起的研究成果。

1809年,高斯(1777-1855)在、《天体运动州论》中指出:在相同条件下,对研究对象通过几次直接观测,则观测值的平均数提供了其最可靠的取值,即使不太严格。但至少十分接近真值。现在,高斯的这个观点几乎被看作公理。广泛应用于自然现象和现实社会之中。

二、中位数

据史料记载,中位数的第一次应用是应用于航海。大海航行中指南针是个重要工具,其用来确定轮船在海上的位置。由于海浪的影响,指南针观察数据会有很大的差异。而尽可能保证数据的准确性则很重要。1599年。爱德华·赖特描述了他确定指南针位置的方法。他把所有指南针观察值列成一个表格。在各个不同的数据中。位于最中间位置者最可能接近真实值。

中位数几乎是作为平均数的替代品而出现的。1924年。费希尔(1890-1962)借助于天文学的方法,应用中位数来描述社会和心理现象。他1912年毕业于剑桥大学。是英同统计学家、生物进化学家、数学家、遗传学家和优生学家,被誉为现代进化论的首席设计师。他创立了雌雄双方生物性状互相促进的进化理论,是达尔文(1809-1882)之后最伟大的生物进化学家。

1882年,高尔顿(1822-1911)第一次他用“中位数”术语,取得了统计观念上的突破。但其研究对象几乎都是对称的,故中位数和平均数没有太大的区别。高尔顿是达尔义的表弟,深受其进化论思想的影响。他从遗传角度研究个别差异的形成原因。开了优生学的先河。1889年,高尔顿在研究祖先与后代身高之间的关系时发现了有趣的“回归现象”。高尔顿搜集了1078对父与子的身高数据。他发现,当父亲高于平均身高时。其儿了比父亲矮的可能性大;父亲矮于平均身高时,其儿子比父亲高的可能性大。可见神秘的人自然具有一种约束力,使人类身高相对稳定而不致于产生两极分化。类似的“回归现象”还有很多。如期中考试得高分的一组同学在期末考试中的平均分会有所降低。而期中考试分数低的一组同学期末考试的平均分会有所提高。

与高尔顿同时代的艾德沃斯(1845- 1926)发现平均数对极端值具有敏感性,因此选择以中位数代替平均数。这可能源于艾德沃斯对经济学的研究,因为其中大多是一些不规则的数据。中位数对极端值不敏感。比如,目前我国高收入者较少,低收入者较多,若按平均数计算,平均收入会低于中间收入。随着统计学越来越涉及不规则的数据,中位数的应用已日趋广泛。

三、众数

众数是具有集中趋势特点的一个数值,是一组数据中出现次数最多的数据。众数一般用M表示。缘于其英文第一个字母。

同学们是否知道战争也能促进数学的发展?第一次众数应用的实例就出现在古希腊的伯罗奔尼撒战争之中。这是以雅典为首的提洛同盟与以斯巴达为首的伯罗奔尼撒联盟之间的战争。战争从公元前431年一直持续到公元前404年,双方曾几度停战,最后斯巴达获胜。公元前428年冬。普拉铁阿人被伯罗奔尼撒人和皮奥夏人包围了。前者很快出现了粮食短缺,此时雅典人的援助已经无望,也没有安全突围的方法。无奈之下,普拉铁阿人计划冒险突围,他们打算做梯子,然后翻过城墙。这就要求梯子的高度须与城墙高度一样。为此可以通过数城墙上上砖块的层数来计算城墙的高度。在那段时间里,小少人数出了砖块的层数,但有些人可能数错了,不过大多数人可能得到了一个真实的数日。他们选取这些数据中的众数。从而设计出梯子的高度。最后成功突围。

现在投票选举已司空见惯。如同学们选举班干部、优秀学生等。民主选举的规范形式是差额选举。让选民择优选择。易见当一组数据呈现明显集中的趋势时,宜采用众数作为代表,并且众数还是一个衡量非数字类型数据的统计量。

我们现在处于大数据时代。人人都淹没在数据的海洋之中。当分析一组数据时,可获得大量的信息。人们期望据此来了解和推断总体的特性。不过,从样本数据推断总体的性质时可能会出现一些错误。比如在19世纪,有些科学家对罪犯头颅的大小进行了研究,试图找出其头颅大小或形状与常人的差异。再如过去100多年间。智力测验成为了一项专题研究,人们期望由此发现天才学生。这些以偏概全的做法,现在都已被淘汰。

猜你喜欢
平均数中位数观测
观测到恒星死亡瞬间
加权平均数的应用
中位数计算公式及数学性质的新认识
天测与测地VLBI 测地站周围地形观测遮掩的讨论
可观测宇宙
高分辨率对地观测系统
导学案不能沦落为“习题单”:以“中位数和众数”的导学案为例