应用统计学在大数据背景下的应用与创新

2022-01-01 16:26中国人民大学孙乙丹

区域治理 2021年17期

中国人民大学孙乙丹

最初的统计学知识对各类数据按照信息需求者的要求整合并描述，统计学经过发展，已经融合了相关数理理论，逐步成为具备一定理论价值和独特研究方法的统计学科。统计学距今已经有三百多年历史，逻辑框架极为严谨。随着近年来计算机和互联网的普及，给统计学带来了颠覆性进展，各种统计推断模型和方法以及数理统计等对统计学发展具有推动作用，统计学随着大数据的发展，逐步渗透到各领域。

一、不同阶段统计方法发展概述

（一）统计学方法的萌芽

在之前的统计实践中，仅仅局限于实物阶段，对事物简单记录和统计。统计学研究的内容上分为政治算数和国术两个学派。这两大统计学派的诞生，促使统计学除了计数功能外，增加了更多的实用功能。同时它们还对统计学理论有了更深一层的概括，将不同的统计实践概括成了比较成熟的理论。可以说，这两大学派使得统计知识更加系统和完备。在这之后的很长一段时间，两大学派互相争论，两大理论互相碰撞，也是传统统计学的雏形。

（二）统计学方法的关键发展

1.概率论—统计学的基石

（1）初期概率论

上文提到的在政治算术学派和国势学派的争论时期，有的数学家通过博彩业中出现的大量问题，提出概率论。随着时代的发展，逐步衍生了组合、递推、条件概率等，这些公式、理念的提出促使概率计算从最原始的技术进入较为高精的阶段。概率论最初与统计学关联度并不高，随着数学分析等数学理论融合概率论，概率论具备了数学的严谨性，提高了适用性，进一步扩大了与统计学的关联程度，也扩大了应用范围。

（2）大数定律

英国数学家将赌博中的现象理论化并提出伯努利定理，也是大数定律的最初模型，初期的统计学方法和理论都是建立在该理论基础上而形成的。

（3）中心极限理论

中心极限定理于17世纪30年代被提出，历经了200年，于上世纪30年代才完成，论证了独立变量和中心极限理论。概率论中的中心极限定理在样本量为N→∞时，极限分布呈现正态方式，也是数理统计学中的大样本方法基础。

（4）随机过程

概率论从最初的静态变量发展为随机变量时间序列，在发展到随机变量过程中还不断深入研究概率论的应用范围，随机变量实现了静态到动态的重大研究发现。随机变量描述了时间推进过程中变量运动情况，并对结果进行判断和决策，促进了数学和非数学领域得以延展，具有一定的突破性和实用性。

2.数理统计的提出与发展

“逆概率”是二项分布概率P的新问题，也是大数据定律和中心极限定理衍生出的数理统计，统计推断包括频率和贝叶斯两个学派。频率学派是将所推断的参数θ假设为固定的未知常数，样本χ属于随机任意数，重心放在样本空间。贝叶斯学派则将θ假设为随机变量，样本χ为固定常数，重心放在参数空间。贝叶斯学派是贝式统计理论发展而来的，以概率为基础研究“逆概率”理论。在样本量较少，参数模型不多的前提下，贝叶斯较频率方法更加便捷，因为可省去抽样分布工作步骤。如果先验分布设定存在困难，在没有参数模型的前提下，则频率方法更加便捷。统计学中的概率理论和实践过程中的各类数据在数理统计作用下可以结合，可反向推导统计参数，为统计学样本的概率作出预测、控制和分析而夯实基础。

（三）统计学方法在大数据时代的应用

传统统计方法需要人工收集数据并按照数据要求进行整合，数据主要来源于实地调查或者其他渠道获得，数据获取难度较大，统计过程中多以抽样为主，且统计分析方法基于因果关系，是通过部分数据推测整体的事物分布的统计学科。随着大数据的发展和计算机互联网的普及，数据获取、储存更加便捷，统计数据实现云计算，实现大数据智能分析。统计学仍以数据为基础，大数据提高了统计学的统计效率。大数据为背景的数据具有高效性、大量性和多样性特点，弥补了传统统计的高成本和高误差的不足。但大数据的一些聚类、搜索以及分类离不开统计学的理论方法。大数据背景下统计学可以实现机器学习，也是计算机和统计方法的融合，彰显人工智能对数据的处理能力。机器学习是基于统计学概念和理论的，拓展了统计学范围，提高了统计学的应用价值。

1.概率论方法的应用

统计学在人工智能发展中主要应用自然语言处理，使机器具备人的思维能力，来完成自然语言处理，统计学运用于自然语言处理打破了传统思想禁锢。随着大数据的应用，数据量加大，计算能力有所提高，统计学中的语言模型已经演变为自然语言处理，一些语音识别、手写体识别、汉字输入等技术被广泛应用。统计学中的语言模型是根据语料库对单词出现概率进行估计，系统会自动选取出现的概率大的当做输出对象。因此，统计语言模型是自然语言处理方法中最有效的一种。

2.贝叶斯统计理论方法的应用

贝叶斯统计理论衍生了朴素贝叶斯分类器，可以对条件概率分布作出独立性假设。朴素贝叶斯法进一步对自变量、因变量进行估计，贝叶斯公式对给定的输入χ，对条件概率分布和先验概率模型作出后验概率分布，假设后验概率确定为χ类，通过贝叶斯定理可以得出模型的估计。朴素贝叶斯模型在分类问题中对结果概率评估具有一定优势，随着贝叶斯统计理论的发展，其分类模型以及衍生的领域在医疗诊断和文本分类领域应用广泛。

3.回归分析方法的应用

首先是线性模型法，是对变量之间存在的线性关系进行预测，ƒ（χ）=w1χ1+w2χ2+……+wdxd+b,模型在小二乘法w1，w2……wd，b后证实确定。回归分析模型中，线性模型是机器学习所有回归问题的基础，具有易于掌握的特点，因此，w的分量大小在预测中突出了属性的影响力。机器学习中，变量间的关系用线性无法表达时，可选用核函数变量补充处理，回归问题中线性模型是应用中最广泛的一种方式。回归问题中还能对线性判别模型进行分析，运用降维方法在监督学习中运用。

其次，逻辑斯蒂回归模型回归问题中，线性回归模型可以在分类过程中将分类作出标记，运用可导函数γ与预测出的回归模型相联系，促使回归模型转化为分类模型。逻辑斯蒂函数y=1/1+е-Χ作为替代函数，并用预测结果估计对数概率。同时可以实现预测类别，对近似概率实现预测，在辅助决策的事物中可以应用近似概率。

4.多元统计分析方法的应用

主成分分析在多元统计分析中最为常见，是机器学习中一种比较常见的降维方法。在一些超大量数据处理的场景中，太多变量出现容易影响和扰乱模型运行效率和准确率。这种情况需要减少变量个数，在此基础上得到最全面的信息，这是主成分分析领域的基础思想。因此通常根据最大方差思想来处理变量中最关键、最重要的信息。一般情况，在面对海量数据时，尤其这些数据还呈现出比较典型的特征时，这种思想能起到化繁为简的重要作用，同时也会降低模型后期的运算消耗。

多元统计分析衍生出的聚类分析处于初期阶段，该分析方法主要是根据一种分类方法把没有分类的变量根据一定规律使其相似部分归为一类。具体包括系统、图论、有序样品、模糊等方法，根据度量法划分为多个类别数据集，在多元统计分析中，具有一定相似性的数据归为一个类别，而类别之间的数据具有存异性特点，在数据处理和提取中有一定分析优势，也是多元统计的一大特点。

二、国内外对于统计方法的研究趋势

（一）国内外统计学方法及相关领域的动态分析

根据CIKI数据库有关机器学习、统计方法、大数据领域等文献发表，可以证实，10年前有关机器学习领域的论文不多见，2016年，统计方法领域的论文数量攀升至最高点。大数据领域的相关文献数量增长，并且增长速度一直居高不下。从文献内容上可以看出当前我国大数据发展势态，更为明显的是，增长速度已经超越了传统统计方法，进入了全新时期。

从WOS核心分析机器学习、大数据以及统计方法研究相关文献数量来看，2012年以来相关文献发表较多。值得注意的是，机器学习领域论文数量从2016年开始超出统计方法数量，这两个领域的论文数量一直高于大数据领域。在我国，这两个领域的论文相关观点和理论阐述与国际先进水平相比仍有上升空间，表明我国该领域还需不断创新研发，提高各项技术水平。

（二）国内外统计学方法及相关领域的研究方向分析

为了进一步证实统计学方法以及大数据领域发展防线，通过CNKI数据库搜索引擎对该领域有关的关键词进行查找分析，运用专用图谱软件，结果显示，统计方法领域“统计分析”“主成分分析”等词汇出现频率较高，而大数据领域“数据时代”“云计算”等关键词汇出现频率较高。通过上述关键词中不难发现当前国内统计和大数据领域的研究特点，可以判断出两种统计方向有部分重合的区域，大数据需要统计学方法作辅助，统计学方法需要大数据作为数据支撑。

三、统计方法发展展望

可以说，世界上有数据的地方就有统计学的存在。统计学从17世纪发展到今天，经历了诸多变革，内容和理论也在不断更新完善，应用的领域也在不断扩大。大数据时代已经来临，大数据和统计学具有互补性，大数据背景下统计学应具备智能化特点，借助当前信息发展不断创新统计学方法。我国统计学和大数据技术与国际相关领域对比，都倾向于数据分析和发掘方向。因此，应鼓励统计方法与新技术进行融合，促进统计方法在大数据背景下发挥作用。