基于MATLAB的测量数据回归分析研究

2011-11-15 02:52赵奋军胡远新
采矿技术 2011年5期
关键词:假设检验置信区间正态分布

赵奋军,胡远新

(浙江省第七地质大队, 浙江丽水市 323000)

基于MATLAB的测量数据回归分析研究

赵奋军,胡远新

(浙江省第七地质大队, 浙江丽水市 323000)

阐述了回归模型的形式,从测量数据处理角度运用实例在MATLAB下从回归方程的假设检验和残差分布规律 2方面进行详细的分析,同时预测未观测的数据及其置信区间,减少了大量烦琐的计算,编程代码简单,从而使测量数据回归分析问题变的简单易行。

回归分析;假设检验;MATLAB;测量数据

回归分析是研究 1个变量 Y与其它若干变量 X之间相关关系的 1种统计推断法。它是在一组试验或观测数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式),寻找被随机性掩盖了的变量之间的依存关系。粗略地讲,可以理解为用 1种确定的函数关系去近似代替比较复杂的相关关系,这个函数称为回归函数,在实际问题中称为经验公式。回归分析所研究的主要问题就是如何利用变量 X,Y的观察值(样本),对回归函数进行统计推断,包括进行估计及检验与有关的假设等。

1 回归模型

1.1 一元线性回归

在一元线性回归中,有 2个变量,其中 x是可观测、可控制的普通变量,称为自变量或控制变量,y为随机变量,称为因变量或响应变量。通过散点图或计算相关系数判定 y与 x之间存在着显著的线性相关关系,即 y与 x之间存在如下关系:

其中未知参数 a,b及σ2都不依赖于 x,称为一元线性回归模型。ε为随机误差或随机干扰,是 1个分布与 x无关的随机变量,常假定其为均值为 0的正态变量。

建立一元线性回归模型的过程,就是利用一组观测数据 xi,yi(i=1,2,…,n)确定参数 a,b的最小二乘估计值 过程,进而得到 y关于 x的经验回归方程一元线性回归分析的任务就是要利用这组数据求出回归系数,,并对参数和方差进行估计,并对回归的效果进行显著性检验,从而接受回归模型,最后在把模型用于预测和控制。

1.2 多元线性回归

在实际的问题中,影响变量 y的因素往往不只1个,而包含多种影响的多个自变量 x。通常要研究 1个因变量 y与多个自变量之间的相互关系称为多元回归分析,其回归模型为:

其中 b0,b1,…,bm,σ2都是与 x1,x2,…,xm无关的未知参数,ε为互相独立的服从均值为 0,方差为σ2的正态随机变量。

建立多元线性回归模型的过程,就是利用一组观测数据 xi,yi(i=1,2,…,n),在最小二乘法原则下确定m+1个回归参数 b0,b1,…,bm的估值的过程,即得到m元经验线性回归方程。多元线性回归分析的过程与一元线性回归分析类似,即把 b0,b1,…,bm作为未知数,令 X=[I xi],i=1,2,…,m作为已知系数,把多元回归模型表示成线性方程组的形式 y=X*[b0b1… bm]T,然后采用一元线性回归分析的方法进行参数的估计以及回归效果的假设检验。

1.3 非线性回归

自变量与因变量之间的关系并非都是线性的,常常会出现非线性关系。解决这种非线性回归问题,一般都是通过变量的变换化为线性回归问题:即把曲线方程化为直线方程。当把非线性模型化为线性形式以后,就可以采用线性回归分析方法。建立非线性回归模型的过程:通过适当的变量替换将非线性关系线性化;用线性回归分析方法分析新变量下的线性回归模型,求出未知参数的估计值,得到非线性回归方程,并对其做相应的显著性检验,从而验证模型的严密性;通过新变量之间的线性相关关系反映原来变量之间的非线性相关关系。

2 实际应用

结合文献[1]中的实验数据,就测量数据回归分析进行讨论。按观测数据 (xi,yi)的对应关系在MATLAB中绘出其散点图,确定回归模型。由MATLAB中的散点图可知这些点成直线关系,故可以用线性模型进行回归分析。

首先在MATLAB的M文件中将观测数据 xi和yi表示成向量的形式,把回归模型 y=a+bx表示成线性方程组的形式,令 X=[I xi],系数 a和 b为未知数。现将主要步骤的部分代码及结果分析如下:

用回归分析函数 regress:[B,B int,R,R int,Stats]=regress(y′,X,0.05),其中函数 regress采用的是最小二乘法进行的回归分析,B为返回回归模型的系数 a和 b的最小二乘估值,满足无偏性;B int得到回归系数 a和 b的置信区间;R为观测数据的残差值,R int为各残差值的置信区间;Stats得到回归分析拟合优度系数值和 F检验值以及其对应的概率 P值,显著水平α=0.05。

F检验值是按照 F=U/(Q/(n-2))进行计算得到的。F≈Fα(1,n-2),在显著水平α下,若 F>Fα(1,n-2),则认为回归方程效果在此水平下显著;反之则认为方程效果不明显。

计算后得到的结果见表1。实验数据的残差值:R=[-1.0909 1.4727-0.9636 0.6000 2.1636-1.2727 -1.7091 0.8545 0.4182 -2.0182 1.5455]。实验残差值的置信区间:R int=[(-4.0065,1.8247), (-1.5249,4.4704),(-4.2261, 2.2989), (-2.8096, 4.0096),(-0.8747, 5.2019), (-4.6362, 2.0908),(-4.9274, 1.5092), (-2.5201, 4.2292),(-2.9174, 3.7538), (-4.8053, 0.7689),(-1.2356,4.3265)]

表1 参数估计及假设检验计算结果(α =0.05)

残差及其置信区间如图1所示,由此可以确定残差落在其置信区间内的大致位置,也可以观察残差的分布变化的趋势,残差图越散乱代表模型的适配越好。

图1 残差及其置信区间

方差σ2的无偏估计:,反映了回归直线拟合的程度。

3 假设检验

上面的计算过程都是在假定 y与 x呈现线性相关关系的前提下进行的,若这个假定不成立,则建立的回归直线方程也失去意义,为此必须对 y与 x之间的线性相关关系作假设检验。

(1)F检验 (方程显著性检验)。其以方差分析为基础,是对回归总体线性关系是否显著的一种假设检验,是解释模型中因变量与所有自变量之间的线性关系在总体上是否显著的方法。返回 F=96.1798,作原假设 H0∶b=0的检验统计量,当 H0为真时 F的值不应太大,故对选定的显著性水平α=0.05下查表 ,Fα(1,9)=5.12,则 F>Fα(1,9),故拒绝原假设 H0,认为建立的回归方程有显著意义。

通过 F检验得到回归方程有显著意义,只能说明 y与 x1,x2,…,xi之间存在显著的线性相关关系,但还不能确定影响 y的因素除了 x外是否还有 1个或几个不可忽视的其他因素,也不能表明这个回归方程拟合的很好,而衡量回归方程与观测值之间拟合好坏常用回归分析拟合优度系数检验。

通过 F检验和回归分析拟合优度检验都验证了 x与 y间存在显著的线性相关关系,而线性相关程度有多大则需要用γ相关系数检验 (γ检验)。

(3)γ相关系数检验 (γ检验)。γ相关系数反映因变量与自变量的本质联系,即 x与 y间线性相关程度。用γ对原假设 H0∶b=0进行检验,用函数corrcoef实现 [r,P,rlow,rup]=corrcoef(x,y),按照公式 Cov(x,y)/sqrt(D(x)×D(y))计算得到,返回相关系数值γ =0.9563,P为 x和 y不相关的概率值,P=0,rlow,rup分别代表相关系数γ在 95%置信区间上限值和下限值,rlow=0.8359,rup=0.9889。γ值与γα(n-2)比较 ,γ >γα(9)=0.6022,拒绝原假设,故认为回归效果显著。

4 回归效果分析

4.1 残差分布规律测试

从残差的分布规律及对其均值的检验的角度出发,对回归效果进行分析。由残差分布的规律知道残差必须服从零均值,与样本同方差的正态分布,故需对计算得到的残差是否服从正态分布进行测试。

(1)残差正态分布测试。[h,p,j,cv]=jbtest(R),在显著性水平为 5%下,h=0表示接受残差的分布为正态分布的假设,h=1表示拒绝原假设,P为接受假设的概率值,P越接近于 0,则可以拒绝是正态分布的原假设;测试统计量的值 j大于接受假设的临界值 cv表示拒绝假设。返回结果为 h=0,p=0.5039,正态分布检测值 j=1.3708,检测的临界值 cv=5.9915。由测试的结果可以看出接受原假设,即残差的分布符合正态分布。

(2)参数估计。因为残差服从正态分布,故可以进一步利用残差值求出其均值μ和标准差σ的点估计值和区间估计:[muhat,sigmahat,muci,sigmaci]=nor m fit(R,0.05),表示在显著性水平为5%下求残差 R的均值 muhat和标准差 sigmahat的估计值,muci,sigmaci分别为其对应的置信区间。返回均值 muhat=1.1304e-015≈0,置信区间 [-0.9790,0.9790],标准差 sigmahat=1.4573,置信区间为 [1.0182,2.5574]。

(3)假设检验。因为ε~N(0,σ2),则必须对残差ε的均值进行假设检验,看是否能够接受其原假设 H0∶μ=0,备择假设 H1∶μ≠0的检验。残差的方差未知,故利用 T检验法:[h,sig,ci,tstat]=ttest(R,0,0.05),在显著性水平为 5%下对残差 R的均值μ进行 T检验,h=0表示接受原假设,h=1表示拒绝原假设;sig在假设 H0下残差均值出现的概率,sig越小 H0越值得怀疑;ci为真正均值μ的 1-α置信区间;tstat返回 3个值:T统计量的值、自由度和残差标准差。返回计算的结果如下:h=0,sig=1,ci=[-0.9790,0.9790],tstat:T统计量的值 T=2.5727e-015≈ 0,自由度 df=10,标准差 sd=1.4573。说明接受残差的均值为 0的假设。

最后在求得的残差均值和标准差估计值下绘制残差的正态分布,如图2所示,可以更加直观的确定残差的分布规律,它是符合线性回归模型所要求的残差序列须服从与样本等方差的正态分布。

图2 残差ε~N(0,σ2)正态分布

4.2 未观测数据预测及区间估计

经过假设检验验证了 x与 y的回归效果显著后,就可以把回归方程运用于实际生产的预测与控制。在实际应用中,若因变量 y比较难观测,而控制变量 x却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测 x就能求得 y的估计和预测值,这是回归分析最重要的应用之一。

该预测问题即对 x的可取值范围内的任一个x0,作出 y的相应估计值 y0。所谓控制,是指通过控制 y的值以便确定 x的范围,是预测的反问题,即观测值 y在某区间 [y1,y2]内取值时,x的控制范围。

现选取一些预测点 x0=[6,7,8,9,10],在MATLAB中很快的可以得到其相应的预测区间,并对回归值 y0精度给出 1个预测值的置信区间。计算数据见表2。

表2 数据预测

上面的线性回归分析分别从回归参数的假设检验和残差分布规律的验证角度 2个方面考虑分析,更全面的检验了回归模型的可行性,同时对未观测的数据也给出了预测和区间估计。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题都可以借助数学手段化为线性回归问题来处理。

5 结 论

在回归分析中,回归模型采取何种形式,在没有对所讨论问题进行全面考察的情况下是很难肯定的。通常回归模型受到各种因素的限制,但是模型选取的原则一定是最优的。具体选取时应首先要结合具体的专业理论和经验给出因变量可能受影响的自变量,也可以在相关的软件中把数据点描绘在坐标系内,根据观测数据的散点图分析其大致变化趋势,然后确定回归模型。而在MATLAB中对回归模型进行回归分析拟合验证是非常方便的,其合理性也在本文得到论证。

[1] 刘大杰,陶本藻.实用测量数据处理方法[M].北京:测绘出版社,2000.

[2] 盛 骤,谢式千,潘承毅.概率论与数理统计 (第三版)[M].北京:高等教育出版社,2000.

[3] 姚 东,王爱民,冯 峰,等.MATLAB命令大全 [M].北京:人民邮电出版社,2000.

[4] 张志涌.精通MATLAB 6.5[M].北京:北京航空航天大学出版社,2003.

2011-06-15)

赵奋军 (1977-),男,陕西凤翔人,工程师,主要从事基础测绘和工程测量的研究和生产。

猜你喜欢
假设检验置信区间正态分布
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
假设检验结果的对立性分析
列车定位中置信区间的确定方法
基于对数正态分布的出行时长可靠性计算
统计推断的研究
双幂变换下正态线性回归模型参数的假设检验
正态分布及其应用
统计学教学中关于假设检验问题探讨