多重共线性的有偏回归方法的实例比较

2014-12-23 12:17
科技视界 2014年21期
关键词:共线性因变量回归方程

周 鑫

(南京晓庄学院,江苏 南京 210000)

1 问题提出

在多元线性回归模型中,如果解释变量之间存在着密切的线性相关关系,就称它们之间存在着多重共线性。在出现多重共线性情形时,普通最小二乘估计不再适用;回归参数的估计值方差会很大,从而影响自变量对因变量的解释;估计的精度会降低;估计的效果也会变坏。在实际经济问题的多元回归分析中,多重共线性的现象很多,这时我们就应该寻找另外的回归方法对参数进行估计。

2 方法介绍

目前,处理多重共线性问题的三种有偏回归方法主要是:主成分回归(PCR)、岭回归(RR)和偏最小二乘回归(PLS)。主成分回归是通过对解释变量先进行主成分分析,综合提取出自变量的少数几个互不相关的主成分,而后建立因变量与主成分的回归关系式,最后再还原成关于原来自变量的回归方程的一种方法。岭回归是利用岭估计(X′X+kI)-1X′Y 来替代普通最小二乘估计(X′X)-1X′Y,从而消除了普通最小二乘估计中矩阵X′X 无法求逆的问题。偏最小二乘回归是先在自变量集和因变量集中分别提取第一潜在因子t1与u1,其中t1与u1分别是自变量与因变量的线性组合,要求t1与u1尽可能多地提取所在变量组的变异信息,且t1与u1的相关程度达最大,然后建立因变量与t1的回归方程,若回归方程不能达到满意的精度,则继续提取第二潜在因子,否则停止。

这三种有偏回归方法在处理多重共线性问题上到底效果如何,以下将通过两个实例来进行比较分析,并从预测均方误差PE2=E(y-(y)T(y-(y)和调整的复测定系数R2两方面分别比较三种方法所得出的回归模型在预测方面的优劣性和拟合效果好坏。

3 实例比较

(1)为了研究我国职工的平均工资,需建立以职工平均工资指数为因变量y,以国有单位货币工资指数x1、城镇集体单位货币工资指数x2、其他单位货币工资指数x3为自变量的回归方程。据《中国统计年鉴》收集了1990-2005年的数据如下:

利用统计软件SAS 作统计分析可得,用普通最小二乘估计求得的回归方程为:

y=-8.32578+0.74950x1+0.34291x2-0.01296x3

显然,x3前系数符号与实际不符,而且x3的条件指数为132.48232,说明多重共线性问题严重,用主成分回归、岭回归、偏最小二乘回归分别来处理,可得:

从表格中可看出,PE2(PLS)<PE2(PCR)<PE2(RR),说明在模型的预测方面,PLS 的精度最高,PCR 次之,RR 最差;而R2(PLS)>R2(PCR)>R2(RR),说明PLS 拟合原数据的效果最好,PCR 其次,RR 较差。

(2)为了建立中国粮食生产函数的回归模型,以粮食产量为因变量y(万吨),以影响其主要因素:农业化肥施用量x1(万千克)、粮食播种面积x2(千公顷)、成灾面积x3(公顷)、农业机械总动力x4(万千瓦)、农业劳动力x5(万人)为自变量建模。根据《中国统计年鉴》,查得以下相关数据:

在SAS 软件上求解可得,自变量x1,x4的方差膨胀因子分别为16.30926 和16.64266,这两个值都大于10,说明存在很强的多重共线性问题。下面是用PCR、RR、PLS 处理的结果:

从表格中可看出,PE2(RR)<PE2(PLS)<PE2(PCR),R2(RR)>R2(PLS)>R2(PCR)。说明在此例中,无论是从模型的预测精度方面,还是从拟合度方面,RR 都优于其他两种方法。

4 总结

从以上两例可以看出,这三种有偏回归方法都可以处理多重共线性问题,但我们不能说哪种方法一定优于其他方法,因为我们考虑问题的角度和研究问题的目的往往不同。有时我们只从预测角度考虑;有时只从拟合角度考虑,而不考虑模型的经济意义;有时希望模型还能给出合理的经济解释。另外,需要指出的是,在这两个例子中,自变量的个数都较少,用三种方法建立的回归方程都包含了所有的自变量。如果碰到自变量个数较多的问题,最好在进行回归建模之前,先进行自变量的筛选,而后再用这几种方法求解。

[1]高惠璇.实用统计方法与SAS 系统[M].北京:北京大学出版社,2001.

[2]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998.

猜你喜欢
共线性因变量回归方程
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
采用直线回归方程预测桑瘿蚊防治适期
银行不良贷款额影响因素分析
文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例
走进回归分析,让回归方程不再是你高考的绊脚石
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
不完全多重共线性定义存在的问题及其修正建议
偏最小二乘回归方法
回归分析中应正确使用r、R、R23种符号
诊断复共线性的特征分析法及其在GEO定轨中的应用