多元分析中的多重共线性及其处理方法*

2012-03-11 14:01静△
中国卫生统计 2012年4期
关键词:共线性因变量回归系数

杨 梅 肖 静△ 蔡 辉

在医学领域研究中,变量间存在多重共线性的现象十分普遍,其结果可能导致治疗效果或暴露因素作用的估计产生偏性。研究者常常通过调整某些协变量或混杂因素来调整变量间的多重共线性,以评价某些治疗方法或暴露因素与疾病间的关系〔1-2〕。但这样不仅会损失掉信息,而且某些混杂因素难以达到治疗组间或暴露因素各水平间的平衡,降低检验效能,甚至使分析结果失真。不同的解决变量间多重共线性的统计学处理方法〔3-5〕均有各自的优缺点和适用范围,至今仍没有一种通用的解决方法。本文阐述目前常用的几种方法:岭回归、主成分回归、逐步回归、偏最小二乘法和倾向评分等,并阐述了各方法的优缺点以及这些方法的有效性和适用范围,以供研究者根据需要和数据特征选择合适的处理方法。

多重共线性的定义

“多重共线性”一词最早由R.Frisch于1934年提出〔6〕。共线性是指线性模型中两个自变量之间存在相关关系,而多重共线性是指线性回归模型中的两个自变量或者多个自变量之间由于存在相关关系而使模型估计失真或难以估计准确〔7〕。最初指模型中某些自变量线性相关。当自变量X1、X2…Xn满足k1X1+… +kiXi+ … +knXn=0,常数 ki(i=1、2…,n)不全为0时称为完全多重共线,是多重共线性的极端情况,在实际工作中较为少见;当自变量满足k1X1+k2X2+…+kiXi+Vi=0,Vi为随机误差项,称为不完全多重共线,变量间有某种关系但又不是完全的线性关系,这种情况是在医学研究中普遍存在的。

产生多重共线性的原因及其影响

一般多重共线性产生的根源有二方面〔8〕:一是自变量自身的性质,即两个或多个自变量间高度相关,与数据形式,样本含量大小无关。这时如果把这些自变量纳入模型前不对条件加以任何限制或考虑,很多时候得不到理想的结果,甚至导致错误的结论。二是数据的问题。各自变量间并不存在线性关系,但由于样本含量较小,小于模型中的自变量个数,也可能会产生多重共线性。如当样本含量为2(n=2),两点连成一条直线,易造成共线性。随着研究的深入,20世纪80年代后期研究者开始关注异常观测值对多重共线性的影响。Hadi〔9〕、Walker〔10〕等人研究表明,异常观测值会导致或掩盖多重共线性现象从而影响正确的参数估计。另外如果模型自变量是高阶单整时序变量,那么也会导致多重共线性,因为这种时序变量之间高度相关。

Yohanan〔11〕指出虽然回归模型拟合较好,但由于共线性的存在,会出现下列现象:某些回归系数通不过假设检验;或者某个自变量与因变量有很强的相关性,而在回归模型中该变量的回归系数却没有通过假设检验,导致错误剔除有用的自变量;再或者回归系数的符号与相关专业相反导致无法得到合理的专业解释等。因此,多重共线性的存在,会使模型与实际相差甚远。

多重共线性的诊断

消除或减少多重共线性的统计方法

处理多重共线性的方法很多,如增加新变量〔3〕、剔除不重要变量〔4〕、利用 Bayes技术〔5〕、数据分组处理算法(group method of data handling,GMDH)〔18〕、Lasso回归〔19〕、岭回归(RR)、主成分回归(PCR)、逐步回归、偏最小二乘法(PLS)以及倾向评分法(PS)等。这些方法在某些方面对多重共线性问题的解决起到了很好的作用,但在应用条件上或在结果解释方面都存在局限性。就目前常用的几种方法逐一介绍。

1.岭回归

Hoerl〔20〕1962 年提出,Hoerl和 Kennard〔21-22〕1970年发展了岭回归,岭回归是一种改进最小二乘估计的有偏估计方法。当自变量间存在多重共线性,自变量的相关矩阵X为奇异阵,X'X也是奇异的。岭回归技术从减少误差均方角度改善矩阵的奇异性,将X'X加上一常数矩阵kI,相应岭估计^β(k)=(X'X+kI)-1X'Y,(0<k<+∞),当k=0时,^β(k)为最小二乘估计;当k趋于+∞,^β(k)趋于0,因此k值不宜太大,不同k值估计得到不同的回归系数,再将不同k值时的回归系数连成一条曲线,所得的曲线称为岭迹。当岭迹趋于平稳,且回归系数没有不合理的符号时对应的k值即为所求〔23-24〕。薛美玉〔25〕进一步提出了广义岭估计^β(k)=(X'X+QkQ')-1X'Y,实质是将X'X加上不同常数矩阵QkQ'。但广义岭估计的计算量相当大。有学者认为〔26-27〕岭回归虽然不是无偏估计,但它通过对最小二乘法的改进对回归系数的有偏估计量进行补救从而显著增强估计的稳定性。其局限性在于无法进行一般的统计推断,且未知其精确分布,所得回归方程符合实际但效果稍差。此外,岭参数的选取和确定非常麻烦,偏倚常数k人为确定,带有一定的主观判断,因此不唯一。国内一些学者如王思珍〔28〕、汪明瑾〔29〕等人对确定k值的方法进行了一些探讨及推广,缩小了k值的范围,改进了Hoerl和Kennard的结果,但是对怎样才能完全逼近极值点,还有待进一步研究〔30-31〕。

2.主成分回归

主成分回归是Massy〔32〕于1965年提出的一种处理多重共线性的新参数方法,是建立在主成分分析思路上的一种有偏估计。其基本思想是首先将原自变量线性组合成若干个主成分,然后建立因变量与主成分的回归方程,再根据主成分与原自变量间的对应关系最后求得原自变量回归模型的估计方程。因转换后的各主成分间不存在共线性,从而消除了共线性的危害。

王惠文〔33〕、陈伟〔34〕和舒晓惠〔35〕等人对主成分回归消除共线性的有效性并不乐观,王惠文甚至认为利用主成分分析消除多重共线性实际上是一种错误观念。然而作为多元分析的一种常用方法,主成分回归具有一定的优越性,其降维的优势是明显的。在一定程度上会使得回归方程及参数估计更加可靠。但由于主成分回归只针对自变量去寻找有代表性的成分,可能造成选取的主成分虽可反映自变量的重要信息,但与因变量的关系却极小,而与因变量相关性极大、在自变量中所占比例小的成分有可能被删除。此时得到的回归方程反映真实情况的效果较差,且主成分一般不具有实际意义,使得模型很难对实际问题做出合理解释。赵海清〔36〕结合主成分估计和岭估计的思想和方法提出广义岭型估计,降低了均方误差,便于对原变量做出解释的同时大大减少了计算量。此外,一些学者将根据主成分思想改进的主成分条件logistic回归〔37〕以及主成分Weibull〔38〕回归模型应用于处理多重共线性问题,发现这两种改进的方法能减小部分偏回归系数的标准误并在提高回代符合率上取得了较为理想的结果。

3.逐步回归

逐步回归法是建立在多元回归基础上的一种思维方法和建模策略。其基本原理是从所有自变量中选择对因变量Y影响最为显著的变量建立模型,事先给定一剔选标准,每选入或剔除一个变量,都要对模型中和模型外的变量进行检验,对低于剔除标准或符合入选标准的变量都要重新考虑剔除或选入,以保证每次引入变量前回归方程中只包括显著性变量,反复进行,直到方程内没有变量可被剔除,方程外没有变量可引入为止。从变量间的相关系数矩阵可看出各变量间是否有相关关系,将高度相关的各自变量间进行比较,剔除对因变量影响较小的,保留影响较大的自变量,而被剔除的自变量对因变量的解释由与之高度相关的其他自变量承担,以消除多重共线性,这时所得的回归方程即最优回归方程。

逐步回归法在一定程度上克服了多重共线性,但模型F检验的检验水准α的选择带有主观性,不同α所得结果不同。且逐步回归分析一般需要较大样本,为此,肖筱南〔39〕提出了利用分阶段、分批逐步回归的方法处理小样本问题。谭启华〔40〕认为个别异常点对逐步回归分析的影响作用是不容忽视的,分析时要注意异常点的存在。于雷〔41〕认为加权逐步回归可更好地避免样本中可能存在的多重共线性造成的模型失真。针对逐步回归在消除多重共线性的同时,也可能删掉一些对Y有解析力的变量,张华嘉〔42〕提出一种方法,在逐步回归后,使每一前进(后退)步为一单元步,用F检验来判别这单元步的去留,使回归式子比逐步回归纳入更多的解析变量,同时能减低向后消元法产生多重共线性的可能性。汪仁宫〔43〕以传统逐步回归为基础,提出了基法逐步回归,认为该法既保持了传统逐步回归法的长处,也在一定程度上缓解了其局限性。在传统逐步回归法的基础上做多种形式的修正与推广,这有待进一步探索与分析。

4.偏最小二乘回归

Wold等人〔44〕于1983年首次提出,近年来,在理论和应用方面都得到了迅速的发展〔45-47〕。偏最小二乘回归根源于主成分分析和主成分回归,它的基本做法是分别在自变量X与因变量Y中提取出因子t和u,要求t和u应尽可能大地携带它们各自变异信息并且相关程度能够达到最大。在第一个因子被提取后,通过偏最小二乘法分别建立X对t的回归以及Y对u的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t解释后的残余信息以及Y被u解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对X共提取了k个成分,偏最小二乘回归将通过施行yk对X的这些成分的回归,然后再表达为Y与原自变量的回归方程式。

Wold〔48〕、Skuldson〔49〕和 Geladi〔50〕的研究均指出当多个因变量间以及多个自变量间存在严重的多重相关时,偏最小二乘回归是构造预测模型的一种有效方法。该模型只要选取的因子足够多,完全可以包容自变量系统的全部信息,因子的选择比较容易。从模型系数的解释能力来看,偏最小二乘回归最终得到整个自变量空间的线性组合,在充分考虑了单因素间的综合作用对预测值的影响下对因变量进行全面合理的解释。该方法对样本的要求较为宽松〔51〕,综合了多元线性回归分析、典型相关分析和主成分分析的基本功能,但也有一定的局限性,如动态多变量过程的模型建立等,尚待进一步研究。

5.倾向评分

1983年,Rosenbaum 和 Rubin〔52〕首次提出了利用倾向评分法来消除观察研究中混杂因素引起的偏倚。倾向评分法最初并未受到广大研究者的重视,直到20世纪末才被逐渐应用至临床试验评价、流行病学等领域〔53-54〕。倾向评分是指在给定观察协变量(xi)的条件下,研究对象i(i=1,…,n)被分配到特定处理组(Zi=1)或对照组(Zi=0)的条件概率,即e(xi)=pr(Zi=1|Xi=xi)或e(xi)=pr(Zi=0|Xi=xi)。假定在给定的一组特征变量Xi下,分组变量Zi是独立的,则:pr(Zi=z1,…,Z=zn|X1=xi,…,XN=xN)=

ΠN

i=1ezi

(xi){1 - e(xi)}1-zi〔54〕。也就是所有可观察的协变量在两组间(处理组与对照组)或多组间均衡性的一个近似函数。它通过调整各协变量在组间的分布差异从而提高组间的可比性。

倾向评分法是对传统多元回归方法的补充,若将其思想结合到传统方法中(如多元logistic回归),可以改善组间均衡性,而且不受协变量数量的限制,有助于减少偏倚和提高精度。但与随机试验相比,倾向评分仅控制了可观察的混杂因素。换而言之,偏倚的问题仍然存在。同时倾向评分在观察研究中往往在样本较大时效果更好,小样本中仍难以避免某些协变量间的严重失衡〔55〕。

消除或减少多重共线性的其他方法

蒋平〔56〕提出了在解决选择自变量和降低其相关性的问题上采用聚类回归分析能在一定程度上降低多重共线性,但是该方法首先要在动态聚类中给定一个参数k,而k是人为确定的,也就是说,该方法的主观性很强。而林乐义〔57〕提出了基于聚类分析和因子分析的方法也能够很好的消除多重共线性,并且还能改善某些消除共线性方法中过分剔除自变量的缺陷,使得某些重要变量能够保留下来。另外王玉梅〔58〕提出的不相关法,也能在一定程度上改善多重共线性。Oscar〔59〕曾指出差分法主要针对时间序列数据的样本可以较有效地消除存在于原模型中的多重共线性,但是同时也指出了差分法只有在很少情况下能够改善估计效应。当Cox模型中出现多因子共线性时,张丕德〔60〕提出首先应用因子分析法将多因子的信息分解为公因子和特殊因子两部分,然后对这两部分信息分别进行Cox模型拟合,这样两个模型互为补充,也可以避免信息的损失,使模型的解释更加全面。另外,曾繁会〔61〕用具体实例说明了神经网络(GRNN)也是一种可以将存在多重共线性的统计问题映射为线性可分问题来解决的方法。

展 望

在实际应用中,为了更全面分析问题,往往涉及到的相关变量较多,然而,较多的变量易造成变量间的多重共线性,进而严重影响参数估计,增大模型误差,把一些重要变量排除在模型之外,破坏模型的稳定性,给合理地分析问题和解决问题带来困难。各多重共线性处理方法本身也存在着许多亟待解决的问题。因此,迫切需要我们发展一些新的、适用性强,效果更理想的处理变量共线性的方法。将现有不同共线性处理方法有机地结合是个很好的思路,它能够综合利用各种方法的优点,提高模型估计的精度和准确性。如:结合主成分估计和岭估计的思想和方法提出的广义岭型估计,降低了均方误差的同时便于对原变量做出解释〔36〕。随着科技的发展,这些探索性方法必将在生物学和医学研究中得到检验。再者,共线性处理方法要与生物医学实际充分结合起来,根据医学实际情况选择变量共线性的处理方法。同时,我们认为应寻求新的思路和发展方向,如不相关法〔58〕、神经网络法〔61〕,来解决多重共线性问题等新方法。最后,优化及完善较成熟的方法,进一步探索与研究一些技术性方法,如Fabrycy〔62〕于1975年提出通过改变模型形式改变共线性等,将其应用到实际问题中,这些都将是对处理多重共线性问题的挑战。

1.Joffe MM,Rosenbaum PR.Invited commentary:propensity scores.Am J Epidemiol,1999,150(4):327-333.

2.Hosmer DW,Lemeshow S.Applied logistic regression.2nd ed,New York:Wiley,2000:31-43.

3.Lardaro L.Applied econometrics.New York:Harper collins,1992:441-464.

4.Schrocder MA.Diagnosing and dealing with multicollinearity.Western Journal of Nursing Reserch,1990,12(2):175.

5.Leamer EE.Multicollinearity:a bayesian interpretation.Review of Economics and Statistics,1973,55(3):371-380.

6.Frisch R.Statistical confluence analysis by means of complete regression systems.Pub.No.5,Economic Institute,Oslo University,1934.

7.陈希儒,王松桂主编.近代回归分析.合肥:安徽教育出版社,1987:217-278.

8.Chatterjee S,Hadi AS.Sensitivity analysis in linear regression.New York:John Wiley and Sons,1988:39-59.

9.Hadi AS.Diagnosing collinearity-influential observations.Computational Statistics and Data Analysis,1988,7:143-159.

10.Walker E.Detection of collinearity-influential observations.Communication in Statistics,1989,18(5):1675-1690.

11.Yohanan W.Collinearity diagnosis for a relative risk regression analysis:an application to assesment of diet cancer relationship in epidemiological studies.Statistics in medicine,1992,11:1273-1287.

12.Chatterjee S,Price B.Regression analysis by example.2nd ed.New-York:Wiley,1991:186-197.

13.Kenneth N.Tolerance and condition in regression copmputations.J of America Statistical Association,1977:863-866.

14.Stewart GW.Collinearity and least squares regression.Statistical Science,1987,2(1):68-100.

15.Farrar DE,Glauber RR.Multicollinearity in regression analysis:the problem revisited.Review Econmics and Statistics,1967,49:92-107.

16.Kendall MG.A course in multivariate analysis.Griffin:London,1957:68-86.

17.Silevy SD.Multicollinearity and imprecise estimation.J.Roy.Stasist.1969,31:539-552.

18.Ivakhnenko AG.Heuristic self-anization in problem of engineering.Cyberneties Automatiea,1970,6:207-219.

19.Tibshitani R.Regression shrinkage and selection via the lasso.J.Roy.Statistsocser,1994,58:267-288.

20.Hoerl AE.Application of ridge analysis to regression problems.Chemical Engineering Progress,1962,58:54-59.

21.Hoerl AE,Kennard RW.Ridge regression:biased estmiation for nonorthogonal problems.Techometrics,1970,12(1):55-68.

22.Hoerl AE,Kennard RW.Ridge regression:application for nonorthogonal prolems.Techometrics,1970,12(1):69-72.

23.Hadgn A.An application of ridge regression analysis in the study of syphilis data.Statistics in Medicine,1984,3(3):293.

24.陈峰主编.医用多元统计分析方法.第二版.北京:中国统计出版社.2006:46-48.

25.薛美玉,梁飞豹.广义岭估计参数的迭代算法.福州大学学报,2002,30(2):167-171.

26.栗丽,赵伟,王志福.在解决多重共线性问题上岭回归法比LS法的优越性.渤海大学学报(自然科学版),2006,27(2):124-126.

27.杨楠.岭回归分析在解决多重共线性问题中的独特作用.统计与决策,2004,3:14-15.

28.王思珍,李良臣,王维.岭选择指数及其应用.哲里木畜牧学院学报,1998,8(1):50-58.

29.汪明瑾,王静龙.岭回归中确定K值的一种方法.应用概率统计,2001,17(1):7-13.

30.何中市,何良才.岭回归估计K值选取迭代算法的收敛性定理和极限.应用数学学报,1994,17(1):59-64.

31.葛宏立,方陆明.无偏的岭回归迭代算法.数学的实践与认识,1997,27(4):320-326.

32.Massy WF.Principle Components Regression in Exploratory Statistical Research.JAmer Statist Assoc,1965,60:234-266.

33.王惠文主编.偏最小二乘回归方法及其应用.北京:国防工业出版社,1999:67-84.

34.陈伟.主成分分析法用于评价需注意的若干问题.人类工效学,2002,3(8):30-33.

35.舒晓惠,刘建平.利用主成分回归法处理多重共线性的若干问题.理论新探,2004,10:25-26.

36.赵海清,詹环.复共线性与广义岭型估计.大学数学,2009,25(3):31-34.

37.陈雄飞,董晓梅,汪宁,等.多因子共线性的主成分logistic回归分析.中国卫生统计,2003,20(4):212-215.

38.吴彬,罗仁,夏田俊.多因子共线性的主成分Weibull回归分析.中国卫生统计,2008,25:513-514.

39.肖筱南.小样本多元逐步回归的最优筛选分析.统计与信息论坛,2002,17:22-24.

40.谭启华,何大卫.异常点对逐步回归分析的影响.现代预防医学,1993,20(1):18-20.

41.于雷,郑云龙.逐步回归响应面法.大连理工大学学报,1999,39(6):792-796.

42.张华嘉,舒元.逐步回归分析的拓展.山大学学报(自然科学版),1998,37(5):11-14.

43.汪仁宫,刘婉如.基法逐步回归.数理统计与应用概率,1994,9(3):80-84.

44.Lindberg W,Persson JA,Wold S.Partial least squares method for spectrofluorimetric analysis of mixtures of humicacid and ligninsulfonate.A-nal Chem,1983,55:643.

45.Wegelin JA.A survey of partial least squares(PLS)methods with emphasis on the two block case.Seattle:Department of Statistics,University of Washington,2000:1-35.

46.Xu RJ,Liu HL,Chen NY,et al.An expert system for 16Mn steel industrial process designed by PLS method.Computers and Applied Chemistry,2000,17(1/2):50.

47.Wen X,Zhou WH,Liu XL,et al.Studies on phosphorus containing angiotensin converting enzyme in hibitors.Computers and Applied Chemistry,2000,17(1/2):13-14.

48.Wold S.Modeling data tables by principal component and PLS:class patterns and quantitative predictive relations.Analysis,1984,12:477-485.

49.Hoskuldson A.PLS regression methods.Journal of Chemometrics,1988,2:211-228.

50.Geladi P,Qkowlaski B.Partial least squares regression:A tutorial.Analytical chemical Acta,1986,35:1-17.

51.Wise BM,Gallagher NB.The process chenometrics approad to process monitoring and Fault detection.Jof Process Control,1986,6:329-348.

52.Rosenbaum P,Rubin D.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70:41-55.

53.李智文,刘建蒙,张乐,等.倾向评分配比在流行病学设计中的应用.中华流行病学杂志,2009,30(5):514-517.

54.D'Agostino RB.Propensity score methods for bias reduction in the comparison of a treatment to a nonrandomized control group.Statistics in Medicine,1998,17(19):2265-2281.

55.Rubin D.Estimating causal effects from large data-sets using propensity scores.AnnInternMed,1997,127:757-763.

56.蒋平,邢云燕,王芸,等.聚类回归分析在FMS加工质量分析中的应用.自动化技术与应用,2005,24(8):15-16.

57.林乐义,印凡成.基于聚类分析和因子分析消除多重共线性的方法.统计与决策,2008,8:153-155.

58.王玉梅.多重共线性的消除:不相关法.统计教育,2006,7:18-19.

59.Oscar R.The fallacy of differencing to reduce multicollinearity.American Journal of Agricultural Economcs,1987,69(3):697-700.

60.张丕德.Cox模型多因子共线性处理方法的进一步研究.中国卫生统计,2000,17(4):207-210.

61.曾繁会,李伟,吕渭济.多重共线性问题的神经网络实例分析.辽宁工程技术大学学报(自然科学版),2001,20(5):659-661.

62.Fabrycy MZ.Multicollinearity caused by specification errors.Applied Statistics,1975,24(2):250-254.

猜你喜欢
共线性因变量回归系数
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则