文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例

2019-07-13 01:45陈军

长沙航空职业技术学院学报 2019年2期

陈军

（新疆师范大学商学院，新疆乌鲁木齐 830017）

在多元线性回归中，通常采用OLS（最小二乘法）作为估计回归模型参数的方法，但需满足若干基本假定，包括关于变量和模型的假定和关于随机扰动项统计分布的假定。其中假设之一就是解释变量间不存在多重共线性，但在实际研究中，模型中的解释变量间往往存在不同程度的共线性问题，对此情形需要进行相应的消除解决，再行应用OLS。多重共线性的内容在“统计学”“计量经济学”课程中都有涉及，也是教学中的一个重点和难点。在教学实践中，一般采用定义数学方程、矩阵等讲授，但涉及数学知识点多，理论讲解相对费时，如果学生数学基础不扎实，那么对这部分的内容理解起来就相对吃力。通过引入文氏图，可有助于这部分内容讲解和学生的理解。

文氏图属于集合论数学分支，用于展示不同集合（群组）之间的数学或逻辑关系，常被用于集合（类）运算。一般用矩形框表示论域，矩形框的内部区域即论域范围，可视为全集，即所有可能事物的空间。单个集合用圆或椭圆表示，若两个圆或椭圆相交，相交部分则是两个集合所包含的公共元素；若两个圆或椭圆不相交，则表明两集合无公共元素。需要说明的是，文氏图与其它的图示法一样，它不能准确表示一个集合（或类）中到底有哪些元素。下图为集合A, B的文氏图。

图1 集合A, B的文氏图

一、文氏图在“多重共线性”定义及分类讲解时的应用

变量λ1x1+λ2x2+…+λkxk=0之间共线性的情形有三种，分别是完全共线性、不完全多重共线性和无多重共线性。

（一）基于数学理论的多重共线性定义及分类

1.完全共线性

变量间存在完全共线性，即对于变量x1，x2，…，xk，如果存在不全为零的常数λ1，λ2，…，λk，使得下式成立：

则称解释变量x1，x2，…，xk之间存在完全共线性。

2.不完全共线性

变量间存在不完全共线性，即对于变量x1，x2，…，xk，如果存在不全为零的常数λ1，λ2，…，λk，使得下式成立：

则称解释变量x1，x2，…，xk之间存在不完全共线性，其中μ为随机误差项。与完全共线性不同的是，不完全共线性反映出变量间是近似线性关系，而非函数关系。因而，不完全共线性也称近似的多重共线性，实际经济问题的大多数情况呈现这种情形。

3.无多重共线性

无多重共线性是指解释变量x1，x2，…，xk之间，既不满足式（1），也不满足式（2）的情形。矩阵x为满秩矩阵，即rank(X)=k+1。应该注意到，解释变量x1，x2，…，xk之间不存在线性相关，并不说明不存在非线性相关。由于各解释变量x1，x2，…，xk之间往往在时间上存在同向变动趋势，且存在不同程度关联度，无多重共线性情形一般很少。

（二）基于文氏图的多重共线性定义及分类——以二元线性回归模型为例

基于文氏图的多重共线性可分三种情形：无多重共线性、不完全共线性及完全共线性，如图2所示。

1.完全共线性

假设线性回归模型有两个解释变量x1，x2，各自代表相应变量信息。若存在常数λ1，λ2，满足λ1x1+λ2x2=0，即解释变量x1，x2之间存在完全共线性。用文氏图可表示为如图2(c)，说明变量x1反映的信息和x2反映的信息，虽然形式不同，但两者信息是完全重复的。

2.不完全共线性

假设线性回归模型有两个解释变量x1，x2，各自代表相应变量信息。若存在常数λ1，λ2，满足λ1x1+λ2x2+μ=0，即解释变量x1，x2之间存在不完全共线性。用文氏图可表示为如图2(b)情形，说明变量x1反映的信息和x2反映的信息，虽然形式不同，但两者信息部分是重复的。变量间相关程度越大，图形中x1，x2重复的部分越多。

3.无多重共线性

假设线性回归模型有两个解释变量x1，x2，各自代表相应变量信息。若既不存在常数λ1，λ2，满足λ1x1+λ2x2=0，也不满足λ1x1+λ2x2+μ=0，这时解释变量x1，x2之间不存在共线性。用文氏图可表示为如图2(a)情形，说明变量x1反映的信息和x2反映的信息，无交集，即解释变量x1，x2之间线性相关系数为零，各自提供的信息无重合部分。

图2 共线性分类的文氏图表示

二、文氏图在讲解多重共线性检验时的应用

多元线性回归模型中，如果解释变量间存在多重共线性，但仍采用OLS方法估计模型参数，一般将产生较为严重的后果。以二元线性回归模型为例，在完全共线性情形下，参数估计量将不存在，表现在参数估计量和为不定式，且方差为无穷大；而在不完全共线性的情形下，则呈现出参数估计量和

的方差、置信区间伴随x1，x2共线性程度增加而增加，同时t检验失效、预测精度降低、回归模型缺乏稳定性等影响。因此，在进行模型回归前，一般要进行多重共线性的检验，主要检验方法包括相关系数检验、F-G检验、特征值检验、方差膨胀因子（VIF）检验等。

在实际应用中，往往考虑如下方法研判：R2或其修正值很高（F值也相应高），但某些解释变量系数的t值却不显著或偏低。这时，我们就可初步判断解释变量x1，x2，…，xk之间可能存在多重共线性。这种结果看似矛盾，其实不然。F检验表明因变量与解释变量之间的线性关系是显著的，即因变量和解释变量中的一个变量间的线性关系显著，并不代表和每个解释变量之间的线性关系都显著。为了便于理解，可借助文氏图3表示。

图3 多重共线性检验的文氏图表示

上图中，X1、X2、X3分别表示多元线性回归模型中三个解释变量对因变量的解释贡献度，F检验值可理解为X1、X2、X3三个集合形成的面积。由于共线性的存在，导致无法区分X1、X2、X3对因变量的具体解释贡献度，尽管单独对每个解释变量回归，系数呈现显著性。某些解释变量的贡献度和另一些解释变量的贡献度相互重叠了。借助文氏图，对于讲授这个知识点，学生更容易理解。

三、文氏图在线性回归模型多重共线性分析的例题应用

为完整体现文氏图在线性回归模型多重共线性分析方面的应用，下面结合一个具体的案例来说明。

例：根据理论和经验分析，影响国内旅游市场收入Y的主要因素，除了国内旅游人数和旅游支出之外，还可能与相关基础设施有关。为此，考虑的影响因素主要有国内旅游人数X1，城镇居民人均旅游支出X2，农村居民人均旅游支出X3，并以公路里程X4和铁路里程X5作为相关基础设施的代表。统计数据如下表1所示。要求建立国内旅游市场收入的多元线性回归预测模型，并检测共线性情况。

分析本例题模型中的变量，公路里程（X4）和铁路里程(X5)两个变量反映的信息应有重叠，而国内旅游人数（X1）、城镇居民人均旅游支出（X2）、农村居民人均旅游支出(X3）等三个变量反映的信息应有重叠（通过相关系数矩阵也可得出），考虑模型中解释变量间可能存在共线性问题。模型中解释变量及随机误差项反映信息用图4文氏图表示。

本例以SPSS作为数据处理软件，采用逐步回归法解决多重共线性问题，实操步骤描述如下。

图4 解释变量及随机误差项反映信息的图示

Step1：输入数据；依次选择“分析（A）”→“回归（R）”→“线性（L）”进入线性回归对话框。在“线性回归”对话框中，将左侧框内的“Y”“X1”“X2”“X3”“X4”“X5”分别移入右侧“因变量（D）”和“自变量（I）”框内，对话框界面同前例。并在“方法”下选择“逐步”。

Step2：点击“选项”，并在“步进方法标准”下选择“使用F的概率”，并输入增加变量所要求的的显著性水平（默认值为0.05）；在“删除”框中输入剔除变量所要求的显著性水平（默认值为0.10）。点击“继续”回到主对话框。

Step3：点击“确定”。得到部分结果如表2、3。

表2 输入／移去的变量

表3 系数

上表给出了参数的估计值和用于检验的t统计量和p值。由此得到回归模型：

从结果可以看出，首先被选入的变量是城镇居民人均旅游支出（X2），后依次选入的变量是公路里程（X4）和农村居民人均旅游支出(X3），即在消除共线性的情形下，剔除了变量X1和X5。从经济意义解释，就是公路里程（X4）信息更多涵盖铁路里程(X5)，城镇居民人均旅游支出（X2）和农村居民人均旅游支出(X3）反映的信息更多涵盖国内旅游人数（X1），用文氏图可表示为图5。

图5 回归模型变量间文氏图

四、结束语

通过上文分析，可以看到文氏图在多重共线性内容讲授时的优点，主要体现在多重共线性定义及分类、共线性检验及回归结果分析上。通过借助文氏图，可有效提高教师的教学效果和学生对此内容的理解掌握。