半参数空间自回归变系数模型的统计推断

2024-03-16 13:38刘嘉慧
统计与决策 2024年4期
关键词:常值估计值显著性

陈 凤,刘嘉慧

(1.重庆交通大学数学与统计学院,重庆 400074;2.西安交通大学管理学院,西安 710049)

0 引言

回归模型是经济建模最重要的数据分析工具之一。由于经济现象的复杂性,空间自相关性和回归关系的空间异质性普遍存在于众多经济学领域中,例如住房市场、政策制定、成本效益分析等[1,2]。因此,为了探索空间自相关性与回归关系空间非平稳性,在一般线性回归模型的基础上,发展出一系列空间计量经济模型,如空间自回归模型、空间误差模型以及空间变系数模型。

然而,上述空间计量经济模型仅考虑了空间自相关性或者回归关系空间异质性。研究发现,一个给定的空间数据集可能同时存在空间自相关性和空间异质性[3,4],空间非平稳性可能会引起空间自相关性,反之亦然[5],且在空间变系数模型中使用最优带宽,空间自相关性依然可能会存在。同时,Li 等(2019)[6]的模拟实验表明,当响应变量观测值间存在空间自相关性,且解释变量与响应变量间的回归关系具有空间非平稳性时,若不考虑响应变量的空间自相关性,仅通过空间变系数模型拟合此数据集,则可能会得到回归系数有偏估计值,严重影响回归结果。因此,有必要在空间计量经济模型中同时考虑回归关系的空间非平稳性和空间自相关性。已有研究结合一般空间自回归模型和空间变系数模型各自的优势,建立了一系列模型以兼顾空间自相关性和回归关系的空间异质性。鉴于模型的一般性以及考虑响应变量观测值间空间自相关性能够同时获得解释变量对响应变量的直接效应和间接效应,本文主要讨论响应变量存在空间自相关性的半参数空间自回归变系数模型。

对于半参数空间自回归变系数模型,Su和Jin(2010)[7]提出了轮廓拟极大似然估计方法;Wei 等(2017)[8]基于轮廓拟极大似然估计,构造基于广义似然比的统计量来检测响应变量的空间自相关性,并采用Bootstrap方法逼近统计量在零假设下的分布;此外,Li等(2019)[6]建立了基于广义似然比的Bootstrap 检验方法来检验回归关系空间非平稳性。

现有半参数空间自回归变系数模型的统计推断方法主要关注空间自相关性和回归关系空间非平稳性的检验。在实际应用中,除了上述假设检验问题外,研究者们也十分关注常值系数对应的解释变量与响应变量间是否存在显著的线性关系以及变系数对应自变量对响应变量在每一处空间位置的影响是否显著,即识别模型中可能存在的零值系数。识别常系数中的零值系数,不仅可以为常系数分析结果的可靠性提供重要的统计理论依据,也可以减少模型中的无关变量,提高估计效率。而辨识局部系数中的零值系数能够更好地揭示回归关系的空间局部变化特征。建立上述统计推断问题的检验方法将推动半参数空间自回归变系数模型的广泛应用。为了有效解决上述统计检验问题,本文将基于轮廓拟极大似然估计,导出常值系数和局部系数估计量标准差,并利用t检验方法分别对常值系数和局部系数进行显著性检验。特别对于变回归系数而言,由于在每一处空间位置都要进行一次局部检验,且每次检验均基于相同数据进行,因此其检验过程可能会存在多重检验问题,对此,本文将进一步解决局部检验中涉及的多重检验问题。本文还将通过模拟实验考察所给检验方法的有效性,并且将该方法应用于波士顿房屋价格数据分析,进一步验证方法的适用性。

1 半参数空间自回归变系数模型及其轮廓拟极大似然估计

1.1 半参数空间自回归变系数模型

其中,ρ为空间自回归系数,满足<1,表示响应变量观测值间的空间自相关强度参数;β(u,v)=(β1(u,v),β2(u,v),…,βp(u,v))T,为p个待估计的关于空间位置坐标(u,v)的系数函数,以反映在不同空间位置处解释变量对响应变量的影响强度;=(xi1,xi2,…,xip)表示在空间位置(ui,vi)处解释变量观测值向量;wij为空间权重矩阵W第i行第j列的元素,表示空间数据关于空间位置的邻接关系。一般而言,wii=0(i=1,2,…,n)且W为行标准化矩阵。是独立同分布的随机误差项,满足E(εi)=0 和Var(εi)=σ2。对于模型(1),当ρ=0(即响应变量不存在空间自相关性)时,模型退化为空间变系数模型;当回归关系不具有显著的空间非平稳性时,模型退化为一般空间自回归模型。为了便于表示,本文采用简写SVC-SAR来表示空间自回归变系数模型(1)。

在实际研究中,可能会存在部分解释变量对响应变量的影响是全局的,而部分解释变量对响应变量的影响是随空间位置变化的。因此,更为一般的空间自回归变系数模型为:

其中,=(zi1,zi2,…,ziq)为q个常值系数对应自变量观测值矩阵;为常值系数向量;其余符号含义同前文。模型(2)为半参数空间自回归变系数模型,类似地,简称其为SSVC-SAR 模型。由于SSVC-SAR模型回归系数里既包含常值系数又包含变系数,因此,相比于SVC-SAR模型,其更具一般性。

1.2 轮廓拟极大似然估计

先简要介绍SSVC-SAR模型的轮廓拟极大似然估计方法[8]。具体地,令则SSVC-SAR模型(2)采用向量形式表示为:

令In为n阶单位矩阵,则y的拟对数似然函数为:

其中,M=zTα+Mv,A(ρ)=In-ρW,|A(ρ) |表示A(ρ)的行列式。假设为M的估计值,将代入式(4)后对当前对数似然函数中的σ2求偏导并令偏导数为零,得到σ2的估计值为:

进一步,将M̂ 和σ̂2一并代入式(4)并忽略与ρ无关的项,则拟对数似然函数可简化为:

式(6)只含未知参数ρ,在空间自回归变系数模型及其半参数模型估计中可使用格点法[9]求解ρ的估计值,记为̂。

根据目标函数式(6)得到ρ的估计值ρ̂后,模型(3)可重新表示为以A()y为响应变量的半参数空间变系数模型,即:

根据半参数空间变系数模型的两步估计方法[11]可得常值系数估计值为:

其中:

其中,X=(x1,x2,…,xn)T,Wh(ui,vi)=Diag(K(di1/h),K(di2/h),…,K(din/h)),K(∙)表示核函数,dij为空间采样点(ui,vi)和(uj,vj)间的欧氏距离,h表示窗宽。最优带宽值的大小可根据AICc 准则或者CV 准则确定。在空间采样点(ui,vi)处回归系数β(ui,vi)的估计值为:

通过式(9)可获得每一个空间采样点(ui,vi) (i=1,2,…,n)的回归系数局部估计值。得到所有样本点回归系数局部估计值后,Mv的估计值为:

上述估计方法完整的估计过程可归纳为下列3个步骤:

步骤1:令ρ=0,对原始数据建立半参数空间变系数模型,并利用两步估计方法拟合此模型,得到M的初始估计值。

步骤2:将M的初始估计值代入式(6)并极大化该目标函数,得到自回归系数ρ的估计值̂。

2 回归系数显著性t检验及多重检验问题

本文将基于半参数空间自回归变系数模型的轮廓拟极大似然估计方法,推导出常值系数估计量和变系数局部估计量的标准差,利用其构造t检验统计量,分别对常值系数和局部系数进行显著性检验,并处理变系数局部检验可能涉及的多重检验问题。

为了得到σ2更为精确的估计值,进一步对式(5)中σ2的估计值进行修正[12]。具体地,由公式(3)可得A(ρ)y=zTα+Mv+ε=M+ε,将此模型视为以A(ρ)y为因变量的半参数空间变系数模型,根据相关研究[13]可得进而可得σ2的一个估计为:

2.1 常值系数显著性t检验

由此可得α的方差估计为:

本文利用t检验方法识别SSVC-SAR模型中可能的零值系数,即对每个常值系数αj(j=1,2,…,q)有原假设“H0:αj=0”以及备择假设“H1:αj≠0”,则t检验统计量为:

本文采用自由度为(n-2 tr(L)+tr(LTL) )的t分布逼近tc零分布。

2.2 变系数局部t检验

对于空间采样点(ui,vi),令Dv=(XTWh(ui,vi)X)-1XTWh(ui,vi)(In-Sc),根据式(9)可获得变系数β(u,v)=在点(ui,vi)处的局部估计值,则对应的局部方差为:

同理,可得局部方差的估计,即:

类似地,本文通过构造t 检验统计量检验变系数对应解释变量在每一处空间位置对响应变量影响的显著性。具体来说,对第j个变系数在点(ui,vi)处有原假设“H0:βj(ui,vi)=0”和备择假设“H1:βj(ui,vi)≠0”,则对应的局部t检验统计量为:

同样地,利用自由度为(n-2 tr(L)+tr(LTL) )的t 分布逼近tv零分布。

2.3 多重检验问题

在变系数局部显著性检验里,对每一空间采样点的局部系数都需要进行一次检验,这会引起多重检验问题。为了使得检验中犯第I类错误的概率在总体上小于α,需要对预先给定的全局显著性水平α进行适当调整。针对空间变系数模型,Byrne 等(2009)[14]基于Moyé(2003)[15]提出的非独立检验理论,给出了空间变系数局部检验的多重检验方法。由于局部检验之间往往不是独立的,因此,da Silva 和Fotheringham(2016)[16]沿着Benjamini 和Hochberg(1995)[17]关于非独立检验的错误发现率(FDR)的讨论,提出新的准则以处理空间变系数局部检验的多重检验问题,其模拟实验结果表明该方法在空间变系数局部t检验中具有良好效果,此方法随后得到了广泛应用[18—20]。本文将da Silva 和Fotheringham(2016)[16]给出的多重检验方法进一步拓展到SSVC-SAR 模型变系数局部t 检验中,具体来说,令ξ表示族错误率(FWER),则调整的显著性水平为:

其中,pe=2 tr(L)-tr(LTL),p为自变量个数。

本文通过构造t统计量,对更为一般的空间自回归变系数模型(即SSVC-SAR模型)常值系数和局部系数是否为零进行了检验。当SSVC-SAR模型不含常值系数时,本文给出的局部系数显著性检验方法及其多重检验均可应用于空间自回归变系数模型(1)局部系数的显著性检验。

3 模拟实验

3.1 实验设计

本文采用模拟实验考察SSVC-SAR模型常值系数显著性检验和变系数局部检验的有效性。具体实验设计如下:

(1)空间采样点

考虑到实际研究中多数样本空间抽样点是不规则分布的,因此本文将单位正方形区域[0,1]×[0,1]作为空间区域,从均匀分布U(0,1)中独立抽取一对随机数作为样本空间采样点坐标。此正方形区域左下角为笛卡尔坐标系的原点。

(2)实验数据生成

建立如下SSVC-SAR模型:

将常系数值分别设为α0=0.15,α1=-0.1 和α2=0,则回归系数函数为:

变系数函数真实曲面如图1所示。本文选择K-近邻方式生成空间权矩阵W=(wij)n×n,其中,K的值取6且对W进行行标准化处理;从标准正态分布N(0,1)中独立抽取;从N(0,0.25)中独立抽取。

图1 变系数函数真实曲面

给定一个ρ值,因变量Y在n个样本点的观测值向量为:

3.2 实验结果及分析

模拟实验里自回归系数ρ的取值分别设为0、0.5 和0.9,考虑样本量n为400 和600 两种情形,且每个实验重复500 次,并计算500 次实验里常系数和局部系数的拒绝率,相应的实验结果如下。

(1)常值系数显著性检验

对于常值系数,原假设为“H0:αj=0 (j=1,2,3)”,实验重复500 次,给定显著性水平α分别为0.01、0.05 和0.10,原假设在500次重复实验中拒绝率如表1所示。

从表1可知,对于零系数α2,其假设检验拒绝率接近于相应的显著性水平α,表明本文所给出的t检验方法是有效的;对于非零常系数α0和α1,对应检验拒绝率都很高且多数情形下接近于1,说明t 检验方法可有效地识别模型中的非零常系数。同时,随着样本量增加,检验功效上升速度加快。

(2)变系数局部显著性检验

对于变系数,采用t 检验方法检验系数函数在每一空间采样点的值是否为零,即原假设为“H0:βj(ui,vi)=0(j=1,2;i=1,2,…,n)”,并采用前文介绍的方法对全局显著性水平进行调整以处理局部检验涉及的多重检验问题(全局显著性水平设为0.05)。当样本量为400,ρ=0时,计算每一空间采样点局部系数检验在500次重复实验中的拒绝率。检验结果如图2 所示,其中,左列为系数函数热力图,等高线表示系数函数取值大小;右列为系数函数对应的检验拒绝率,且已进行了多重检验,颜色越深,说明拒绝率越高,等高线表示拒绝率。图2 结果表明,采用局部t检验方法,并经过多重比较对全局显著性水平进行调整后,可有效识别变系数在每一个空间采样点的非零值,对应的检验功效也随着系数函数值的增大而快速上升。由于对变系数部分的估计采用了地理加权回归方法,该方法属于Nadaraya-Watson 核估计方法,将存在边界效应[13],因此可能会由于估计原因对边界处的系数函数值检验结果产生不同程度的影响,如变系数β2(u,v)。当自回归系数值为0.5 和0.9,样本量为600 时,得到的变系数局部检验拒绝率与图2无明显差异。

图2 当n=400,ρ=0时,500次重复实验下局部系数对应检验拒绝率

4 实例分析

本文将SSVC-SAR 模型常值系数和局部变系数显著性检验方法应用于对美国波士顿房屋价格数据的分析中[21]。该数据集包含了1970 年美国波士顿地区506 个人口普查区自有住房价格的中位数(MEDV,单位:千美元)和13个自变量的观测值,可通过R软件中的spdep包获取。Li等(2019)[6]基于该数据集建立了一个SVC-SAR模型,并使用基于广义似然比的Bootstrap 检验方法分别检测了因变量空间自相关性和回归关系的空间非平稳性,最终建立了如下SSVC-SAR模型:

其中,关于自变量的具体含义分别如下:CRIM为人均犯罪率,NOX为一氧化氮浓度,RAD为住房距径向公路的可达性指标,TAX为每万美元的全额房产税,PTRATIO为学生-教师比例,LSTAT为较低地位人口比例,BK为黑人比例,RM为住宅区自有住房的平均房间数量,DIS为住房距波士顿五个就业中心的加权距离。

对于SSVC-SAR模型,本文将进一步检验常值系数和局部系数是否为零。常值系数显著性检验结果如表2 所示。

表2 常值系数估计值及其检验结果

从表2 可知,SSVC-SAR 模型中各常值系数对应的自变量对房屋价格均具有非常显著的影响。具体地,解释变量CRIM、NOX、TAX、PTRATIO、LSTAT和BK对房价具有显著的负面影响;而RAD对房价发挥着显著的积极作用。

对于变回归系数估计值,利用本文给出的局部t 检验方法检验并处理其中可能涉及的多重检验问题后,各变系数估计值的热力图如图3所示。

图3 变系数估计值热力图

图3 显示,自有住宅的地理位置对房价的显著影响区域主要集中在中心地带,影响强度由中心区域向四周逐渐递减,且在绝大多数边缘地区地理位置对房价的影响不显著;自有住房所拥有的平均房间数量(RM)在绝大多数的普查区对房屋价格都具有显著的正向影响作用,且影响强度从中心区域向边缘地区递增;自有住房距离五个就业中心的距离(DIS)在中心地区对房屋价格具有显著的负面影响,且越靠近中心区域,影响强度越大,而在边缘地区对房屋价格的影响均不显著。

从上述结果分析中可以看到,对SSVC-SAR模型中常值系数和局部系数的显著性检验,有助于进一步了解各个解释变量与房屋价格之间的回归关系。

5 结论

空间自回归变系数模型因同时考虑到响应变量的空间自相关性和回归关系的空间非平稳性而具有广阔的应用前景。本文针对空间自回归变系数模型更为一般的形式——半参数空间自回归变系数模型,基于地理加权回归的轮廓拟极大似然估计,进一步提出了常值系数和局部系数的t 检验方法,并采用da Silva 和Fotheringham(2016)[16]给出的多重检验方法处理局部检验中可能面临的多重比较问题,解决上述统计推断问题有助于推动空间自回归变系数模型的应用。模拟实验验证了t检验方法和多重检验的有效性,而基于美国波士顿房屋价格数据的分析证实了所提方法的实用性。总体而言,本文所提检验方法有助于深入理解半参数空间自回归变系数模型回归关系的本质特征。

关于半参数空间自回归变系数模型常值系数和局部系数统计推断,本文利用t分布逼近统计量零分布,并通过模拟实验验证了所提检验方法的有效性,但关于所构造检验统计量的理论性质仍有待进一步研究。空间自回归变系数模型中空间权重矩阵常用于描述响应变量观测值间的空间自相关结构,不同的空间权重矩阵设置可能会得到不同的模型估计结果,进而对研究结论产生重要影响。目前,对于一般空间自回归模型,已有许多研究给出了空间权重矩阵的不同构造方法[22—25],基于这些研究成果,如何合理地确定空间自回归变系数模型的空间权重矩阵将是未来重要的研究方向。

猜你喜欢
常值估计值显著性
巧借常值数列 妙破数列问题
巧借常值数列 妙破数列问题
一道样本的数字特征与频率分布直方图的交汇问题
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
统计信息
2018年4月世界粗钢产量表(续)万吨
常值推力下面内轨道优化的一种改进间接法
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定