基于调整秩回归的组变量选择*

2022-04-20 01:26王萧博吴贤君王明秋
关键词:个数惩罚条件

王萧博, 吴贤君, 王明秋

(①枣庄学院经济与管理学院,277160,枣庄市;②曲阜师范大学统计与数据科学学院,273165,山东省曲阜市)

0 引 言

传统的变量选择方法如:最优子集法,逐步回归法等,已经不能满足高维数据处理的需要. 1996年,Tibshirani[7]提出了最为著名的Lasso(The Least Absolute Shrinkage and Selection Operator)方法,这是一种压缩系数的变量选择方法,该方法在选择变量的同时得到参数的估计. 因此压缩系数法成为变量选择的主流方法. Fan和Li[2]提出了变量选择的估计量应该满足无偏性、稀疏性、连续性三个性质. Wang等[10]提出了一种指数型的惩罚函数(EXP). EXP惩罚函数具有较好的理论性质,并且在数据模拟和实例应用中有着较为理想的效果. 在EXP惩罚提出的时候,其中用到的损失函数是均方损失,EXP惩罚具有较好的选择变量的效果,可以选择出有用的变量,从而建立更加合理的模型.

在一般情况下,我们总是假设总体是服从正态分布的,但是在实际应用中,总体分布可能并不服从正态分布,并且数据中还可能混杂着一些异常值. 由于最小二乘估计不是稳健估计,惩罚最小二乘的方法对于异常值和重尾分布的变量选择的效果不太理想. Leng[5]在秩估计的基础上提出了调整的秩回归估计(Regularized Rank Regression),并在文章中证明了其在维数固定的情形下的Oracle性质. 在数据模拟和实例应用当中取得了较好的结果.

在大多数的回归问题中,每个解释变量可以用一组输入变量来表示. 最常见的问题就是多因子方差分析问题,其中每一个因子可能有几个水平,并且每一水平可以通过一组哑变量来表示出来. 这样我们就需要选择出重要的解释变量组,而不是选出单个变量. Yuan和Lin[11]提出了组Lasso (group Lasso),它是Lasso方法的扩展,它将每一个解释变量看做是成组存在的,将其对应的组回归系数进行估计并压缩,从而选择出重要的组. Breheny[1]提出了group exponential Lasso的方法.

本文是在基于组变量线性模型的背景下,研究基于调整秩回归的EXP型组变量选择,构建一个新的目标函数,选择出重要的组变量的同时估计出对响应变量有重要影响的组变量的系数. 通过数据模拟和实例应用来验证该方法在组变量选择方面的表现.

1 基于调整秩回归的EXP型组变量选择

实际问题中对响应变量有所影响的解释变量是成组存在的. 考虑如下的线性模型

Y=Xβ+ε.

Wang等[10]提出的EXP型惩罚函数曾用于单独个体的变量选择,其函数形式为

其中参数a>0和λ>0. 本文将EXP惩罚方法推广到对组的变量选择中,因此,对于组的变量选择,EXP型惩罚函数就变为

对于损失函数部分,由于最小二乘不是稳健估计,对重尾分布和含有异常值的情况的处理效果不佳,因而我们在秩回归的基础上提出调整秩回归的EXP型组变量选择方法,目标函数为

(1)

1.1 理论性质

理论性质的推导需要如下假设条件:

(B1) 当n→∞时,pn/n→0.

(B4) 存在非负常数D1,D2,使得

(B6) 当n→∞时,C11n→C11.

条件(B1)限制了pn随着n变化的速度. 条件(B2)给出了重要组的变量真值是有限的,这是符合实际的,因为在实际中重要的参数不可能为零,也不能为无穷大. 条件(B3)限制调整参数λ和a的速度,但是条件(B3)并没有限制a的最小值,这里对于EXP 估计不需要过多的限制a. 条件(B4)是一个模型可识别性条件. 条件(B5)和条件(B6)是为了证明R3-EXP估计量具有渐近正态性.

定理1假设条件(B1)-(B4)成立.对于ξ∈(0,1),存在一个常数M0,使得当M>M0时,有

引理1假设条件(B1)-(B4)成立,对于固定的M>0,有

这里Ac={1,…,J}A.

(ⅰ)组变量选择相合性

(ⅱ)估计的渐近正态性

1.2 算法

我们这里使用Fan和Li[2]在2001年提出的局部二次逼近算法(LQA). 给定初始值β(0),迭代公式为

在本文中,调整参数的选择使用贝叶斯信息准则(BIC)[6],在一些条件下该方法能够一致地选择出真实模型(Wang等[9],Wang 和Leng[8],Zou 和Hastie[12],Lee等[4]). 因此,本文用BIC方法来选择调整参数. BIC准则为

2 数据模拟与分析

我们将通过数据模拟对R3-EXP估计,R3估计和EXP估计的效果进行比较,这里主要对总体的分布是重尾分布和含有异常值混合分布的情况进行比较. R3估计定义为

EXP估计定义为

模型误差定义为如下形式

我们重复了100次试验,在组变量选择中通过模拟分析,参数a=0.1时具有较好的效果,在这里取参数a=0.1.

例1本例考虑15个组变量,每个组变量中有2个协变量. 响应变量y由以下线性模型生成

表1给出了例1中的模型在n=50,100,150,200时,对于不同的分布,用EXP,R3和R3-EXP方法得到的Factor,C,IC,ME 和 Correct Fit. 表中t3表示自由度为3的t分布,混合正态分布表示10%的柯西分布去污染N(0,1),n表示样本数,Factor表示选中的因子的个数,即选中的组;C 表示正确地将不重要组的系数估计为0 的个数;IC 表示错误地将重要组的系数估计为0 的个数;ME表示模型误差;Correct Fit表示估计出的正确模型的比例. 为了方便观察,在图1中给出了在不同的n值下的ME,Correct Fit和Factor的图像. 从图中可以看到,无论对于t分布还是含有异常值的混合分布,R3-EXP方法比EXP方法和R3方法选择出的模型有更小的模型误差(ME),也就是说R3-EXP方法建立的模型更加合理. 从正确模型的比例(Correct Fit)看,R3-EXP方法得到的正确模型比例更高. 从选出的重要因子的个数看,当n=50时,R3方法选择的因子数少于R3-EXP方法选择的因子数,但是此时模型误差比R3-EXP方法的模型误差大. 当样本n>100时,R3-EXP方法选择的因子的个数也更接近真实模型. 我们为了方便看图,把图例放到了图1的第一个图中.

表1 例1模拟结果

图1 例1中的ME,Correct Fit 和 Factor 结果

由表2和图2可以看出,R3-EXP方法和R3方法建立模型的模型误差都比EXP方法建立的模型的模型误差小,R3-EXP方法的模型误差虽然有时比R3方法的误差稍高一些,但是选中的因子数更少,更加接近真实模型,建立的模型更简单.

表2 例2模拟结果

续表2 例2模拟结果

图2 例2中ME,Correct Fit和Factor的结果

在大多数情况下,我们通过EXP方法选择出的对响应变量bp有影响的组为npreg,glu,skin,bmi,ped,age和 Type,通过R3方法选择出的组为npreg,skin,bmi,ped和age,通过 R3-EXP选择出的组为npreg,ped,bmi和age. 在表3中,给出了EXP,R3,R3-EXP 3种方法选出的因子数和预测误差. 结果表明,R3和R3-EXP方法选出的因子都比EXP 方法少,且预测误差更小. R3-EXP的预测误差尽管稍微比R3方法的预测误差高一点,但建立的模型更简单.

表3 例3分析结果

3 总 结

本文主要研究了基于调整秩回归的EXP型的组变量选择,给出并证明了估计的Oracle性质. EXP惩罚函数具有较好的性质,而秩估计能够更好地处理重尾分布和异常值点带来的问题. R3-EXP方法,综合了EXP方法和调整秩估计的优势,在组变量选择上有较好的性质和效果. 当然,R3-EXP方法和R3方法由于用到了初始估计,在计算量上要比EXP方法的计算量大. 当组中个数为1 时,组变量选择就退化为单独个体的变量选择,依然能够满足上述的性质. 在数据模拟中,R3-EXP 方法在处理重尾分布和有异常值的情况时,选择出重要的变量更加接近真实模型,模型误差更小,建立的模型更加简洁合理. 实例中R3-EXP方法,选择的因子数更少,建立的模型更简单.

猜你喜欢
个数惩罚条件
排除多余的条件
怎样数出小正方体的个数
神的惩罚
怎样数出小木块的个数
Jokes笑话
最强大脑
怎样数出小正方体的个数
为什么夏天的雨最多
“虎虎生威”的隐含条件
真正的惩罚等