基于Cholesky分解的协方差矩阵估计

2020-10-21 02:11褚云通
高师理科学刊 2020年9期
关键词:协方差回归系数方差

褚云通

基于Cholesky分解的协方差矩阵估计

褚云通

(辽宁师范大学 数学学院,辽宁 大连 116029)

重复测量数据经常在心理学、社会科学、经济学和医学研究等领域出现.对于重复测量数据,高维(HD)和正定(PD)约束是协方差和相关矩阵建模的2个主要障碍.基于Cholesky型分解的方法在处理HD和PD问题上是有效的.基于修正的Cholesky分解(MCD)、替代Cholesky分解(ACD)和Cholesky因子参数化(HPC)3种方法,对遵循高斯分布的重复测量数据拟合联合均值和方差模型,然后对参数估计的协方差矩阵进行了比较.

Cholesky分解;协方差矩阵估计;重复测量数据

由于在同一研究对象内收集的测量数据的组成部分不是独立的,所以协方差矩阵在分析纵向研究数据中起着重要的作用.一个好的协方差建模方法可以改进对均值的统计推断,并且协方差结构本身在某些情况下也具有科学意义[1].然而,由于协方差矩阵的估计通常是正定的,并且协方差矩阵中有许多参数,因此对协方差结构的建模具有挑战性.为了克服这个障碍,Pourahmadi[2]提出了一种基于修正的协方差矩阵Cholesky分解(MCD)的数据驱动联合均值协方差建模方法.虽然分解会导致重新参数化,但是其中的元素可以根据重新参数化后的方差和自回归系数进行解释[3].文献[4]提出了一种替代Cholesky分解(ACD),可以理解为对某些参数化后的方差和平均参数进行建模,并与文献[5]提出的MCD进行了详细的比较.这2种Cholesky类型的方法显示了简洁有效的特点,但它们相应的方差不能直接解释为重复观测的方差.文献[6]考虑了基于相关矩阵的标准Cholesky分解和其Cholesky因子的参数化(HPC)回归方法,其中参数可直接解释方差和相关性.基于修正的Cholesky分解(MCD)、替代Cholesky分解(ACD)和Cholesky因子参数化(HPC)3种方法,对遵循高斯分布的重复测量数据拟合联合均值和方差模型,然后对参数估计的协方差矩阵进行了比较.

1 Cholesky分解方法

1.1 模型参数的估计

1.2 修正的Cholesky分解(MCD)

高维性(HD)和正定性(PD)是对协方差矩阵建模的主要障碍.引入回归技术可以减少HD问题,在协方差结构建模中使用Cholesky分解可以潜在地消除PD约束.

设正定协方差矩阵的标准Cholesky分解形式为

或者另一种更常用的形式

1.3 替代Cholesky分解(ACD)

可以证明

在式(17)中的模型下,得出除了常数外对数似然函数的-2倍为

1.4  Cholesky因子参数化(HPC)

尽管修正的Cholesky分解和替代的Cholesky分解对于协方差矩阵具有简洁、无约束的优点,但是参数化后的方差不等同于被观察者重复测量的边际方差.

方差相关分解的一般形式为

2 实例分析

利用牛体质量增长数据[10]进行实例分析.牛被随机分配到A和B2个实验,并记录它们的体质量.30只动物接受处理A,另外30只接受处理B.每只动物的前10次测量间隔为2周,最后一次测量间隔为1周.由于没有观测数据丢失,因此它是一个平衡的纵向数据集.为解决过拟合问题,根据贝叶斯信息准则(BIC)得出

图1 MCD方法的拟合效果

由图1a可以看出,拟合的多项式函数曲线很好地揭示了曲率模式;由图1b可以看出,自回归系数的拟合良好.

图2 ACD方法的拟合效果

由图2a可以看出,拟合的多项式函数曲线很好地捕捉到了曲率模式;由图2b可以看出,自回归系数的拟合良好.

图3 HPC方法的拟合效果

由图3a可以看出,拟合的多项式函数曲线很好地捕捉到了曲率模式;由图3b可以看出,自回归系数的拟合良好.

比较基于MCD,ACD,HPC方法的牛体质量数据联合均值协方差模型,对拟合模型测量了不同的三元组选择和执行时间(/s),结果见表1.

表1 MCD,ACD,HPC方法的执行时间及相关结果比较

由表1可以看出,MCD方法和ACD方法在似然值和BIC值方面会产生非常接近的结果,而基于MCD的模型是这3种方法中时间效率最高的.与MCD方法和ACD方法相比,HPC方法在大多数情况下具有更大的对数似然性和更小的BIC值,但代价是执行时间更长.

3 结语

对于协方差和相关结构的建模,3种基于Cholesky型分解的方法是有效的,因为估计的协方差和相关矩阵是(半)正定的,并且通过回归技术大大减少了参数的数量.显然,MCD方法和ACD方法都是通过Cholesky因子标准化以相似的方式构造的,所以它们之间的关系更为密切.这2种方法的主要缺点是很难找到合理的统计解释,在实践中需要额外的工作来解释相应的方差和相关函数.HPC的参数化由于得到的参数是无约束的,并且可以直接解释方差和相关性,而且相关矩阵的Cholesky因子中的角度与相关性有几何关系,所以它有效解决了协方差矩阵计算中存在的问题.但是,因为估计Cholesky因子的问题被转化为估计由角度组成的矩阵问题,所以使用HPC方法对协方差和相关性进行建模在计算上存在较大困难.

[1] Diggle P J,Verbyla A P.Nonparametric Estimation of Covariance Structure in Lon-gitudinal Data[J].Biometrics,1998,52(2):

401-415

[2] Pourahmadi M.Joint Mean-Covariance Models with Applications to Longitudinal Data: Unconstrained Parameterisation[J].Bio-

metrika,1999,86(3):677-690

[3] Pan J,Mackenzie G.On Modelling Mean-Covariance Structures in Longitudinal Studies[J].Biometrika,2003,90(1):239-244

[4] Chen Z,Dunson DB.Random Effects Selection in Linear Mixed Models[J].Biometrics,2003,59(4):762-769

[5] Pourahmadi M.Cholesky Decompositions and Estimation of a Covariance Matrix:Orthogonality of Variance-Correlation Parameters[J].Biometrika,2007,94(4):1006-1013

[6] Zhang W,Leng C,Tang C Y.A Joint Modelling Approach for Longitudinal Studies[J].Journal of the Royal Statistical Society B,2015,77(1):219-238

[7] Zhang W,Leng C.A Moving Average Cholesky Factor Model in Covariance Modelling for Longitudinal Data[J].Biometrika,2012,99(1):141-150

[8] Maadooliat M,Pourahmadi M,Huang J Z.Robust Estimation of the Correlation Matrix of Longitudinal Data[J].Statistics and Computing,2013,23(1):17-28

[9] Rapisarda F,Brigo D,Mercurio F.Parameterizing Correlations:A Geometric Interpretation[J].IMA Journal of Management Mathematics,2007,18(1):55-73

[10] Kenward M G.A Method for Comparing Profiles of Repeated Measurements[J].Journal of the Royal Statistical Society C,1987,36(3):296-308

Covariance matrix estimation based on Cholesky decomposition

CHU Yuntong

(School of Mathematics,Liaoning Normal University,Dalian 116029,China)

Longitudinal data are often used in fields such as psychology,social science,economics and medical research,etc.For longitudinal data,high dimensional(HD) and positive definite(PD) constraints are two major obstacles to covariance and correlation matrix modeling.It is evident that Cholesky-type decomposition based methods are effective in dealing with HD and PD problems.Based on the modified Cholesky decomposition (MCD), alternating Cholesky decomposition (ACD) and hyperspherical parameterization of Cholesky factor (HPC) methods.The joint mean and variance models was fitted to the repeated measurement data following Gaussian distribution,and then the covariance matrices of parameter estimation was compared.

Cholesky decomposition;covariance matrix estimator;longitudinal data

O212

A

10.3969/j.issn.1007-9831.2020.09.004

1007-9831(2020)09-0011-06

2020-06-03

褚云通(1996—),男,辽宁沈阳人,在读硕士研究生,从事应用统计研究.E-mail:1731796876@qq.com

猜你喜欢
协方差回归系数方差
概率与统计(2)——离散型随机变量的期望与方差
方差越小越好?
计算方差用哪个公式
多元线性回归的估值漂移及其判定方法
用于检验散斑协方差矩阵估计性能的白化度评价方法
方差生活秀
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器