基于特征样本的变参数模型估计方法研究

2024-03-16 13:38原,王
统计与决策 2024年4期
关键词:样本容量参数估计时变

李 原,王 晶

(1.山西财经大学统计学院,太原 030006;2.太原师范学院经济与管理学院,山西 晋中 030619)

0 引言

固定参数的时间序列回归模型只能反映某个时间段内变量平均状态下的关系,而现实中很多经济变量间的关系并不是一成不变的,会随着社会的发展、技术的进步以及经济结构的转变等而发生变化,这种动态关系就需要通过变参数模型来体现。传统的变参数模型主要是状态空间模型、面板数据模型以及分位数回归、门限回归模型等。估计变参数模型的方法一般采用卡尔曼滤波等滤波方法。

国内外不断有文献提出变参数估计的新方法和新思路。Rajan 等(1997)[1]较早地提出了一种将马尔可夫链蒙特卡罗方法应用于时变自回归模型的参数估计方法,该模型的时变系数由基函数建模,然后采用Gibbs方法估计参数。Orbe等(2007)[2]提出了一种非参数方法来估计看似无关的回归方程模型中的时变系数,该方法允许将交叉和时变限制合并到参数中,估计量是以封闭形式得到的,不需要用迭代方法来计算。Escobar(2012)[3]研究了随机系统在三种不同的随机扰动下的连续时变参数估计问题。Andrea 和Lloyd(2018)[4]提出了一种通过将时变参数视为具有未知系数的分段函数来估计周期性时变参数的方法。这种方法使用非线性滤波,允许得到的参数估计在形状上具有更大的灵活性,同时仍保持周期性。Arnold 和Lloyd(2017)[5]提出了一种利用非线性贝叶斯滤波估计周期性时变参数的方法。该方法将时变参数视为具有未知系数的分段函数,并使用集合卡尔曼滤波器(EnKF)进行估计。

国内也有一些文献讨论了变参数估计的新方法。邓自立和解三名(1989)[6]、王建国(1990)[7]主要讨论了自回归模型的时变参数估计,采用了自适应滤波方法。邓卫强等(2011)[8]对谱估计方法进行了改进,用遗传算法进行了时变参数估计。陈云仙等(2017)[9]也讨论了时变参数的贝叶斯估计。

上述文献从不同角度对时变参数的估计方法进行了研究,每个角度都有其特点。本文拟从一个全新的角度,提出一种特征样本机器采样推断方法来估计时变参数。

1 特征样本概念及采样

特征样本是在某变量特定的值域范围内按照变量的分布特征采用机器采样的方法生成的随机样本[10]。每个特征样本都有目标变量和标识变量两个要素,表示为(x,y),或者将x作为标识变量获得目标变量y,或者将y作为标识变量获得目标变量x,每个特征样本都有特定的样本容量,也有标识变量和目标变量的值域。特征样本的一般形式可以表达为:

其中,ζ表示目标变量的特征样本,n是样本大小,x与y的关系及分布特征用函数式y=f(x)表达,ψ[a,b]是目标变量的值域。

特征样本的采样要先确定变量的分布特征,本文的分布特征不是指典型的概率分布,而是更广泛的变量特征。在确定分布特征的基础上,再确定目标变量或标识变量的值域,同时确定所需要的样本容量,就可以利用特定的计算机程序来采样。

特征样本的采样思想可以归纳为以下几点:第一,特征样本不是实际观察样本,而是依据经验获得分布特征后按照特定方法产生的随机样本;第二,特征样本是在特定取值区间的样本;第三,特征样本是可以重复采样的样本;第四,特征样本的分布特征,既可以通过已有经验确定,也可以通过观察现实数据得到;第五,特征样本采样总体上属于单样本的蒙特卡罗采样范畴。

特征样本可以分为分布型样本和曲线型样本,需要使用不同的方法进行采样。已有研究设计了特征样本采样的10种方法,包括适用于分布型样本的标准分布法、比例分布法、反函数分布法、分区频率分布法、分区值域分布法和适用于曲线型样本的标准曲线法、反函数曲线法、非标准曲线法、比例曲线法、自助曲线法。这些方法可以实现常见的13种类型的特征样本采样。

按照这些采样方法,可以在计算机程序辅助下,分别对正态分布样本、均匀分布样本、偏态分布样本、线性增长样本、线性递减样本、正态曲线样本、反正态曲线样本、偏态曲线样本、指数增长曲线样本、指数递减曲线样本、S增长曲线样本、反S 曲线样本、模拟曲线样本等常见特征变量采样。

2 基于特征样本采样的变参数模型估计方法

除了有固定系数的特征样本模型估计方法,高艳平和王晶(2019)[11]还从数学及模拟仿真的角度证明了特征样本重复抽样回归(FSR)方法的优越性。基于此,本文将基于特征样本设计一套变参数模型估计方法,实现小样本情况下的变参数模型估计。

2.1 特征样本变参数模型估计的思想

特征样本重复抽样回归方法根据对变量特征的把握来设定变量的分布形态和参数,然后按分布特征重复采样生成一系列特征样本。对每一个特征样本进行回归都可以得到一组参数估计结果,分别对全部m个特征样本回归就可以得到一系列的系数估计结果,并据此模拟每个系数自身的分布特征,判断回归系数的取值和置信区间。FSR 方法重复抽样得到的一系列特征样本也为变参数模型的估计提供了一种新的思路——对特征样本进行重新组合,分别估计每一期的系数,可以直接得到模型的变参数结果。具体来讲,FSR方法在时间序列的重复抽样过程中形成了一系列特征样本,那么如果将每个样本的第1期汇总在一起,就得到了解释变量和被解释变量第1期的分布,则可以据此进行第1 期系数的估计;后面每一期都同理,可以通过n次估计得到第1 至第n期的系数估计结果。进一步,根据每一期系数的估计结果,还可以对系数的变动趋势进行自回归估计,探究变量之间关系的变动趋势。这种方法称为特征样本变参数回归(Features Sample Variable Parameter Regression,FSVR)方法。

FSVR 方法是建立在特征样本m次重复抽样的数据基础上的,但是其数据组合形式与回归方式有所不同。FSR 方法进行特征样本重复抽样的特点是样本容量n极小化(大于k+1即可,k是解释变量个数),重复抽样次数m极大化(比如一千次、一万次)。一次特征样本采样就形成了一个包含被解释变量与k个解释变量在内的样本容量为n的多变量复合特征样本,FSR方法的重复采样最终形成了m个样本量为n的复合特征样本。

FSVR方法的建模思想就是将FSR方法重复采样得到的特征样本进行重新组合,将每一期的m次抽样结果组合为该期的样本,就可以得到n个样本容量为m的分期样本。通过对这些特征样本的多期回归,不仅能够得到模型的变系数结果,而且可以根据估计结果来寻找各期系数的变动规律,得到在形式上与状态空间模型类似的结果。构建的主方程类似状态空间模型中的“信号方程”或者“量测方程”。用系数构建的自回归模型,类似状态空间模型中的“状态方程”。

2.2 特征样本变参数模型的估计方法和步骤

2.2.1 按照分布形态和变量值域进行采样

特征样本变参数模型是建立在FSR 方法的基础之上的,所以变参数模型的构架和估计首先需要根据变量特征和值域进行特征样本的重复采样,这一步与FSR 方法相同。对于样本容量为n的时间序列模型,重复采样后获得的样本是一个(k+1)*n行、m列的矩阵。

2.2.2 对特征样本进行重新组合,获得每一期的子样本

如果要估计变参数回归模型,就要对初始特征样本进行重新组合,获得每一期的子样本。具体的做法是:先将上述FSR特征样本矩阵进行转置,转置后全部数据的矩阵见式(2)。

然后从该样本中分别提取第t期的数据,组合成一个新的m行、k+1 列的矩阵,即为第t期的子样本。其中y为被解释变量,x为解释变量,解释变量个数为k,每个变量样本容量为n,抽样次数为m。每期的特征样本矩阵见式(3),一共可以得到n个样本容量为m的子样本。

2.2.3 分期回归,获得每一期的估计系数

根据重复抽样和组合获取的子样本,可以对每一个子样本进行单方程参数估计,获得每一期的系数估计结果,类似状态空间的“信号方程”。“信号方程”的模型形式可以选择线性回归、非线性回归等形式,但是全部n期的“信号方程”形式必须一致。以最常见的多元线性回归为例,“信号方程”的形式为:

选定模型形式之后,用最小二乘法或极大似然法来估计每一期子样本的回归系数,其中为第t期回归模型的常数项,为第t期回归模型中第i个变量的估计系数,i=1,2,3,…,k。

需要注意的是,在FSR 方法的应用中,很多变量是递增或者递减的分布形态,所以,在m次抽样中,其初期和末期的变量取值实际上都是固定的最大值或者最小值,是无法进行系数估计的常数。考虑到变参数模型的普遍适用性,只进行第2 期到第n-1 期的分期系数估计,第1 期和第n期系数用下文给出的方法推算。

2.2.4 估计系数的波动规律并据此推算期初和期末的系数

在获得第2至第n-1期变系数的基础上,对单个系数序列进行自回归,可以估计其变化规律,类似状态空间模型中的“状态方程”。

设各期系数之间的关系为:

可以根据每个参数的估计结果进行自回归估计,这样就得到了各期系数的滞后一期的变化规律。根据式(5)的估计结果,可以进行期初和期末系数的推算,即:

如图1所示,路由开销随着节点停留时间的延长而降低,这是因为网络拓扑结构的变化不再频繁所致。图2表明网络整体的端到端时延随节点停留时间的增加而降低。图3表明分组投递率随节点停留时间的增加而提高。如图4所示,路由发现频率随节点停留时间的增加而降低。

2.2.5 特征样本变参数模型的最终表达式

经过以上步骤就得到了变量之间每一期的回归系数,以及系数随时间波动的自回归方程,实现了时间序列数据的变参数估计。变参数模型的最终表达式为:

2.2.6 估计特征样本整体模型

为了反映模型的整体拟合情况,对模型系数进行分期估计以后,还可以对模型进行不分期的整体估计。模型整体估计的结果是固定系数,实际上是分期系数的均值。

对模型中每个变量每次采样的特征样本求均值,就得到了一个包含每个变量n期均值、样本容量为采样次数m的新样本,根据该样本进行最小二乘估计,可以得到每个变量均值的估计系数,即固定系数。

2.2.7 参数估计结果的检验

(1)模型整体拟合优度检验

特征样本变参数模型拟合优度检验的思路与普通最小二乘估计一致,都是考察残差平方和在被解释变量离差平方和中的比重,这个比重越小,说明模型的拟合优度越好。把变参数回归中n个回归方程作为一个整体时,可以得到整体残差平方和(TSSE)与被解释变量的整体离差平方和(TSST)。特征样本变参数模型的拟合优度R2用整体被解释变量离差平方和中除去整体残差平方和的部分所占的比重来表示,R2越大,表示变系数模型的整体拟合优度越好。

(2)模型整体固定系数显著性水平检验

对于按变量均值估计的固定系数,采用t检验方法,可获得对模型固定系数估计的可信度评价。

(3)各期可变系数显著性水平检验

一个包含k个自变量的变参数线性回归模型每期有k+1个系数。对每个系数进行一次t检验,可以获得t值和对应的P 值,据此可以对系数估计结果进行判断和评价。t 检验系数的标准误采用每期估计的残差和对应的方差-协方差矩阵来估计。

3 应用案例

根据经济分析的需要,建立一个有关居民消费价格指数(cpi)的时变参数模型,解释变量为人均消费支出(income)与货币供应量(m),建立如下变参数模型:

其中,αt和βt分别是各期截距项和变量项可变系数。分析时期是从2011 年到2020 年的10 年。在分析中根据经验可以知道该时期的变量特征,故采用特征样本参数估计方法。各个变量的分布特征如表1所示。

表1 变量分布特征

依据变量分布特征对每个变量进行特征样本采样,在采样程序中输入解释变量数k=2,样本期n=10,采样次数m=500,得到500 个样本。按前述步骤和程序进行运算,设定cpi的凸函数参数为0.8,m的凹函数参数为1.2,参数估计和检验后得到结果如表2所示。

表2 居民消费价格模型可变系数估计及t检验结果

各可变系数的自回归方程为:

整体均值固定系数的方程及其检验结果为:

模型的分期系数和固定系数的t 检验结果均显著,拟合优度R2为0.7494,拟合效果较好,模型整体估计结果有效。

根据式(10)的估计结果,人均消费支出对居民消费价格指数的负面影响是逐渐缩小的,而货币供应量对居民消费价格指数的影响由负向转为正向,并且正向影响随时间推移而增强。与固定参数模型相比,这一估计结果不仅体现了人均消费支出和货币供应量对居民消费价格指数的影响,而且更加精确地反映了这种影响随时间变动的情况。

4 结论

本文提出了一种基于特征样本的变参数模型估计(FSVR)方法,通过对重复抽样的每一期样本分别回归来实现时间序列模型的变参数估计。得出以下结论:(1)FSVR方法是一种新的方法,该方法简便易行,给出了变参数模型参数估计的另外一种思路。在社会科学研究中,很多时候存在数据短缺问题,有了特征样本采样方法,就可以根据经验来获取样本,依据特定的程序,把可变系数估计出来。(2)FSVR 方法符合贝叶斯统计原理,在进行参数估计之前,依据经验给出参数的先验分布,然后将基于先验信息的特征样本纳入参数估计过程,这样就能够把握大方向和减少偏误。(3)利用FSVR 方法估计模型的可变参数,是基于某种分布通过计算机重复采样对参数进行模拟,符合蒙特卡罗模拟原理。(4)FSVR 方法将按时期长度得到的样本容量转换成按采样次数计算的样本容量,可以将小样本估计变成大样本估计。(5)FSVR方法估计的可变参数需要进行两个层次的检验。在分期层次上,设计了系数的t检验;在整体层次上,设计了整体固定系数检验和拟合优度检验,模拟拟合效果和参数估计效果优劣都可以通过这些检验来完成。

本文应用实例的估计结果显示,该方法可以得到较好的变参数估计结果,FSVR 方法适用于社会科学领域小样本变参数估计。当然,本文仅对FSVR 方法的原理、检验和应用进行了介绍,后续还需要对估计残差的检验、与状态空间模型对比的优劣及估计结果的稳健性等方面进行进一步的研究。

猜你喜欢
样本容量参数估计时变
基于新型DFrFT的LFM信号参数估计算法
采用无核密度仪检测压实度的样本容量确定方法
基于时变Copula的股票市场相关性分析
基于时变Copula的股票市场相关性分析
Logistic回归模型的几乎无偏两参数估计
基于向前方程的平稳分布参数估计
烟气轮机复合故障时变退化特征提取
基于竞争失效数据的Lindley分布参数估计
基于MEP法的在役桥梁时变可靠度研究
广义高斯分布参数估值与样本容量关系