非线性协整的非参数识别

2018-02-25 05:00马薇，葛通，肖凯

统计与决策 2018年24期

马薇，葛通，肖凯

（天津财经大学统计学院，天津 300222）

0 引言

协整分析是时间序列数据研究的基础方法，具有广泛的用途和蓬勃的理论生命力。近来，协整模型的研究范围得到进一步拓宽，发展出非线性协整、变结构协整、分数协整等理论。但是作为一个理论体系，广义上的协整模型形式庞杂、检验困难，这增加了研究的难度。本文试图借助非参数回归，对这一体系进行简化。

对非参数、半参数方法在协整模型中的应用，现有文献已经做了深入的讨论。Park和Philips（2001）[1]讨论了最优拟合核回归的残差的分布问题；Karlsen等（2007）[2]使用马尔科夫链技术对不同类型的非平稳序列非参自回归残差做了拟合；Wang 和 Philips（2009）[3，4]详细考察了单位根及近单位根序列做非参拟合在小窗宽大样本下的极限分布。在协整检验和关联关系识别中，核回归技术的应用细节，尤其是回归窗宽的选择，有待进一步研究。

窗宽是分析数据的角度，不同角度查看数据会看到不同的特征，有时会得到不同的结论。窗宽选择是否有理有据关系到研究的公信力。偏大的窗宽侧重考察全局共性、考察时空间的关联性、追求模型本身的稳健程度；偏小的窗宽侧重捕捉局部个性、捕捉特定观测值的异质性和变机制、追求样本数据的拟合效果。为更好地指导应用，有必要在理论上给出可靠的窗宽选择方法，为数据分析提供全面客观的角度。本文提出了基于交错鉴定的窗宽选择方法，可有效提升模型的稳健性。同时，本文还将部分统计量视为窗宽的函数，选择不同的研究角度（即窗宽），让机器反馈统计量的计算结果，给出统计性质的“全景描述”。这种用“人机结合”简化“模型穷举”的研究方式，达到了全面认识数据、简化研究过程的效果。

非参数方法在不同统计领域的研究，可使传统统计模型的应用范围得到拓展，具有重要的理论意义。另一方面，随着国际金融环境日趋复杂，互联网金融、供应链金融、区块链技术不断发展，高频数据的收集变得简单，对统计推断的要求也变得越来越高。非参技术提供了一个简捷稳健的协整分析方法，具有广泛的应用价值。

1 非参数回归对非线性协整的再定义

两个单位根过程不存在检验意义上的协整关系，是指以线性协整关系为原假设，数据没表现出统计上存在关联特征。传统检验所发现的非协整，或许存在某种弃真，背后的原因是回归模型形式被误设。使用非参数拟合，可以最大程度上囊括可能存在的协整关系模型形式，发现经济规律。下面重新定义协整关系，并讨论了关系的非参数拟合。

1.1 协整关系的重新定义

当Pt与ln(Qt)或者Q2t序列存在线性协整关系，但是观测到的数据只是Pt与Qt，那么，基于传统线性协整建模未必能发现经济变量间的存在负反馈机制。随着对变量关联机制认识的深入，需要拓宽协整关系的定义如下：

定义1：若存在f(x)，使得Yt-f(Xt)=ut，其中，Xt～I(d)，Yt～I(d)，u～I(b)，且b＜d，则称两变量存在广义协整关系。

若f(x)为线性函数，则称序列存在线性协整关系；不预设f(x)的函数形式，用核回归技术估计变量间的关联关系，称存在非参数协整关系。实际研究当中，有时还会采用半参数模型建模。

接下来的建模仅考虑经济上较为常见、数学上也更易处理的b=0且d≥1的情况。

1.2 协整关系的非参拟合

对关联关系的拟合，采用Nadaraya-Watson核估计，即寻找最优窗宽，使得ŷt=gh(xt)。

g(xt)有如下表达式：

其中K为核函数，而wi，t描述的是在估计t期y值时，i期y值所占的权重(或视为两组随机变量间的某种相关度)。

回归拟合是通过逐点估计来实现的，每一点的估计过程，可看成全部被解释变量在特定权重下的加权均值（在估计yi时，yj值的权重是依据xj距离xi的远近所决定的）。

用来检验协整关系的残差同样是窗宽的函数。

考虑到局部常数核回归在边界附近的估计值可能存在较大的偏差，而尾部相关性质对金融数据的研究至关重要，因此在实际研究当中，回归拟合有时也会选择局部线性、局部多项式等其他非参数回归形式。

1.3 窗宽选择与残差检验

拟合过程中最重要的工作，是基于特定准则寻找理想窗宽。这种寻找，通常试图追求较好的拟合效果。考虑到解释变量和被解释变量都是非平稳的，在这种数据生成过程的影响下，xi与xi+1取值较为接近，yi与yi+1取值同样较为接近。划定一个较小的窗宽做回归，窗宽内相近取值的x有很大的概率对应临近时期，进而对应相近取值的y。这种对应之下，非参估计将取得良好的拟合效果。但这种效果的取得，并不是因为非参估计发现了关联关系，这容易导致过拟合（即将无关序列拟合出某种长期关系，进而使得残差不再具有长记忆性）。

本文认为，在协整识别回归过程中，估计的目标不应是拟合出精细的关联关系，而应该是发现一种机制来消解序列的记忆性。选择窗宽需要注意避免协整检验意义上的过拟合。

对残差性质的研究，现有工作集中在极限窗宽下残差的渐进分布。在数据足够多、窗宽足够小的情况下，模型的确不用担心拟合不足或者过拟合的问题[5，6]。但实际数据分析工作的窘境在于，在有限的数据下，不同的窗宽有时会带来不同的结论，然而很难找到充分的理由选择或者拒绝某些窗宽，因此也就无法得到有说服力的结论。

本文给出了两种办法来回应，一是采用机器学习的思路，通过样本抽样训练、模型交错鉴定，最终找到协整检验意义上稳健的窗宽；二是全面展示不同窗宽下的残差性质及性质随窗宽变化表现出来的特征，让读者自己判断变量间的关联关系。

2 使用非参技术对非线协整的建模步骤

协整分析的过程大致可以分解为四步，分别是对原序列做记忆性检验、对协整关系做拟合、对拟合残差做记忆性检验和对模型做解释。在非线性协整的背景下，每一步都变得更为复杂。

2.1 检验序列的变结构特征和平稳性特征

协整分析仅针对去势后仍非平稳的数据。认识变量序列性质是协整检验的前提，这里的性质指序列平稳性和结构稳健性。

时间序列的变结构检验和平稳性检验已经有了较为广泛的研究。对于机制稳健的时间序列，常用的平稳性检验方法有ADF检验、PP检验和KPSS检验。变结构问题同样是计量理论历久弥新的问题[7-9]，对非平稳序列的结构稳健性有单独的研究[10]，对变结构模型的平稳性检验，有代表性的研究有文献[11-13]。

2.2 对协整关系的非参拟合

Nadaraya(1964)及Watson(1964)提出了著名的Nadaraya-Watson核估计。为了避免出现过拟合，可以采用交错鉴定原则约束窗宽的选择。方法大致可以表述为：把数据划分成训练集和测试集，使用训练集选择合适窗宽，然后使用测试集拟合数据、求解残差、对残差做单位根检验；反复地随机划分数据，选择出一个较大的窗宽，使得不同分组下单位根检验的结果趋于一致。

关于回归拟合，还有一点须补充，要选择合适的变量做回归的被解释变量。线性模型的设定下的二元方程（如y=kx+b），解释变量与被解释变量一一对应（给定x有唯一y与之对应，反之亦然）。因此在传统线性关系的设定下，即便选择不同的被解释变量，回归之间都可以等价变换。然而，在非线性关系的设定下，变量间的关系不再是严格的一一对应，这给回归拟合带来挑战（回归方法难以处理同一个自变量对应多个不同因变量的情况）。在实际研究当中，探索负反馈机制并不是简单地谁决定谁。使用非参数回归拟合非线性协整关系时，需要对比选择不同变量作为被解释变量来拟合所取得的效果，选择拟合效果好的形式。

2.3 对拟合残差的平稳性检验

对拟合残差的单位根检验是识别协整关系的关键。在复杂数据的背景下，残差可能存在变结构和变机制，平稳性的检验方法可以参照对原序列的检验过程。需要注意，残差平稳性的检验方法应该与原序列的平稳性检验方法保持一致。

2.4 对建模的经济学解释

非参数技术对协整的建模，是基于“模型穷举”的手段，为协整关系分析划定一个应用的边界。自变量回归窗宽的宽窄有经济上的含义。较大窗宽下的非参数协整描述的是稳健、相对持久的关联关系，而较小窗宽下的非参数协整描述的是一种不稳定的变机制关联关系。

非参数模型本身是不可解释的。在识别出协整关系之后，可以采用平滑手段、交错鉴定，用参数化的非线性模型替代已识别的非线性关系，一定程度上简化对模型的解释。这种简化也不是没有代价，通常需要伴随对异常点的解释。此外，对于非线性协整解释，常常要考察两个角度，即数据生成过程的非线性和关联关系机制的非线性。

3 使用非参技术对非线协整的建模示例

国内国外两个金融市场的需求，造成了汇率价格的短期波动；相应的，产品市场供求的变化造成了出口交易额的波动。汇率与出口额之间，一方面存在价格冲击供求造成的短期关联机制，另一方面某种的长期负反馈机制，适合开展协整分析。本文搜集月度数据，使用非参技术，对汇率与出口额间的关系做了协整分析。

3.1 序列的变结构特征和平稳性

汇率数据来自IMF月度数据（人民币/美元），当期出口总值取自海关月度数据。考虑到2005年7月，人民币汇率形成机制不再盯住美元，开启了对美元逐渐升值的过程，本文采集了1996—2005年和2006—2017年两组数据。在前一个时期，出口总值与人民币兑美元汇率不存在长期关联机制；而在后一个时期，一般认为金融市场与产品市场存在关联且关系是非线性的，示例试图检验出口额与汇率间的长期关联关系。

数据统计性质如表1所示：

表1 汇率数据与出口数据的统计性质（单位：千美元，人民币元/1美元）

不难发现，涉及到的序列均存在显著的单位根特征。后续计算对出口序列做季节性调整和取对数去势等整理，对汇率数据不作调整。数据分作两期讨论，不考虑两期间的关联关系。

在实际非线性协整检验时，通常要对序列的变结构特征和非线性特征做进一步的检验，而这些特征通常还会传递给回归的残差，以上都是检验残差平稳性所需的先验信息。数据整理后的折线图如图1所示：

图1 整理后出口总额、改革前汇率与改革后汇率三组数据的时间序列折线图

出口额随时间变化，一段时间稳定上述（除了在2008年前后有一次显著的变结构）。汇率值在2005年有一次显著的变结构，从此人民币进入上升通道，然后又在2008年经历了一段时间的稳定，接着继续升值，到了近三年，出现了回调和反复。汇率的变动，一定程度上缘于巨量产品出口带来的金融市场倒逼。为了探寻长期关联关系，绘制出口额与汇率值的散点图如图2所示：

图2 处理后的当期出口总额与当期汇率的散点图（时期分别是：1996-2017年，1996-2005年，2006-2017年）

散点图显示，数据间没有明显的线性关联关系。结合经济背景，2005年之前的汇率形成机制与产品市场无关，是一种盯紧美元的机制，波动源于金融市场。而2006年以来，汇率与出口额具有一定的关联关系，海外产品市场需求推动人民币升值（一个证据是，海外市场需求的下滑突变中断了人民币的持续升值）。

3.2 数据的协整检验

下面采用传统两步法，传统非参两步法（窗宽修正前）和修正非参两步法（窗宽修正后），分别对回归的效果和残差的平稳性做了检验。同时将被解释变量用AR（1）模型拟合，帮助我们认识其他回归的拟合效果与残差平稳性。见表2。

表2 回归拟合效果与残差平稳性检验

协整检验的首要任务是发现关联关系，下面首先考察2006年之后数据在各模型下协整检验的表现。见图3。

图3 2006年后数据函数关系的参数回归和非参数回归

不难看出，非参回归较参数回归实现了更细致的拟合效果。在中国制造全面崛起初期，随着出口需求的增加，人民币兑美元汇率加速下降，其背后是人民币需求的快速上升。而随着出口需求增速放缓，背后的人民币升值的脚步表现出较慢增速和较大方差。

图4 原始序列，线性拟合值的时间序列和非参数回归拟合值的时间序列

由图4，对比yt与ŷt可见，在2008年之前，使用出口贸易额所拟合的汇率低于实际汇率，这一定程度上描述了中国制造崛起带给人民币升值的压力。而2008年前后实际汇率低于拟合汇率，背后的故事是，人民币没有因需求停滞而大幅贬值。目前，随着全球经济回暖和中国供给侧改革，国际市场对中国制造（和交易所需人民币）的需求随之上扬，人民币再次迎来一定的升值压力。

在这个回归当中，非参数模型比线性模型更接近历史真实值。这反映了线性模型拟合的不足。正是这种不足妨碍了协整关系的识别。

考察残差平稳性，检验发现线性拟合得到的残差非平稳。这意味着，线性两步法无法识别原序列的非线性协整关系。而非参数两步法所得到的残差，残差变得平稳。此外本文还应用交错鉴定法修正了非参拟合，对回归做了平滑处理（这是以损失拟合效果为代价的），经检验，这种平滑对协整检验的影响并不显著。由此可见，非参数协整检验可以发现线性协整检验所不能发现的长期关联关系，并简化了非线性协整的建模。

3.3 交错鉴定对非参数回归中过度拟合的改善

将非参技术引入协整检验，需要避免因过拟合引起的检验取伪。上文说明了如何使用机器学习交错鉴定寻找约束下的最优窗宽，方法可以在一定程度上避免过拟合。回归结果如图5，上两图为时序图，下两图为函数关系图，左侧为传统窗宽拟合，右侧为修正窗宽下的拟合。

图5 小窗宽下与大窗宽下拟合效果的比较

而使用经验窗宽，在较好拟合被解释变量的同时，倾向于带来协整检验意义上的过拟合。而使用经验窗宽完成的非参拟合，所得残差平稳。而使用交错鉴定修正之后，拟合效果并没有显著降低，但残差单位根检验效果更加稳定，残差不再平稳。这避免了非参回归可能造成的协整检验取伪。

通常认为2005年之前的出口总值与汇率之间不存在关联关系。使用线性回归下的两步法协整检验，未能发现协整关系；基于交错鉴定做修正后的非参回归，残差也表现记忆性，未能发现协整关系。然而，在经验窗宽下对变量做非参数拟合，残差的记忆性将被回归破坏了。交错鉴定法选择窗宽，可以在一定程度上避免协整检验的取伪。

3.4 相关检验统计量随窗宽变化的规律

使用交错鉴定法修正窗宽，是对拟合做平滑的一种常用方法，可以尽量帮助研究在识别非线性协整的同时，避免协整检验意义上的过拟合（即避免检验取伪）。精准和稳健是两个目标，通常是矛盾的。实际应用时很难找到真正的最佳窗宽，或者说，不同窗宽下所做的回归都是有价值的，分别从不同角度上为研究提供了重要的信息。

为此本文考察非参回归当中重要统计量（R2值、AIC统计量、以及残差在ADF检验当中落入接受域的概率值）随回归窗宽变动的情况。这种变动的规律，可以加深我们对数据关联关系的认识。

表3 重要统计量随窗宽的变动情况

对于无关数据（2005年前的数据），统计量随窗宽变化而变化显著；而对于存在协整关系的数据而言，非参拟合从一开始就取得了较好的表现，在理想窗宽附近，并不存在统计量显著变化的过程。以回归的拟合优度为例描述统计量随窗宽变化的过程，如图6：

图6 拟合优度随窗宽的变动情况

随着回归所选的窗宽趋近于0，协整数据（2006—2017年）与无关数据（1996—2005年）的回归拟合优度都是趋于上升的。然而，协整数据的上升速度较为平缓，无关数据的拟合优度则快速上升。不同窗宽下，对残差做ADF单位根检验，可以得到类似的发现，示例如图7：

图7 P值随窗宽的变动情况

在窗宽较大时，两组数据的检验均呈现出较为稳定的P值，但是随着窗宽逐渐减小，无关数据率先经历了P值降低的过程（这时P值的快速突变是因为过拟合），而协整数据回归残差的单位根检验P值变化相对平缓。

研究还做了许多模拟数据实验，与上述数据所得结论基本一致。从拟合的角度来看，越复杂的非线性关联关系，往往需要越小的窗宽予以拟合。但是从协整检验的角度来看，使用较大窗宽的非参拟合，就可以实现对长期关联关系的识别，使得回归残差达到检验所要求的平稳。

4 结论

非线性协整关系的研究，通常关联复杂的数据生成过程、复杂的结构变化特征、复杂的关联关系形式。对这类数据做非参数回归，需要特别注意一些重要的技巧。本文对单位根检验、被解释变量选择、残差单位根检验等步骤中的注意事项做了提示，并针对非参拟合可能出现的过拟合问题做了讨论，给出了基于交错鉴定的窗宽选择方法。这种窗宽选择方法提升了协整检验的稳健性。

使用不同窗宽对数据做拟合，可以看成站在不同角度查看数据间的关联关系。非参回归所产生的相关统计量，一方面是样本的函数，另一方面也是窗宽的函数。不同窗宽下的回归统计量可以看成是不同的统计量。考察这些不同的统计量，可以得到评价关联关系的重要信息。“多窗宽”研究为我们提供了对数据的全景描述，让数据分析的视角变得全面客观。