应用ARIMA-GRNN模型对肾综合征出血热发病率时间序列数据的预测研究*

2015-03-09 11:13伟郭军巧安淑一关鹏周宝森
中国卫生统计 2015年2期
关键词:发病率综合征样本

吴 伟郭军巧安淑一关 鹏周宝森△

应用ARIMA-GRNN模型对肾综合征出血热发病率时间序列数据的预测研究*

吴 伟1郭军巧2安淑一2关 鹏1周宝森1△

目的阐述ARIMA-GRNN模型预测肾综合征出血热发病率的方法和步骤,探讨其在综合征出血热发病率预测中的应用。方法利用辽宁省1962-2008年的肾综合征出血热发病率时间序列数据作为训练集,建立ARIMA模型和ARIMA-GRNN模型,选取2009-2011年的数据作为检验集,评价模型的拟合和预测效果。结果ARIMA(2,1,1)模型和ARIMA-GRNN模型拟合值的平均误差绝对值分别为1.14和0.77;预测值的平均误差绝对值分别为0.53和0.20。ARIMA-GRNN模型的拟合和预测效果均优于ARIMA模型。结论ARIMA-GRNN模型能有效模拟、预测肾综合征出血热的发病疫情,具有较强的推广应用价值。

肾综合征出血热 时间序列 发病率 预测

肾综合征出血热(hemorrhagic fever with renal syndrome,HFRS)是由布尼亚病毒科的汉坦病毒属引起,包括汉坦病毒、汉城病毒、obrava-Belgrade病毒和普马拉病毒[1]。HFRS流行范围广、病死率高,已经严重危害人民的生命健康,属于我国重点防治传染病之一。控制HFRS有效措施之一就是预测其发病情况,在此基础上有针对性地采取灭鼠和疫苗接种措施,将会达到事半功倍的效果。对于HFRS发病率的预测,近年来普遍使用的有灰色预测模型[2-4]、时间序列模型[4-5]和神经网络模型[6-9]等。灰色模型对于单调递增或递减短期时间序列预测的精度尚可,对于波动大、时间长的数据预测效果较差。时间序列模型中的ARIMA模型属于传统的线性预测方法,但是当疾病的发病变化比较复杂时,其预测精度往往较低。广义回归神经网络(generalized regression neural network,GRNN)具有较强的逼近能力、较快的学习速度,并能够收敛于样本量聚集较多的优化回归面[9]。本研究拟建立ARIMA-GRNN模型对HFRS发病率进行预测,探讨其在传染病预测中的应用前景。

材料与方法

1.资料收集HFRS发病资料来源于辽宁省疾病预防控制中心,收集1962-2011年HFRS年发病率资料,其序列图见图1。

图1 辽宁省1962-2011年HFRS年发病率序列图

2.方法

(1)ARIMA(p,d,q)模型建立[10]ARIMA时间序列预测的建模过程按4个阶段进行:序列平稳性检验及平稳化处理、模型的识别、模型参数估计和模型诊断、预测应用。使用1962-2008年的数据建立模型,使用2009-2011年的数据检验模型的预测效果。

(2)ARIMA-GRNN模型建立[11]

根据建立的最优ARIMA预测模型,对HFRS发病率进行拟合分析,可以获得每个实际观察值的ARIMA模型拟合值;将ARIMA模型拟合值作为GRNN模型的输入样本A,将时间信息作为输入样本B,实际值作为输出样本,建立一个2维输入、1维输出的GRNN预测模型。使用1962-2008年的数据作为学习样本,根据Donald F.Sprecht提出的光滑因子的确定方法[12],在其中随机选取2个样本(待估点)用来确定光滑因子;把2009-2011年的数据作为测试样本。所有数据按进行归一化后分析。最后利用训练好的网络进行外推预测,得到的输出值经过反归一化后即为最终预测值。

(3)数据处理使用Eviews8.0软件进行序列平稳性检验;SPSS13.0软件建立ARIMA模型;利用Matlab7.0软件中的神经网络工具箱编程构建ARIMAGRNN模型。

结 果

1.ARIMA(p,d,q)模型的建立过程及结果

(1)序列平稳性检验及平稳化处理 时间序列分析需要建立在序列平稳化的条件之上。一个平稳的随机过程有以下要求:均数和方差不随时间变化,自相关系数只与时间间隔有关,而与所处的时间无关[10]。观察原始年发病率数据(图1),可以发现该序列向右上方倾斜,并且波动幅度增加,说明原始序列存在异方差性和增长趋势。使用Eviews 8.0软件对原始序列进行ADF检验,结果显示ADF=-1.387,P=0.152,原始发病率序列为非平稳序列。为了使序列平稳,我们对原始序列进行自然对数转换,并进行一次差分。对处理后序列进行ADF检验,结果显示ADF=-3.182,P=0.028,所以处理后序列可以认为是平稳序列。

(2)ARIMA(p,d,q)模型的识别 根据差分次数,可以选定模型的形式为ARIMA(p,1,q),其中p和q是待定的参数,表示模型中的自回归阶数和移动平均阶数,其确定可以根据自相关图和偏自相关图进行估计。本研究中的自回归系数和偏回归系数均为2阶拖尾,初步考虑ARIMA(1,1,1)、ARIMA(1,1,2)、ARIMA(2,1,1)和ARIMA(2,1,2)为备选模型。

(3)ARIMA(p,d,q)模型的参数估计及诊断 根据拟合优度、参数是否有统计学意义及残差是否白噪声决定优模型的模型阶数。备选模型参数估计及拟合优度检验结果见表1、2。模型ARIMA(2,1,1)的AIC及BIC值均为最小,其拟合优度最好,并且参数AR1、AR2和MA1均有统计学意义(P<0.01)。对模型ARIMA(2,1,1)的残差序列作自相关和偏自相关图,结果显示BOX-Ljung统计量均无统计学差异(P>0.05)。认为残差序列是白噪声,所选模型恰当。

表1 备选模型参数估计

表2 备选模型拟合优度统计量

2.ARIMA-GRNN模型的建立过程及结果

随机选取了1980年和1999年HFRS发病率作为待估点,用来寻找最优光滑因子。通过不断尝试,我们从0.05开始选择光滑因子每次增加一个单位量(0.01),分别得到待估点的预测值,将待估点预测值与样本实测值之间平均平方误差最小时的光滑因子作为最优值。取不同光滑因子时待估点的预测值与样本实测值之间的平均平方误差见图2。根据图示,最优光滑因子定为0.09。

图2 最优光滑因子的确定

3.ARIMA模型和ARIMA-GRNN模型的比较

(1)两种模型拟合效果的比较 ARIMA模型和ARIMA-GRNN模型对1962-2008年数据的拟合误差曲线见图3。计算拟合平均误差绝对值,ARIMA模型为1.14,ARIMA-GRNN模型为0.77。显然,和ARIMA模型相比,ARIMA-GRNN模型对原始数据的拟合逼近效果更好。

(2)两种模型预测效果的比较 ARIMA模型和ARIMA-GRNN模型对2009-2011年数据的预测结果见表3。ARIMA模型和ARIMA-GRNN模型的预测平均误差绝对值分别为0.53和0.20。和ARIMA模型相比,ARIMA-GRNN模型的预测效果更好。

图3 ARIMA模型和ARIMA-GRNN模型的拟合误差曲线

表3 两种模型对辽宁省2009-2011年HFRS发病率预测结果比较

讨 论

时间序列分析作为传统的线性模型分析手段,克服了影响预测对象的因素错综复杂、不易分析和数据资料不易得到的难题,以时间序列变量综合替代各种影响因素,模型的建立过程简单、经济、适用,短期预测精度较高[13]。但是,其缺点也比较明显,如对于不规则数据序列难以确定合适的模型结构等[11]。因此,对于HFRS发病率这类影响因素多,因素间相互作用复杂,且有一定非线性特征的时间序列,单纯使用传统的分析方法进行预测,其预测的精度往往难以令人满意。广义回归神经网络具有较快的学习速度、较好的处理不稳定数据的能力、网络结构较少受人为主观因素影响和预测结果稳定等特点,因而可用于多种非线性关系的拟合与预测[9]。由于HFRS发病率数据中既包含线性趋势又包含非线性趋势。因此,可以先使用ARIMA模型预测HFRS发病率,使其线性规律包含在ARIMA模型的结果中。接着通过具有高度非线性逼近能力的GRNN模型反复学习归纳原始数据和ARIMA模型拟合值之间的关系,建立兼有ARIMA模型和GRNN模型优点的ARIMA-GRNN模型。

辽宁省1962年开始有完整的HFRS疫情资料记载。本研究对1962-2011年的疫情资料数据进行分析,分别建立ARIMA模型和ARIMA-GRNN模型。研究结果证实,ARIMA-GRNN模型对原始数据的拟合和预测效果要优于ARIMA模型。ARIMA-GRNN模型计算简单,预测精度高,所需的资料较少且易于获得,对于HFRS发病率资料是一种较好的预测模型,为HFRS的防控提供可靠的理论依据。在模型的实际使用过程中,确定ARIMA-GRNN模型的最优光滑因子是建模的关键,光滑因子越小,网络对样本的逼近性能就越强;光滑因子越大,网络对样本数据的逼近过程就越平滑。我们综合考虑模型的拟合和外推能力,通过不断尝试,反复计算,把待估点预测值与样本实测值之间平均平方误差最小时的光滑因子作为最优值,使模型的逼近性能和泛化性能达到平衡。虽然ARIMAGRNN模型拟合和预测效果较好,但是和其他常用的数学模型一样,主要从数据上反映疾病的发展变化趋势,所得到的结论都只是建立在既往历史疫情数据和单纯数学统计分析的基础上,一旦参数发生变化或无法获得相应参数时,也就无法做出预测[14]。此外,影响HFRS发病的因素错综复杂,很多影响因素未被考虑到模型参数中,可能会影响到结果的准确性。因此,在实际工作中,在有条件的情况下可以全面收集影响HFRS的发病因素,建议建模时加入相关因素以进一步提高模型精度。再次,ARIMA-GRNN模型是建立在ARIMA模型基础之上的,其结构更为复杂。但是考虑到其拟合和预测准确性提高的幅度较大以及目前计算机硬件水平对于这种规模的计算还可以承受,我们认为使用ARIMA-GRNN模型建立HFRS预测模型还是可以被接受的。

1.石健.我国肾综合征出血热流行病学研究进展.中国人兽共患病学报,2007,23(3):296-299.

2.刘洁,曲波,何钦成.应用GM(1,1)模型对全国1999-2009年肾综合征出血热疫情分析及预测.中国媒介生物学及控制杂志,2011,22(3):248-250.

3.葛洪福.灰色预测模型GM(1,1)模型在HFRS发病趋势预测中的应用.现代预防医学,2000,27(1):107.

4.吴伟,关鹏,郭军巧,等.GM(1,1)灰色模型和ARIMA模型在HFRS发病率预测中的比较研究.中国医科大学学报,2008,37(1):52-55.

5.郭海强,丁海龙,曲波,等.应用ARIMA模型对全国2004-2009年肾综合征出血热疫情分析及预测.中国人兽共患病学报,2010,26(2):1137-1140.

6.丁守銮,王洁贞,袁晓红.肾综合征出血热发病率的ANN预测模型.山东大学学报(医学版),2002,40(2):100-102.

7.朱奕奕.人工神经网络在上海市肾综合征出血热发病率预测中的应用.上海预防医学,2012,24(5):229-232.

8.吴泽明,吴伟,王萍,等.应用BP人工神经网络模型预测肾综合征出血热发病率.中国媒介生物学及控制杂志,2006,17(3):223-226.

9.吴伟,郭军巧,王萍,等.广义回归神经网络在肾综合征出血热发病率预测中的应用.中国媒介生物学及控制杂志,2007,18(6):483-487.

10.张文彤主编.SPSS11.0统计分析教程.北京:北京希望电子出版社,2002,250-287.

11.严薇荣,徐勇,杨小兵,等.基于ARIMA-GRNN组合模型的传染病发病率预测.中国卫生统计,2008,25(1):82-83.

12.Sprecht DF.A general regression neural network.IEEE Trans Neural Networks,1991,2(6):568-576.

13.韩琴,苏虹,王忱诚,等.ARIMA模型与GRNN模型对性病发病率的预测研究.现代预防医学,2012,39(6):1337-1340.

14.刘刚,唐宋,孙文杰.时间序列分析法在香港结核病预测中的应用.中国卫生统计,2012,29(2):226-228.

(责任编辑:刘壮)

Application of ARIMA-GRNN Model to Predict the Incidence of Hemorrhagic Fever with Renal Syndrome

Wu Wei,Guo Junqiao,An Shuyi,et al.(Department of Epidemiology,School of Public Health,China Medical University(110122),Shenyang)

To describe the procedure of building ARIMA-GRNN model,and explore the value of potential application of the above model to predict the incidence of hemorrhagic fever with renal syndrome.ARIMA and ARIMA-GRNN models were established using the incidence of hemorrhagic fever with renal syndrome in Liaoning province from 1962 to 2008,and the fitting and predictive performances were evaluated using the data from 2009 to 2011.The mean absolute value of error for fitted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77,respectively;and the mean absolute value of error for predicted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77,respectively.This suggested that the fitting and predictive efficacies of ARIMA-GRNN model were better than ARIMA model.ARIMA-GRNN model could effectively fit and predict the incidence of hemorrhagic fever with renal syndrome,which was of great application value for the prevention and control of hemorrhagic fever with renal syndrome.

Hemorrhagic fever with renal syndrome;Time series;Incidence;Predict

*国家自然科学基金项目(No.81202254);国家自然科学基金项目(No.30771860)

1.中国医科大学公共卫生学院(110122)

2.辽宁省疾病预防控制中心

△通信作者:周宝森,Email:bszhou@mail.cmu.edu.cn

猜你喜欢
发病率综合征样本
SAPHO综合征99mTc-MDP及18F-FDG代谢不匹配1例
多晒太阳或可降低结直肠癌发病率
Chandler综合征1例
用样本估计总体复习点拨
考前综合征
ARIMA模型在肺癌发病率预测中的应用
猪繁殖与呼吸综合征的预防和控制
规划·样本
随机微分方程的样本Lyapunov二次型估计
宫内节育器与宫颈糜烂发病率的临床研究