重庆市艾滋病发病人数的ARIMA时间序列分析*

2018-11-05 09:49张孟媛罗佳伟
中国卫生统计 2018年5期
关键词:同性性行为异性

张孟媛 张 强△ 罗佳伟 杨 书

【提 要】 目的 探讨按感染途径分类建立ARIMA时间序列模型在艾滋病发病预测方面的应用,验证分析模型的可行性和适用性,为艾滋病防治提供更为精确的信息。 方法 利用重庆市2004年第一季度至2013年第四季度的艾滋病发病资料,建立ARIMA模型,对重庆市2014年各季度艾滋病发病人数进行预测和评价。 结果 分别为异性性行为序列,同性性行为序列,吸毒序列建立ARIMA(0,1,1)×(0,1,1)4,ARIMA(1,0,0)×(1,1,0)4,ARIMA(0,0,0)×(2,2,0)4模型,预测结果基本符合实际发病人数的变化趋势,验证了模型的可行性及按感染途径分类建模的适用性。结论 ARIMA模型可用于按感染途径分类模拟艾滋病发病在时间上的变化趋势,进行短期的预测。

艾滋病,全称获得性免疫缺陷综合症(acquired immune deficiency syndrome,AIDS),是由艾滋病病毒(HIV)引起并导致人类免疫功能受损,对人类造成严重危害的一种恶性传染性疾病[1]。2000年以后,特别是2004年以来,重庆市的艾滋病人数呈指数态势增长,给预防工作带来了严峻的挑战[2]。如果我们能通过以往的数据,建立一个可靠的模型,对艾滋病发病的总量进行一定程度的短期预测,为艾滋病发病的“三间分布”提供总量的先验信息,则会对卫生资源的配置带来良好的参考依据[3]。目前国内对于艾滋病疫情的预测常采用自回归滑动平均求和模型(auto regressive integrated moving average,ARIMA),展示出了良好的效果[4-7]。但由于以往的研究仅仅从总人群的角度考虑了各时点的自相关信息,没有单独考虑不同感染途径人群的发病趋势,无法提供各类感染途径人群具体的发病情况预测,降低了艾滋病防治的针对性。故本文拟从不同感染途径入手,把重庆市的艾滋病发病人群按异性性行为(含不详,下同)、同性性行为以及吸毒划分为3类,并对各类人群2004年第一季度至2013年第四季度的数据分别采用ARIMA模型进行建模,验证数据为2014年全年的数据,探讨不同感染途径人群的发病趋势预测方法,为重庆市艾滋病防治提供科学依据,并针对类似白噪的艾滋病吸毒人群序列进行建模方式的探索,为类随机数据的小样本研究提供一定的建模参考。

资料与方法

1.资料来源

2004-2014年的艾滋病发病数据由重庆市疾病控制与预防中心提供。发病人数由艾滋病感染对象的发病日期按月累计得到。

2.模型原理及建模方法

ARIMA模型的基本思想是将预测对象随时间推移而形成的数据序列视作一个随机序列,以平稳性为基础,利用序列不同时间点之间的相关性建立起一定的数学模型,即预测值可由过去若干个序列值以及随机误差的线性函数算出[8-9]。本文研究以季节为单位,考虑到序列可能存在一定的季节效应[10-11],故采用ARIMA乘积季节模型,表示为ARIMA(p,d,q)×(P,D,Q)s;D,d表示季节差分或一般差分的阶数,s表示季节周期(本例中s=4),P,Q,p,q分别表示季节与非季节部分的自回归与滑动平均的阶数[12-13]。运用R 3.2.5软件进行统计预测分析。

结果与分析

1.序列的平稳化

对2004年第一季度至2013第四季度的数据分别按异性性行为、同性性行为和吸毒分别绘制序列图,以季度为时间单位,起始点为2004年第一季度,见图1。时序图显示异性性行为和同性性行为序列有着明显的长期上升趋势,吸毒序列除2005年的波动值外其余时点均较平稳。为稳妥起见,对各序列的自相关(auto correction function,ACF)图进行进一步分析,发现除吸毒序列外,异性性行为和同性性行为的自相关函数呈线性递减的趋势,这提示我们需要进行差分处理[14];经1次一般差分处理后(d=1),异性性行为序列还存在一定的季节趋势,故又进行了一次季节差分(D=1),而同性性行为序列的时序图可以看出本序列有较强的周期性,鉴于此对序列进行了(diff=1,sdiff=0)、(diff=0,sdiff=1)2种不同的差分方式,差分后的自相关图和偏相关图表明经过(diff=0,sdiff=1)差分后,季节性和长期趋势得以消除的效果更为理想,所以取d=0,D=1。吸毒序列的时序图看起来非常像严平稳的白噪声序列,对其进行谱密度分析和白噪声检验后仍不能进行判断,但考虑到白噪声建立起的随机游动过程的非平稳性,对其进行(k=0,k=1)Dickey-Fuller单位根检验,P值分别等于0.171和0.010,说明序列是弱平稳的非白噪序列;分别对其进行一次季节性差分和一般差分,ACF和PACF(partial auto correction function)图显示两种差分的效果区别不大,故对两种差分方式分别建模比较拟合效果;一般差分滞后1阶时的自相关系数明显高于其他值,说明该序列是非平稳的。经过处理,3个序列可视为平稳序列,其自相关图和偏相关图如图2所示。

图1 重庆市2004-2013各类感染途径的艾滋病人群发病趋势图

图2 各人群原始序列的ACF与PACF图

2.模型识别

异性性行为序列超过95%的自相关系数和偏自相关系数落在了2倍标准差范围内,且做小值波动,呈拖尾性,除一阶滞后与界值较为接近,其余均不显著为0,故初步拟定异性性行为序列为模型ARIMA(p,1,q)×(P,1,Q)4,其中p、q、P、Q的值分别取0和1,共16种模型;同性性行为序列与异性性行为序列类似,除一阶和三阶滞后在界值以外,其余自相关系数和偏自相关系数呈现了类似的拖尾性,故初步拟定同性性行为序列为模型ARIMA(p,0,q)×(P,1,Q)4,其中p、q、P、Q的值分别取0和1,共16种模型;在吸毒序列的季节性差分下,模型季节性部分ACF拖尾衰减,PCAF一步截尾,但在滞后2阶时接近2倍标准差,呈拖尾性,波动较小,非季节性部分的ACF和PCAF均在2倍标准差之内,故初步拟定模型ARIMA(0,0,0)×(P,1,Q)4,其中Q取0和1,P分别取值0、1和2,共6种模型;对于一般性差分,季节性部分ACF和PACF较小,在0附近波动,非季节性部分ACF一步截尾,PACF滞后一阶在界限附近,其余自相关系数和偏自相关系数呈现了类似的拖尾性,故初步拟定模型ARIMA(p,1,q)×(0,0,0)4,其中其中p、q分别取0和1,共4种模型。

3.参数估计与模型选择

通过极大似然法估计初步拟定模型的参数,首先剔除至少一个系数不显著的模型,然后对剩下模型的残差进行Ljung-Box检验,选出P>0.05的模型,再从选出的模型中筛选AICc、AIC和BIC值最小的模型。若AICc、AIC和BIC值有所冲突,则选择AICc、AIC和BIC中任意2个较小的模型。结果显示异性性行为序列的最优模型为ARIMA(0,1,1)×(0,1,1)4,同性性行为序列的最优模型为ARIMA(1,0,0)×(1,1,0)4,吸毒序列的最优模型为ARIMA(0,0,0)×(2,2,0)4。

表1 各模型的参数估计及诊断

表2 各模型的模型评价

图3 各模型的残差正态图

4.预测应用

利用所建模型对2004年第一季度至2013年第四季度的各途径发病人数进行回代拟合,对2014年第一季度至第四季度的各途径发病人数进行预测,并用实际数据进行验证。结果显示,异性性行为和同性性行为序列预测数据和实际数据基本吻合,趋势基本相同,序列的实际值均落入预测值的95%置信区间内;经过一般差分的吸毒序列预测第一和第二季度效果较好,相对误差在30%左右,而经季节性差分的序列拟合第一和第四季度的效果较好,其第一季度预测的相对误差在10%以内,但两种模型对第三季度的预测均有较大的相对误差,详情见表3。

表3 2014年各季度各序列预测评价结果(人)

图4 性行为序列发病人数拟合及预测

图5 吸毒序列发病人数拟合及预测

5.预测评价及分析

时间序列分析主要目的在于对未来进行预测以评估其发展趋势,本研究对2004年第一季度至2013年第四季度各感染途径人群进行短期预测,预测结果异性性行为和同性性行为途径感染人群的拟合效果较好,其预测值和实际值之间的相对误差均在15%以内;吸毒途径感染人群的序列在不同季度拟合效果存在差别,两个序列在第一、第二和第四季度拟合效果良好,第三季度的拟合效果较差,相对误差达到40%;图5显示,吸毒序列1的拟合值变异较小,对2005-2009年数据的拟合效果优于序列2,而序列2对后1/2的数据拟合效果较好,随着滞后阶数的增加,实际值和拟合值的差异逐渐变小,预测趋于稳定。由于吸毒人群原始序列绝对人数较少,可能造成了第三季度预测较大的相对误差。

6.模型的更新和改进

异性性行为和两个吸毒模型残差的时间序列均存在着可疑的标准残差,对序列进行异常值检验。应用Bonferroni率[14]对可加性和新息性异常值进行检验。计算表明,对任何t而言,λ2,t都不是一个明显很大的数值,故没有存在可加异常值的迹象;同时,三个序列稳健化的λ1=max{λ1,t}均小于Bonferroni临界值(α=0.05,n=44),故不需考虑异常值的存在而对模型进行更新。

讨 论

1.ARIMA模型由平稳性假设出发,利用任何事物发展均具有一定惯性趋势的原理,基于不同时期数据之间的相关性建立预测模型,达到预测的目的。该方法将各种影响疾病发生发展错综复杂因素的总和效应统一近似表现为随时间变化的影响,综合考虑了序列的趋势变化、周期变化和随机干扰,并借助模型参数进行量化表达,而且可以通过反复识别修改获得满意的模型[15]。它结合了回归分析和移动平均各自的优点,具有使用范围广,实用性强、预测误差小的特点,是一种精确度较高的短期预测方法[16],近年来,ARIMA模型已经广泛应用到各种致病因素复杂的传染病预测中。

2.本文按照感染途径把艾滋病发病人群分为异性性行为传播、同性性行为传播以及吸毒传播三类,利用2004-2013年的艾滋病发病数据通过模型识别、估计、诊断等过程分别拟合了ARIMA(0,1,1)×(0,1,1)4,ARIMA(1,0,0)×(1,1,0)4,ARIMA(0,0,0)×(2,2,0)4等三个模型,结果显示,各序列艾滋病发病人群实际值均落入了预测值的95%可信区间内,且预测值的动态趋势和实际情况基本吻合一致,表明利用ARIMA预测重庆市各途径感染艾滋病趋势的可行性。另一方面也显示了预测的实用性和应用价值,根据发病人数既往的变化规律(线性趋势、季节性、周期性等),如果实际发病人数在预测值95%可信区间范围内波动,表明该季度疫情基本正常,如果超出预测值95%可信限范围,应提示并警惕传染病的暴发或流行的可能,可以为传染病预警预报及干预提供依据。

3.本研究证实了ARIMA模型能够较好地用于重庆市各感染途径艾滋病发病趋势的预测。由于感染途径是艾滋病发病趋势的一个重要影响因素,按感染途径分别对各序列进行预测能够增加对艾滋病发病趋势的把握,从而为艾滋病的防治提供更为精确的参考信息。不同病种、地区、时间段传染病发生发展的规律不全相同,故构建的模型也有所不同,按照感染途径分别建模在其他传染病预测预报中的应用也值得进一步研究。单次建立的ARIMA模型不能作为不变的工具,只能应用于短期预测;任何一个工具都有一定的使用时限,将ARIMA模型用于传染病时,需要及时更新数据并对模型进行修订,才能达到理想的效果。但吸毒感染途径由于绝对发病人数较少,波动较平稳,具有类似白噪序列的特殊性,其模型预测的适用时间更长;虽然不同地区可能存在差异,但其人群相对数量较小,在按感染途径分类的发病人群中结构相对稳定,模型适用的地区范围也更广;从适用时限和地区来看,更具有推广和实际意义。本次研究结果显示,吸毒序列2随滞后阶数的增加,模型拟合程度变高,其在日后的预测应用中可能展示更为良好的拟合效果,可进一步进行探索和求证。

4.ARIMA模型是一种从结果到结果的自相关预测方式,而不是真正的因果模型[17],对重大突发情况的预测能力较弱,所以在使用ARIMA模型进行预测时,若研究序列的趋势发生了较大的改变,应当结合实际情况进行全面综合的考虑,谨慎使用模型,才能有效地预测疾病的发病趋势。

猜你喜欢
同性性行为异性
同性极式感应子电机有限元分析及试验研究
“性”有更广泛的内涵!心理学家分析3种形式
浦东美术馆·大玻璃·独异性
昆明市不同性角色MSM的性行为特征分析
异性组
异性齿轮大赏
CERQ问卷在中国沈阳有性行为的中学生中的调查
同性危险性行为管理有空白
报告
作为美女,压力山大