基于对数正态分布的新型冠状病毒肺炎病例统计特征分析

2022-09-29 10:54赵宜宾张艳芳任晴晴
工程数学学报 2022年4期
关键词:病源正态分布对数

赵宜宾, 张艳芳, 任晴晴

(防灾科技学院基础部,河北 三河 065201)

0 引言

自2019 年12 月以来,湖北省武汉市发现多起不明原因的病毒性肺炎病例,经医学专家证实为一种新型冠状病毒感染所致。2020 年1 月20 日世界卫生组织将其命名2019 新型冠状病毒即COVID-19。自从COVID-19 出现后,迅速在湖北扩散,发病人数不断上升。天津第一位病例是从武汉旅游回来发病,随后确诊。由于交通网络发达,而且正值春节前夕,人口流动大,病例通过各渠道迅速传播,发病人数不断上升。2020 年1 月21 日,自天津发布了首例输入性COVID-19 确诊病例,天津积极采取防控措施,明确了涉外疫情防控和入境人员健康管理规定。为了帮助大家了解疫情发展状况减少群众恐慌,国内外学者都积极投入到有关疫情的研究中,很多医学工作者从患病者症状和治疗过程情况进行研究[1–3]。早前的学者应用微分方程模型研究流行病的发展趋势[4],针对新冠疫情的传染特点,从事数学工作的学者也应用微分方程动力系统和数据分析方法对疫情发展趋势进行分析和预测[5–8]。严阅等[9]建立了一类基于时滞动力学系统的传染病动力学模型,通过该模型反演出了各地的传染率和隔离率,并预测了各地的疫情发展趋势。王志心等[10]通过机器学习对确诊人数趋势进行了预测。耿辉等[11]给出多种相关干预措施下疫情发展趋势的预测。通过统计分析方法进行系统建模,挖掘研究对象的发展规律[12]被证明是高效的。刘海涛等[13]利用正态分布较好地模拟岩样的声波测试结果。Sarkar 等[14]通过威布尔分布给出了合理应用风能的相关参数。在传染病的研究中,潜伏期的规律分析[15–17]对于疫情防控和后期治疗有重要的意义,这也是本文研究主要内容。

本文以天津市2020 年1 月21 日至2 月27 日确诊的136 位病例数据为源数据,以接触时间和发病时间明确为主要依据,筛选出84 例样本做为研究数据,以对数正态分布模型和单因素方差分析为主要研究工具,对于新型冠状病毒的潜伏期特征进行全面分析。

1 天津疫情概况分析

1.1 数据来源与特点

数据来源为天津市政务网(www.tj.gov.cn)上通报的从2020 年1 月21 日至2 月27 日在天津地区确诊的136 例新型冠状病毒病例样本,此样本也是截止到2020 年3 月7 日天津疫情基本结束的天津地区全部病例样本。

本文研究样本具有以下3 个特点。

1) 数据信息比较完整

天津确诊病例信息对于接触、发病、确诊时间记录相对完整,对于病例的流动和接触途径,以及病例间的关联关系记叙明晰,数据链相对完整。

2) 病源输入相对固定

天津疫情的输入病源主要是动车职工、百货大楼销售员、和个别输入病例,数据单一可使接触时间确定相对准确。

3) 数据噪声小

天津市疫情防控措施及时到位,对于病例发现、隔离、救治过程科学合理,同时天津市的人口流动性相对较小,病例之间的交叉感染机率极大降低,数据信息比较真实。

以上样本特点决定了数据信息的真实、可靠,据此用科学方法分析出的结论,对于病源的数理特征的反映是真实可靠的。

1.2 数据清洗方案

截止2020 年3 月7 日,天津市共有确诊的新冠病毒肺炎病例136 例,舍弃与确诊患者或病源没有明确接触时间的样本,并依据如下原则确定病毒感染时间。

原则1如果有明确接触时间的,感染时间确定为接触时间。比如,2020 年1 月20 日到百货大楼购物,则感染时间定在2020 年1 月20 日。

原则2如果可触时间是时间段,3 天以内的以第2 天作为感染时间,超过3 天的,以第3 天作为感染时间。比如,2020 年1 月21 日至1 月25 日曾到武汉出差,则病毒感染时间定为2020 年1 月23 日。

原则3如果是同住亲属,病毒感染时间相同。如果亲属接触感染,则以接触日作为感染时间。

在此基础上,定义病毒潜伏期为从健康个体感染病毒到新冠肺炎病症特征出现的间隔期。依上述原则,筛选84 个病毒感染时间明确的病例作为病毒潜伏期的研究样本。

对于样本中的3 例无症状感染者,潜伏期定义为患者病毒感染至确诊的时间间隔。

1.3 样本数据特征概述

对选定的研究样本做简单的数字特征统计分析,如表1 所示。集中趋势的三个度量指标基本一致,约为11 天,潜伏期的偏度和峰度两个数字特征均大于1,表明分布呈尖峰态且右偏,由于个别病例潜伏期超长,故概率密度曲线存在右侧拖尾现象。

表1 病毒潜伏期数字特征统计分析

对样本的简单统计分析显示样本具有对数正态分布的相关特征。

进一步,对样本做是否服从对数正态分布的非参K-S(Kolmogorov-Smirnov)检验,得统计量D=0.118 95,检验的p值为0.171 2≫0.05,即潜伏期的统计分布与对数正态分布无显著差异。因此,假定潜伏天数服从对数正态分布是合理的,故下文将用对数正态分布来描述潜伏期的统计规律。

2 基于对数正态分布的潜伏期特征描述

为了能够对病毒潜伏期规律从机理上有更客观清晰的描述,首先,介绍关于超出量和对数正态分布的相关理论知识。

2.1 统计分布超出量相关概念

为了能够对随机变量的统计规律做更完备的描述,文献[18]给出了关于分布超出量的相关概念。

定义1[18]若随机变量X ∼F(x),记

则称集合A为分布F的支撑,x∗和x∗分别为分布F支撑的上端点和下端点。

定义2[18]设X1,X2,···,Xn是来自总体X的样本,总体X的分布函数为F(x)支撑的上端点为x∗,对某个任取较大的ux∗,称

为随机变量X的超阈值的分布函数,简称超出量分布。

由公式(1)超出量分布的概率密度函数为

定义3[18]称e(u)=E(X −u|X>u)为随机变量X的平均超出量函数。

平均超出量函数主要描述随机变量取值大于给定阈值的部分的平均值,是用于描述随机变量尾部的重要数字特征,用于对随机变量的统计规律性的全面完整表述。

2.2 对数正态分布理论概述

定义4设X是取值为正的连续型随机变量,若lnX服从正态分布,则称X服从对数正态分布。

若X服从对数正态分布,令其分布函数为F(x),密度函数为f(x),则有

其中µ和σ分别为lnX的均值和标准差。对数正态分布适用于有更大向上波动可能、更小向下波动,且分布具有不对称性的变量的统计规律的描述。

若X服从对数正态分布,则根据数学期望和方差定义,容易得出

根据定义3,对于给定阈值u可以得出对数正态分布的平均超出量近似为

分位数是在用统计分析方法描述研究对象的变化规律时一个十分有效的工具,其定义如下。

定义5若随机变量X ∼F(x),称

为F的p分位数。

在损失评估中常用分位来表达灾害的重现水平或计算重现期。在本文中,若以天为单位的病毒潜伏期X服从对数正态分布,则分位数xp表示p×100%的患者的病毒潜伏期小于xp天。

可用极大似然估计法求得对数正态分布中的参数µ和σ的估计值:令x1,x2,···,xn是一组样本值,则可得对数似然函数为

令对数似然函数分别对µ和σ的偏导等于0,可得方程组如下

解方程组可得参数的极大似然估计值为

2.3 基于对数正态分布的病毒潜伏期特征分析

利用第1 节选取的研究病毒潜伏期数据样本,根据公式(9),可得对数正态分布概率参数的极大似然估计为ˆµ=2.43, ˆσ2=0.21。

模型的适用性检验,如图1。以对数正态分布的分位数为横轴,以样本数据分位数为纵轴的对数正态分布QQ 检验显示了数据散点总体上是沿第一象限45◦线分布,如图1(a)所示。经验分布函数与估计的潜伏期分布曲线契合度较高,如图1(b)所示。因此,用对数正态分布来描述病毒潜伏期规律是适用的。

图1 对数正态分布适用性检验

潜伏期的对数正态密度曲线与样本频率分布规律,如图2 所示。

图2 概率密度 频率图

估计的概率密度曲线与潜伏期的频率直方图轮廓基本吻合,说明病毒潜伏期统计规律可以用对数正态分布描述。进一步,做样本值的频率与相应密度函数值整体的相关性的F检验,得统计量F= 18.051 3≫1,检验p值6.2×10−5≪0.05,说明频率与密度曲线是相关的,计算相关系数R2= 0.7,说明建立的对数正态模型可以解释样本数据70%的变异。

综合上述检验结果,利用对数正态分布对潜伏期统计规律进行分析是合理和可信的。

由均值公式(4),得E(X)≈12.59,表明新冠肺炎病毒的平均潜伏期约13 天,对比现行政策,在防控形势严峻且医疗资源缺乏的情况下,对疑似对象观察14 天的规定是合理的。但公式(5)计算得方差D(X)≈37.04(标准差约为6.1 天),说明不同个体的潜伏期长短存在着较大的差别,也就是在疫情防控资源允许的情况下,应该延长对疑似对象的隔离留观天数,这样会取得更好的防控效果。

计算分位数可得x0.95≈24,表明95%的患者潜伏期在24 天以内。由式(6)计算x0.95的平均超出量可得e(x0.95)≈6.71,也就是说,约有5%的患者,他们的平均潜伏天数应该是30 天左右,这与已经发现的潜伏期超长的患者数据是相对应的,由于新型冠状病毒在潜伏期也具有传染性,所以具有超长潜伏期的这5%的患者将给疫情防控带来极大困难。因此,在条件允许的情况下,适当延长对密切接触者的隔离留观时间是合理,也是必要的。

3 潜伏期影响因素的方差分析

确定新型冠状肺炎病毒潜伏期的影响因素,对疫情防控有着重要的意义。下面将从年龄、性别和接触方式上,对病毒潜伏期进行差异性分析。

3.1 数据预处理

简单数字特征统计分析发现数据有三个异常点,差异性分析前将下面三个异常点去除,如表2 所示,三个异常点均为潜伏期天数超长,这也与当前发现核酸检测呈现阳性而无症状病例相吻合。

表2 异常点数据表

3.2 年龄对病毒潜伏期的影响

按0∼18 岁、9∼35 岁、36∼50 岁、51∼65 岁及65 岁以上五个年龄段,对样本进行分组,对各组分别进行简单的数字特征分析和正态分布的K-S 检验,结果如表3 所示。

表3 各年龄段病例潜伏期数据统计特征及正态分布检验

在0∼18 岁年龄段,数据样本只有两个,一方面分析结果没有统计意义。另一方面,是不是真正表明青少年对新冠肺炎具有较强的免疫力,这需要进一步搜集数据进行研究。鉴于此,下面的分析将只对年龄在19 岁以上各组样本进行。

不同年龄段的数字特征及正态分布K-S 检验结果(表3)说明各年龄段病例的潜伏期均可认为服从正态分布(p值≫0.05)。同时,各年龄段病例潜伏期方差齐性检验p=0.167>0.05,即可认为各样本方差相等。

在样本数据服从正态分布,且方差相等的前提下,对各年龄段病例潜伏期均值做单因素方差分析p值= 0.98≫0.05。因此,统计意义上讲各年龄段潜伏期均值无显著性差异,即除去疑似异常点后,潜伏期与年龄没有关系。

3.3 性别对病毒潜伏期的影响

将样本数据按性别分组,分别进行简单的数字特征分析和正态分布的K-S 检验,结果如表4 所示。

表4 不同性别病例潜伏期数据统计特征及正态分布检验

由表4 结果可以看出,男性和女性的潜伏期均可认为服从正态分布(p值≫0.05)。同时,两组病例样本的潜伏期方差齐性检验p=0.11>0.05,即可认为男性和女性样本的方差相等。

对男性和女性两组病例潜伏期均值做单因素方差分析p= 0.33≫0.05。因此,统计意义上讲病毒对于男性和女性的潜伏期均值无显著性差异,即除去疑似异常点后,潜伏期与性别无关。

3.4 接触方式对潜伏期的影响

从常规的病理分析来看,一些传染病的潜伏期会受到传染途径的影响,如艾滋病、乙肝的传染途径不同,病源量级不同导致潜伏期不同[19],因此,不同的接触方式是否对新型冠状病毒的潜伏期有影响是值得探讨的一个问题。

本文将与病源的接触方式分为生活接触(与长时间携带病源患者较长时间在一起生活)和普通接触(相对来说,只是短暂相聚或偶遇接触的情况),分析在这两种接触方式下,潜伏期有无显著差异。

分别对两组样本分别进行数字特征分析和正态分布的K-S 检验,结果如表5 所示。

表5 亲属接触与一般接触病例潜伏期方差齐性检验表

数字特征及K-S 检验结果表明,两组病例的潜伏期均可认为服从正态分布(p值≫0.05)。同时,对两组病例潜伏期方差齐性检验p= 0.98≫0.05,即两组数据在统计意义上可认为方差相等。

对两组病例潜伏期均值做单因素方差分析,由于p= 0.016< 0.05,故认为两组病例的潜伏期均值存在显著性差异,即对于一般疑似患者来说,与病源接触时间的长短可能会导致潜伏期的不同,也就是说潜伏期与接触病源方式有关。

4 模型讨论与展望

本文应用统计建模的方法对新型冠状病毒的潜伏期的数字特征及影响因素做了全面的分析,所得结论与现有的经验规律相吻合,说明模型是有效的。同时,由超阈值分布得出的超长潜伏期的均值是对现在经验的有益补充。

本文旨在为传染病潜伏期特征分析提供一套理论方法,所得的结论是依据所得样本做出的。所确定因素对潜伏期是否确有影响,需要进一步扩充样本容量进行深度数据挖掘来验证。各因素对潜伏期的影响程度及原因,还有待于医学专家从医学视角上进一步分析和论证。

由于分析数据只是天津市的病例样本,分析结果有一定的局限性,各地区病例潜伏期的特征和规律是否相同,在现有确诊方案下,病例的确诊时间具有何种特征等内容将是作者后续研究的重点方向。

猜你喜欢
病源正态分布对数
关于n维正态分布线性函数服从正态分布的证明*
指数与对数
指数与对数
比较底数不同的两个对数式大小的方法
生活常态模式
世界政治乱象的美国“病源”(纵横)
偏对称正态分布的若干性质
对数简史
正态分布及其应用
《诸病源候论》现代研究概况