康威-麦斯威尔-泊松分布及其统计与概率性质*

2017-03-14 03:22
关键词:康威泊松概率分布

姜 培 华

(安徽工程大学 数理学院,安徽 芜湖 241000)

康威-麦斯威尔-泊松分布及其统计与概率性质*

姜 培 华

(安徽工程大学 数理学院,安徽 芜湖 241000)

康威-麦斯威尔-泊松分布是一个有用的离散分布,它是扩展的两参数泊松分布,有关此分布的统计和概率性质被广泛研究和探索;文章以矩母函数为工具讨论了该分布的数字特征和矩,给出了参数点估计的隐式方程和费希尔信息矩阵;最后研究了参数的共轭分布、共轭分布的边际分布和条件分布.

康威-麦斯威尔-泊松分布;矩;点估计;信息矩阵;共轭族;指数族

泊松分布是一种应用广泛的离散型概率分布,在很多研究领域中所获得的数据往往满足泊松假定. 由于泊松分布是单参数分布,使得其在某些应用领域描述数据时具有很大的局限性. 众所周知,泊松分布的期望和方差是相等的,即它适合处理等度分散的数据. 对于过度分散(方差大于均值)和低度分散(方差小于均值)的数据泊松分布就无能为力,即便用其刻画描述效果也不够理想.一种解决办法是假定泊松分布的强度参数λ服从一个随机分布,这样就产生一个复合的层次分布,如文献[1]. 先前对于过度分散的数据常用负二项分布来处理,而对于低度分散的数据泊松分布和负二项分布均不适合描述和刻画.为了更好地处理过度分散和低度分散的数据,一些概率分布被逐渐提出,如文献[2]中的加权泊松分布(WP),文献[3]的中广义泊松分布(GP), 这两种分布都可以看作是泊松分布的推广. 为使泊松分布的使用范围更广泛,更符合实际,学者Conway R W and Maxwell W L在文献[4]中引入一种新的双参数泊松分布,在保留强度参数λ的前提下,增加了一个新的散度参数ν,称之为Conway-Maxwell-Poisson (CMP) 分布. CMP分布不仅推广了泊松分布,而且还包含了贝努利分布和几何分布两种特殊情形.Wimmer G等在文献[5]和[6]中运用CMP分布研究单词的长度.文献[7]中Boatwright P S, Borle S, and Kadane J B在客户关系管理研究中用CMP分布来刻画顾客连续两次交易的时间间隔. Galit Shmueli G等在文献[8]中重点研究了CMP分布中参数的估计问题.文献[9]中Sellers K F等利用CMP分布构造统计模型,研究其在市场营销、交通和生物等领域的应用.

1 CMP分布及其特例

CMP分布是泊松分布的深度推广,散度参数ν的引入使得其适用范围更加广泛,不仅保留了刻画等度分散数据的性质,而且还具备了研究过度分散和低度分散数据的特性. CMP(λ,ν)的概率分布如下:

(1)

(2)

其中,参数λ>0,ν≥0.对于式(2)容易看出其是关于λ的一个幂级数,注意到当λ>0,ν>0时,此级数的后一项与前一项的比满足:

当1>λ>0,ν=0时,有

(3)

总之,对于参数λ>0,ν≥0,式(2)是收敛的.

CMP(λ,ν)分布是泊松分布的推广,其包含了一些众人皆知的离散概率分布,对其参数取特殊值可得:

1)当ν=1,Z(λ,ν)=eλ时,CMP(λ,ν)分布即为传统的泊松分布P(λ).

3)当ν=0,0<λ<1,Z(λ,ν)=(1-λ)-1时,CMP(λ,ν)分布就退化为几何分布:

当ν=0,λ>1时,级数Z(λ,ν)不收敛,无法定义概率分布.

2 CMP分布的矩母函数和数字特征

矩母函数(Moment Generating Function简称MGF)是研究随机变量分布律和数字特征的一个重要分析工具.在统计学中,矩又被称为动差,矩母函数又被称为动差函数. 矩母函数的一个重要性质是它能把随机变量复杂的卷积运算转化为相对简单的乘法运算.本节首要介绍CMP分布的矩母函数,然后利用矩母函数作为工具研究CMP分布的数字特征.

若随机变量X~CMP(λ,ν)分布,则其矩母函数MX(t)为

定理1 设随机变量X~CMP(λ,ν)分布,则有

1)X的期望和方差分别为

2) 对于非负整数l,X的高阶矩具有如下递推公式:

证明 1) 借助矩母函数MX(t)求导可得:

(4)

(5)

利用方差的计算公式,可得:

(6)

2) 对于非负整数l,分情况来讨论,当l=0时,有

即l=0时,E(X)=λ[E(X+1)1-ν]成立.

E(Xl+1)-E(X)E(Xl)

3 参数的点估计和费希尔信息阵

证明 由定理1中的1)知:

E(X2)=Var(X)+E2(X)=

化简整理可得定理2成立.

证明 给定样本(X1,X2,…,Xn)后,对数似然函数可表示为

(7)

对式(7)关于参数λ,ν分别求偏导数,并令其为0可得似然方程组:

化简整理即为

故定理3成立.

定理4 设随机变量X~CMP(λ,ν)分布,则参数λ,ν的费希尔信息阵如下:

其中,

证明 由式(1)知X的概率函数为

对概率函数取对数,并关于参数λ求导可得:

(8)

(2)同理对参数ν,有

注意到

-E[ln(x!)]

(9)

从而可得:

(10)

另一方面,有

合并整理可得:

所以信息量I22(λ,ν)为

I22(λ,ν)=Var[ln(x!)]=E[ln(x!)]2-E2[ln(x!)]=

(11)

下面计算信息量I12(λ,ν)和I21(λ,ν).

-λ-1{E[xln(x!)]-E(x)E[ln(x!)]}

-λ-1{E[xln(x!)]-E(x)E[ln(x!)]}

所以有

I12(λ,ν)=-λ-1{E[xln(x!)]-E(x)E[ln(x!)]}=

(12)

同理可得:

(13)

综上所述,定理4成立.

4 CMP分布参数的贝叶斯分析

设总体X服从参数为(λ,ν)的CMP分布,(x1,x2,…,xn)为其一组样本观测值,可得其似然函数为

exp{S1lnλ-S2ν}Z-n(λ,ν)

(14)

既然CMP分布属于指数分布族,那么其参数应具有共轭先验分布,定理5给出了CMP分布的共轭先验分布族.

定理5 设总体X服从参数为(λ,ν)的CMP分布,(x1,x2,…,xn)为其一组样本观测值,则参数(λ,ν)的共轭先验分布具有如下形式:

π(λ,ν)=λa-1e-bνZ-c(λ,ν)κ(a,b,c),λ>0,ν≥0

其中κ(a,b,c)为一积分常数,且满足:

证明 假定参数(λ,ν)的先验分布为

π(λ,ν)=λa-1e-bνZ-c(λ,ν)κ(a,b,c),λ>0,ν≥0

给定一组样本观测值x1,x2,…,xn,则参数的后验分布为

(15)

利用后验分布可计算参数λ的后验均值:

(16)

给定超参数a,b,c后,分布的预测概率函数为

(17)

由于参数的共轭分布是二元分布,进一步考察其边际分布和条件分布,由定理5知,CMP分布参数的共轭分布具有如下形式:

π(λ,ν)=λa-1e-bνZ-c(λ,ν)κ(a,b,c)

λ>0,ν≥0

其中,a>0,b>0和c>0是超参数. 其边际密度函数可以表示为

进而可得给定参数λ后ν的条件概率密度为

(18)

同理参数ν的边际密度可表示为

给定参数ν后λ的条件概率密度为

(19)

对散度参数ν取特殊值(ν=0,1,+∞),条件密度函数(19)可退化为两个常见的概率分布:

若令Y=λ(1+λ)-1,当ν→+∞,有

[1] MACEDA E C.On the Compound and Generalized Poisson Distributions[J].Annals of Mathematical Statistics,1948(19):414-416

[2] DEL CASTILLO J,PÉREZ-CASANY M.Overdispersed and Underdispersed Poisson Generalizations[J].Journal of Statistical Planning and Inference,2005(134):486-500

[3] CONSUL P C.Generalized Poisson Distributions:Properties and Applications[M].New York:Marcel Dekker,1989

[4] CONWAY R W,MAXWELL W L.A Queuing Model with State Dependent Service Rates[J].Journal of Industrial Engineering,1961(12):132-136[5] WIMMER G,KOHLER R,GROTJAHN R,et al.Toward a Theory of Word Length Distributions[J].Journal of Quantitative Linguistics,1994(1):98-106

[6] WIMMER G,ALTMANN G.The Theory of Word Length:Some Results and Generalizations[J].Glottometrika,1996(15):112-133

[7] BOATWRIGHT P,BORLE S, KADANE J B.A Model of the Joint Distribution of Purchase Quantity and Timing[J].Journal of the American Statistical Association,2003(98):564-572[8] SHMUELI G,MINKA T P,KADANE J B,et al.A Useful Distribution for Fitting Discrete Data:Revival of the Conway-Maxwell-Poisson Distribution[J].Applied Statistics,2005(54):127-142[9] SELLERS K F,BORLE S,SHMUELI G.The COM-Poisson Model for Count Data:a Survey of Methods and Applications[J].Applied Stochastic Models in Business and Industry,2012(28):104-116

责任编辑:李翠薇

The Conway-Maxwell-Poisson Distribution and Its Statistical and Probabilistic Properties

JIANG Pei-hua

(School of Mathematics and Physics, Anhui Polytechnic University, Anhui Wuhu 241000, China)

the Conway-Maxwell-Poisson distribution is a useful discrete distribution, this distribution is a two-parameter extension of the Poisson distribution. Its statistical and probabilistic properties are researched and explored. Taking the moment generating function as a tool, the digital features and moment of the distribution are discussed, the implicit equations about the point estimates of parameters are given, the Fisher information matrix about parameters is derived. Finally we study the conjugate distribution about parameters, the marginal distributions of the conjugate distribution and conditional distributions.

Conway-Maxwell-Poisson distribution; moment; point estimation; information matrix; conjugate family; exponential family

10.16055/j.issn.1672-058X.2017.0001.001

2016-04-11;

2016-05-28.

国家自然科学基金(11401006);2015年安徽省高等教育提升计划省级自然科学研究一般项目(TSKJ2015B29);安徽工程大学教学研究项目(2014JYXM32);安徽省自然科学基金(1208085QA04).

姜培华(1979-),男,山东曹县人,讲师,硕士,从事概率统计和随机过程研究.

O213.2

A

1672-058X(2017)01-0001-05

猜你喜欢
康威泊松概率分布
基于泊松对相关的伪随机数发生器的统计测试方法
一类带有两个参数的临界薛定谔-泊松方程的多重解
2021年普通高等学校招生全国统一考试(乙卷)文科数学
康威与平面几何
带有双临界项的薛定谔-泊松系统非平凡解的存在性
离散型概率分布的ORB图像特征点误匹配剔除算法
康威与平面几何
关于概率分布函数定义的辨析
基于概率分布的PPP项目风险承担支出测算
依赖于时滞概率分布的不确定细胞神经网络的鲁棒稳定性