二项分布在诊断检验中的应用

2018-01-18 10:03李文韬

课程教育研究 2018年42期

关键词：二项分布参数估计

李文韬

【摘要】二项分布是概率论中重要的离散分布。本文首先研究二项分布的概率空间，然后推导了其期望和方差，接着给出了估计二项分布参数的方法，最后以医学中的诊断检验为例，阐释了二项分布在生活中的应用。

【关键词】二项分布期望方差参数估计贝叶斯公式

【中图分类号】G633.8 【文献标识码】A 【文章编号】2095-3089（2018）42-0157-02

1.前言

在历史上，很多数学家都做过抛硬币的实验，抛一枚质地均匀的硬币，其试验结果不外乎是正面或者反面两种。而在物理上，我们知道只要有确定的抛掷高度，角度，空气阻力，重力加速度等各种条件，抛掷硬币的试验结果是可以事先确定的。而条件又是如此地复杂，以至于我们根本没法考虑完全。因此，我们引入了一种随机性。现在假设我们的试验是投掷一枚质地均匀的硬币1000次，为了估计正面朝上的概率，则需要记录正面朝上的次数。生活中也不乏这样的例子，例如射手射击10次，记录命中的次数;给50个患者使用一种新药，记录康复的患者人数;以上例子的共同特点就是在相同条件下，重复做了n次试验，称为n重伯努利试验，其中某事件发生的次数就服从二项分布。本文正是研究二项分布在诊断检验中的作用。

2.模型的建立

为了给出二项分布，我们首先要建立概率空间（？赘，F，P），其中？赘是样本空间，是试验所有可能出现的基本结果？棕组成的集合，F是其上定义的事件域，P是事件域F上的概率测度。随机变量X是从样本空间？赘到实数上的一个映射，且满足对任意的x∈R，事件{？棕：X（？棕）≤x}∈F。

2.1 二项分布

在n重伯努利试验中，记X为成功的次数，这里的成功定义为某事件A发生了。令P（A）=1-P（Ac）= p，其中Ac表示事件A的对立事件。这个试验的基本结果为：

？棕=（？棕1，？棕2，…，？棕n），

其中每个？棕1或者为A，或者为Ac。于是共有2n个样本点，组成了样本空间？赘。事件域F为由随机变量X生成的？滓-代数。于是X的概率分布列为：

P（X=k）=（■■）pk（1-p）n-k，k=0，1，…，n

此时称X服从二项分布，记作X～b（n，p）。

2.2 二项分布的期望和方差

下面给出二项分布期望和方差的两种推导方式。

方法1.把二项分布b（n，p）看成是n個独立同分布的服从参数为p的伯努利分布的随机变量之和X=X1+X2+…+Xn，则其期望和方差分别为：

E（X）=E（X1）+E（X2）+…+E（Xn）=np

Var（X）=Var（X1）+Var（X2）+…+Var（Xn）=np（1-p）

方法2. 由二项式定理可得，

E（X）=■k（■■）pk（1-p）n-k=np■（■■）pk-1（1-p）n-k=np

又E（X2）=■k2（■■）pk（1-p）n-k=■（k-1+1）k（■■）pk（1-p）n-k

=■（k-1）k（■■）pk（1-p）n-k+■k（■■）pk（1-p）n-k

=■（k-1）k（■■）pk（1-p）n-k+np

=n（n-1）p2■（■■）pk-2（1-p）n-k+np

=n（n-1）p2+np

于是，二项分布的方差为Var（X）=E（X2）-（E（X））2=np（1-p）。

2.3二项分布的参数估计

假设我们获得了一组伯努利试验样本X1，X2，…，Xn，而二项分布的参数p是需要估计的未知参数。这里采用矩估计的方法，用样本矩去近似总体矩即可获得参数p的估计：

■=■，

其中■表示参数p根据样本所得的估计值。

3.医学中的诊断检验

3.1 sensitivity和specificity

我们首先利用两个量sensitivity和specificity来衡量某种检测手段的准确性，以下简称se，sp。令T服从伯努利分布，T=1表示检测结果呈阳性，T=0表示检测结果呈阴性。D也是一个伯努利随机变量，D=1表示个体真实的健康状况为有病，D=0表示没有患病。se表示的是当个体真的患病（D=1）的时候，检测结果为阳性（T=1）的概率，即se=P（T=1|D=1）。sp表示的是当个体没有患病（D=0）的时候，检测结果显示为阴性（T=0）的概率，即sp = P（T=0|D=0）。现在我们将试验结果作成列联表如下：

表格1：医学诊断检验中试验结果列联表的一般形式

假设在所有的n1个患病的个体中被检测出来呈阳性的个体数服从二项分布，但是二项分布中的概率参数是未知的，于是我们利用2.3节中矩参数估计的方法，得到结果如下：

■e=s1/n1

■p=r0/n0

3.2贝叶斯公式推导ppv和npv

当检测手段给出了阳性和阴性的结果，那么人们自然要问，这个检测结果到底意味着什么呢？我到底有病没病？这些问题不仅依赖于检测手段的准确性，而且依赖于疾病本身的发病率。基于上面的考虑，我们利用贝叶斯公式推导出另外两个衡量检测手段优良性的量PPV和NPV。PPV表示的是当个体检测结果为阳性（T=1）的时候，此人真的患病（D=1）的概率，即PPV= P（D=1|T=1）。NPV表示的是个体检测结果呈阴性（T=0）的时候，此人没有患病（D=0）的概率，即NPV=P（D=0|T=0）。则由贝叶斯公式，

PPV=P（D=1|T=1）

=■

NPV=P（D=0|T=0）

=■

3.3 数据缺失情形下的处理

现在再引入一个伯努利随机变量V，V=1表示个体是接受了金标准的验证，V=0表示没有接受。那么我们也同样地把试验的结果统计到一个列联表中去，令n=n1+n2表示所有参与试验的个体，其中上标带A的表示经过金标准验证的，带B的表示未经金标准验证。

表格2：加入是否经过金标准验证后的列联表

为了合理利用未经验证的数据，我们假设条件独立性P（V=1|D，T）=P（V=1|T），即在已知检验结果的时候，某人是否接受金标准与真实的身体状况无关。

下面以求se为例，se=P（T=1|D=1）=■

由条件独立假设可知P（V=1|D=1，T=1）=P（V=1|T=1），

于是

P（T=0，D=1）=P（V=1，T=1，D=1）■

同理由P（V=1|D=1，T=0）=P（V=1|T=0）可得：

P（T=0，D=1）=P（V=1，T=0，D=1）■

又P（D=1）=P（T=1，D=1）+P（T=0，D=1）

则可得se的估计为：

■e=

同理可得sp的估计。

4.总结

本文首先建立了二项分布的模型，给出了其期望和方差的两种推导方式，并导出了参数的估计形式。然后重点介绍了二项分布在诊断检验中的作用，用来衡量检测手段的优良性。

参考文献：

[1]茆诗松.概率论与数理统计简明教程[M]. 高等教育出版社， 2012.