二项分布在诊断检验中的应用
2018-01-18李文韬
李文韬
【摘要】二项分布是概率论中重要的离散分布。本文首先研究二项分布的概率空间,然后推导了其期望和方差,接着给出了估计二项分布参数的方法,最后以医学中的诊断检验为例,阐释了二项分布在生活中的应用。
【关键词】二项分布 期望方差 参数估计 贝叶斯公式
【中图分类号】G633.8 【文献标识码】A 【文章编号】2095-3089(2018)42-0157-02
1.前言
在历史上,很多数学家都做过抛硬币的实验,抛一枚质地均匀的硬币,其试验结果不外乎是正面或者反面两种。而在物理上,我们知道只要有确定的抛掷高度,角度,空气阻力,重力加速度等各种条件,抛掷硬币的试验结果是可以事先确定的。而条件又是如此地复杂,以至于我们根本没法考虑完全。因此,我们引入了一种随机性。现在假设我们的试验是投掷一枚质地均匀的硬币1000次,为了估计正面朝上的概率,则需要记录正面朝上的次数。生活中也不乏这样的例子,例如射手射击10次,记录命中的次数;给50个患者使用一种新药,记录康复的患者人数;以上例子的共同特点就是在相同条件下,重复做了n次试验,称为n重伯努利试验,其中某事件发生的次数就服从二项分布。本文正是研究二项分布在诊断检验中的作用。
2.模型的建立
为了给出二项分布,我们首先要建立概率空间(?赘,F,P),其中?赘是样本空间,是试验所有可能出现的基本结果?棕组成的集合,F是其上定义的事件域,P是事件域F上的概率测度。随机变量X是从样本空间?赘到实数上的一个映射,且满足对任意的x∈R,事件{?棕:X(?棕)≤x}∈F。
2.1 二项分布
在n重伯努利试验中,记X为成功的次数,这里的成功定义为某事件A发生了。令P(A)=1-P(Ac)= p,其中Ac表示事件A的对立事件。这个试验的基本结果为:
?棕=(?棕1,?棕2,…,?棕n),
其中每个?棕1或者为A,或者为Ac。于是共有2n个样本点,组成了样本空间?赘。事件域F为由随机变量X生成的?滓-代数。于是X的概率分布列为:
P(X=k)=(■■)pk(1-p)n-k,k=0,1,…,n
此时称X服从二项分布,记作X~b(n,p)。
2.2 二项分布的期望和方差
下面给出二项分布期望和方差的两种推导方式。
方法1.把二项分布b(n,p)看成是n個独立同分布的服从参数为p的伯努利分布的随机变量之和X=X1+X2+…+Xn,则其期望和方差分别为:
E(X)=E(X1)+E(X2)+…+E(Xn)=np
Var(X)=Var(X1)+Var(X2)+…+Var(Xn)=np(1-p)
方法2. 由二项式定理可得,
E(X)=■k(■■)pk(1-p)n-k=np■(■■)pk-1(1-p)n-k=np
又E(X2)=■k2(■■)pk(1-p)n-k=■(k-1+1)k(■■)pk(1-p)n-k
=■(k-1)k(■■)pk(1-p)n-k+■k(■■)pk(1-p)n-k
=■(k-1)k(■■)pk(1-p)n-k+np
=n(n-1)p2■(■■)pk-2(1-p)n-k+np
=n(n-1)p2+np
于是,二项分布的方差为Var(X)=E(X2)-(E(X))2=np(1-p)。
2.3二项分布的参数估计
假设我们获得了一组伯努利试验样本X1,X2,…,Xn,而二项分布的参数p是需要估计的未知参数。这里采用矩估计的方法,用样本矩去近似总体矩即可获得参数p的估计:
■=■,
其中■表示参数p根据样本所得的估计值。
3.医学中的诊断检验
3.1 sensitivity和specificity
我们首先利用两个量sensitivity和specificity来衡量某种检测手段的准确性,以下简称se,sp。令T服从伯努利分布,T=1表示检测结果呈阳性,T=0表示检测结果呈阴性。D也是一个伯努利随机变量,D=1表示个体真实的健康状况为有病,D=0表示没有患病。se表示的是当个体真的患病(D=1)的时候,检测结果为阳性(T=1)的概率,即se=P(T=1|D=1)。sp表示的是当个体没有患病(D=0)的时候,检测结果显示为阴性(T=0)的概率,即sp = P(T=0|D=0)。现在我们将试验结果作成列联表如下:
表格1:医学诊断检验中试验结果列联表的一般形式
假设在所有的n1个患病的个体中被检测出来呈阳性的个体数服从二项分布,但是二项分布中的概率参数是未知的,于是我们利用2.3节中矩参数估计的方法,得到结果如下:
■e=s1/n1
■p=r0/n0
3.2贝叶斯公式推导ppv和npv
当检测手段给出了阳性和阴性的结果,那么人们自然要问,这个检测结果到底意味着什么呢?我到底有病没病?这些问题不仅依赖于检测手段的准确性,而且依赖于疾病本身的发病率。基于上面的考虑,我们利用贝叶斯公式推导出另外两个衡量检测手段优良性的量PPV和NPV。PPV表示的是当个体检测结果为阳性(T=1)的时候,此人真的患病(D=1)的概率,即PPV= P(D=1|T=1)。NPV表示的是个体检测结果呈阴性(T=0)的时候,此人没有患病(D=0)的概率,即NPV=P(D=0|T=0)。则由贝叶斯公式,
PPV=P(D=1|T=1)
=■
NPV=P(D=0|T=0)
=■
3.3 数据缺失情形下的处理
现在再引入一个伯努利随机变量V,V=1表示个体是接受了金标准的验证,V=0表示没有接受。那么我们也同样地把试验的结果统计到一个列联表中去,令n=n1+n2表示所有参与试验的个体,其中上标带A的表示经过金标准验证的,带B的表示未经金标准验证。
表格2:加入是否经过金标准验证后的列联表
为了合理利用未经验证的数据,我们假设条件独立性P(V=1|D,T)=P(V=1|T),即在已知检验结果的时候,某人是否接受金标准与真实的身体状况无关。
下面以求se为例,se=P(T=1|D=1)=■
由条件独立假设可知P(V=1|D=1,T=1)=P(V=1|T=1),
于是
P(T=0,D=1)=P(V=1,T=1,D=1)■
同理由P(V=1|D=1,T=0)=P(V=1|T=0)可得:
P(T=0,D=1)=P(V=1,T=0,D=1)■
又P(D=1)=P(T=1,D=1)+P(T=0,D=1)
则可得se的估计为:
■e=
同理可得sp的估计。
4.总结
本文首先建立了二项分布的模型,给出了其期望和方差的两种推导方式,并导出了参数的估计形式。然后重点介绍了二项分布在诊断检验中的作用,用来衡量检测手段的优良性。
参考文献:
[1]茆诗松.概率论与数理统计简明教程[M]. 高等教育出版社, 2012.