您的位置:首页 > 其它

漫步数理统计二十三——泊松分布

2017-04-23 20:43 1651 查看
回忆一下,对于m的所有值,级数

1+m+m22!+m33!+⋯=∑x=0∞mxx!

收敛到em。考虑函数

p(x)={mxe−mx!0x=0,1,2,…elsewhere

其中m>0。因为m>0,所以p(x)≥0且

∑xp(x)=∑x=0∞mxe−mx!=e−m∑0∞mxx!=e−mem=1

即,p(x)满足成为离散随机变量pmf的条件。有形如p(x)pmf的随机变量满足参数为m的泊松分布,这样的p(x)称为参数为m的泊松pmf。

注1:经验表明泊松分布在许多应用中能得到满意的结果。例如令随机变量X表示放射性物质在规定的时间间隔内在规定的区域内发射的α粒子总数,对于何时的m值,会发现X满足泊松分布。再有令X表示制成品的产品数,像冰箱门,在测试了许多门后,对于合适的m值,我们发现X满足泊松分布。单位时间内交通事故的总数也经常假设为满足泊松分布的随机变量。我们可以将这些案例都看成一个过程,该过程在固定的间隔(时间或空间或其他)内产生一些变化,如果增过程导致泊松分布,那么该过程称为泊松分布,接下来列举一些确保为泊松过程的假设。

令g(x,w)表示在每个长度为w的间隔内x变化量的概率,进一步令符号o(h)表示使得limh→0[o(h)/h]=0的任意函数;例如h2=o(h),o(h)+o(h)=o(h)。泊松假定如下:

g(1,h)=λh+o(h),其中λ是正常数且h>0。

∑∞x=2g(x,h)=o(h)。

不重叠区域的变化量是独立的。

假设1,3说明在短区间h中一个变化量的概率与其他不重叠区间的变化是独立的且近似与区间长度成比例。假设2的实值为在同样短的区间h内两个或更多变化量的概率基本等于零。如果x=0,我们取g(0,0)=1。根据假设1,2,在区间h 内至少一个变化量的概率为λh+o(h)+o(h)=λh+o(h),从而在区间h内零变化量的概率为1−λh−o(h),因此在区间w+h内零变化量的概率g(0,w+h)等于区间w内零变化量的概率g(0,w)与不重叠区间h内零变化量的概率[1−λh−o(h)]的乘积(根据假设3),即

g(0,w+h)=g(0,w)[1−λh−o(h)]

那么

g(0,w+h)−g(0,w)h=−λg(0,w)−o(h)g(0,w)h

如果取h→0时的极限,我们有

Dw[g(0,w)]=−λg(0,w)

这个微分方程的解为

g(0,w)=ce−λw

即函数g(0,w)=ce−λw满足微分方程。条件g(0,0)=1表明c=1;所以

g(0,w)=e−λw

如果x是正整数,我们取g(x,0)=0,假设表明

g(x,w+h)=[g(x,w)][1−λh−o(h)]+[g(x−1,w)][λh+o(h)]+o(h)

从而我们有

g(x,w+h)−g(x,w)h=−λg(x,w)+λg(x−1,w)+o(h)h



Dw[g(x,w)]=−λg(x,w)+λg(x−1,w)

x=1,2,3,…。利用数学归纳法可得在边界条件g(x,0)=0的约束下,这些微分方程的解分别为

g(x,w)=(λw)xe−λwx!,x=1,2,3,…

因此区间w内X的变化量满足参数m=λw的泊松分布。

泊松分布的mgf为

M(t)=∑xetxp(x)=∑x=0∞etxmxe−mx!=em∑x=0∞(met)xx!=e−memet=em(et−1)

因为

M′(t)=em(et−1)(met)



M″(t)=em(et−1)(met)+em(et−1)(met)2

所以

μ=M′(0)=m



σ2=M″(0)−μ2=m+m2−m2=m

即泊松分布满足μ=σ2=m>0,为此泊松pmf经常写成

p(x)={μxe−μx!0x=0,1,2,…elsewhere

故泊松pmf的参数m就是均值μ。

例1:假设X满足μ=2的泊松分布,那么X的pmf为

p(x)={2xe−2x!0x=0,1,2,…elsewhere

这个分布的方差为σ2=μ=2。如果我们想计算P(1≤X),我们有

P(1≤X)=1−P(X=0)=1−p(0)=1−e−2=0.865

例2:随机变量X的mgf为

M(t)=e4(et−1)

那么X满足μ=4的泊松分布。用上例的方法可得

P(X=3)=43e−43!=323e−4

或者查表

P(X=3)=P(X≤3)−P(X≤2)=0.433−0.238=0.195

例3:一尺长的电线有一个缺陷的概率为11000,两个或多个缺陷的概率为零。令随机变量X表示三百尺电线的缺陷数,如果我们假设不重叠区间内缺陷数是独立的,那么泊松过程的假设近似为λ=11000,w=3000,因此X近似满足均值为3000(11000)=3的泊松分布。例如3000尺电线有五个或更多缺陷的概率为

P(X≥5)=∑k=5∞3ke−3k!

查表可得

P(X≥5)=1−P(X≤4)=1−0.815=0.185

泊松分布满足下面重要的加法性质。

定理1:假设X1,…,Xn是独立随机变量且假设Xi满足参数为mi的泊松分布,那么Y=Σni=1Xi满足参数为Σni=1mi的泊松分布。

证明:通过确定Y的mgf我们可以得到该结论。利用Xi的独立性与Xi的mgf,我们有

MY(t)=E(etY)=E(eΣni=1tXi)=E(∏i=1netXi)=∏i=1nE(etXi)=∏i=1nemi(et−1)=eΣni=1mi(et−1)

根据mgf的唯一性我们得出Y满足参数为Σni=1mi的泊松分布。

例4:假设例3中一捆电线长为3000尺,基于例子中的信息,我们期望一捆中3个缺陷且5个或更多缺陷的概率为0.185。假设在一次抽样中,随机选了三捆并且计算了缺陷的均值,现在假设我们想确定三个观测的均值为5或更多缺陷的概率,令Xi表示第i捆电线的缺陷数,其中i=1,2,3,那么Xi满足参数为3的泊松分布,X1,X2,X3的均值为X¯=3−1Σ3i=1Xi,可以儿科表示成Y/3,其中Y=Σ3i=1Xi。根据上面的定理,因为不同捆之间是独立的,所以Y满足参数Σ3i=13=9的泊松分布。查表可得

P(X¯≥5)=P(Y≥15)=1−P(Y≤14)=1−0.959=0.041

因此一捆电线有5个或更多缺陷(概率为0.185)没什么奇怪,但是三捆独立的电线平均有5个或更多缺陷就不正常了(概率为0.041)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息