您的位置:首页 > 其它

漫步数理统计三十四——顺序统计量

2017-06-22 20:56 1216 查看
本篇博文将定义顺序统计量并讨论这种统计量的一些简单性质。近些年来这种统计量在统计推断中占有重要角色,因为他们的某些性质不依赖于得到随意样本的分布。

X1,X2,…,Xn表示连续型分布中得到的随机样本,其pdf为f(x)支撑为=(a,b),−∞≤a<b≤∞,Y1是Xi中最小的,Y2是Xi次小值的,依次类推Yn是最大的,那么当X1,X2,…,Xn按大小增序排列时我们可以用Y1<Y2<⋯<Yn来表示,称Yi,i=1,2,…,n为随意样本X1,X2,…,Xn的第i个顺序统计量,Y1,Y2,…,Yn的联合pdf在下面定理中给出。

定理1:利用上面的符号,Y1<Y2<⋯<Yn表示随机样本X1,X2,…,Xn的n个顺序统计量,其中随机样本是从pdf为f(x),支撑为(a,b)的连续型分布中得到的,那么Y1,Y2,…,Yn的联合pdf为

g(y1,y2,…,yn)={n!f(y1)f(y2)⋯f(yn)0a<y1<y2<⋯<yn<belsewhere

证明:注意到X1,X2,…,Xn的支撑映射到Y1,Y2,…,Yn的支撑(即{(y1,y2,…,yn):a<y1<y2<⋯<yn<b})上可以分布n!个互相不交的集合,这些n!个集合中有一个为a<x1<x2<⋯<xn<b且其他的是通过置换这n个x值得到的,变换x1=y1,x2=y2,…,xn=yn的雅可比等于1,其余的要么为1要么为-1,所以

g(y1,y2,…,yn)=∑i=1n!|Ji|f(y1)f(y2)⋯f(yn)={n!f(y1)f(y2)⋯f(yn)0a<y1<y2<⋯<yn<belsewhere

得证。||

例1:X表示pdf为f(x)的连续型随机变量,支撑为=(a,b),−∞≤a<b≤∞,X的分布函数F(x)可以写成

F(x)=∫xaf(w)dw,a<x<b

如果x≤a,F(x)=0;如果b≤x,F(x)=1,那么存在唯一的中值m使得F(m)=12,令X1,X2,X3表示该分布的随机样本且Y1<Y2<Y3表示样本的顺序统计量,我们想计算Y2≤m的概率,这三个顺序统计量的联合pdf为

g(y1,y2,y3)={6f(y1)f(y2)f(y3)0a<y1<y2<y3<belsewhere

那么Y2的pdf为

h(y2)=6f(y2)∫by2∫y2af(y1)f(y3)dy1dy3={6f(y2)F(y2)[1−F(y2)]0a<y2<belsewhere



P(Y2≤m)=6∫ma{F(y2)f(y2)−[F(y2)]2f(y2)}dy2=6{[F(y2)]22−[F(y2)]33}ma=12

我们很容易看出

∫xa[F(w)]α−1f(w)dw=[F(x)]αα,α>0



∫by[1−F(w)]β−1f(w)dw=[1−F(y)]ββ,β>0

基于上面的讨论我们很容易得到任意顺序统计量的边缘pdf,假设为Yk,F(x),f(x)的形式,那么通过积分即可:

gk(yk)=∫yka⋯∫y2a∫byk⋯∫byn−1n!f(y1)f(y2)⋯f(yn)dyn⋯dyk+1dy1⋯dyk−1

得到的结果为

gk(yk)={n!(k−1)!(n−k)![F(yk)]k−1[1−F(yk)]n−kf(yk)0a<yk<belsewhere

例2:Y1<Y2<Y3<Y4表示大小为4的随机样本的顺序统计量,随机样本是从pdf为

f(x)={2x00<x<1elsewhere

的分布中得到的,我们用f(x),F(x)表示Y3的pdf后就能计算P(12<Y3),这里F(x)=x2,假设0<x<1,满足

g3(y3)={4!2!1!(y23)2(1−y23)(2y3)00<y3<1elsewhere

因此

P(12<Y3)=∫∞1/2g3(y3)dy3=∫11/224(y53−y73)dy3=243256

最后考虑任意两个顺序统计量Yi<Yj的联合pdf,依然用f(x),F(x)的形式表示可得

gij(yi,yj)=∫yia⋯∫y2a∫yjyi⋯∫yjyj−2∫byj⋯∫byn−1n!f(y1)⋯f(yn)dyn⋯dyj+1dyj−1⋯dyi+1dy1⋯dyi−1

因为对于γ>0

∫yx[F(y)−F(w)]γ−1f(w)dw=−[F(y)−F(w)]γγ|yx=[F(y)−F(x)]γγ

所以

gij(yi,yj)=⎧⎩⎨⎪⎪n!(i−1)!(j−i−1)!(n−j)![F(yi)]i−1[F(yj)−F(yi)]j−i−1×[1−F(Yj)]n−jf(yi)f(yj)0a<yi<yj<belsewhere

顺序统计量Y1,Y2,…,Yn的某些函数是非常重要的统计量,例如:(a)Yn−Y1为随机样本的全距;(b)(Y1+Yn)/2为随机样本的中距;(c)如果n为奇数,那么Y(n+1)/2称为随机样本的中位数。

例3:Y1,Y2,Y3是大小为3的随机样本,它是从pdf为

f(x)={100<x<1elsewhere

的分布中得到的,我们要找出全距Z1=Y3−Y1的pdf。因为F(x)=x,0<x<1,所以Y1,Y3的联合pdf为

g13(y1,y3)={6(y30y1)00<y1<y3<1elsewhere

除了Z1=Y3−Y1,令Z2=Y3,函数z1=y3−y1,z2=y3的逆分别为y1=z2−z1,y3=z2,故该一对一变换的雅可比为

J=⎡⎣⎢⎢⎢⎢∂y1∂z1∂y3∂z1∂y1∂z2∂y3∂z2⎤⎦⎥⎥⎥⎥=[−1011]=−1

所以Z1,Z2的联合pdf为

h(z1,z2)={|−1|6z1=6z100<z1<z2<1elsewhere

那么随机样本大小为3的全距Z1=Y3−Y1的pdf为

h1(z1)={∫1z16z1dz2=6z1(1−z1)00<z1<1elsewhere

X是连续cdf为F(x)的随机变量,对0<p<1,定义X的分位数为ξp=F−1(p)。例如ξ0.5,X的中位数为0.5分位数,令X1,X2,…,Xn是X分布的随机样本且Y1<Y2<⋯<Yn是对应的顺序统计量,令k=[p(n+1)],接下来定义ξp的统计量,pdff(x)下面从左到Yk的面积为F(Yk),这个面积的期望值为

E(F(Yk))=∫baF(yk)gk(yk)dyk

其中gk(yk)是前面定义的Yk的pdf,如果对积分部分进行变换替换z=F(yk),那么得到

E(F(Yk))=∫10n!(k−1)!(n−k)!zk(1−z)n−kdz

将其与贝塔分布的pdf进行比较可得

E(F(Yk))=n!k!(n−k)!(k−1)!(n−k)!(n+1)!=kn+1

平均来讲,Yk左边的面积为k/(n+1),因为p=k/(n+1),所以我们可以取Yk为分位数ξp的估计量。故我们称Yk为第p个样本分位数。

样本分位数是非常有用的统计量,例如如果Yk是第p个分位数,那么我们知道近似有p100%的数据小于等于Yk且近似有(1−p)100%的数据大于等于Yk,接下里讨论两个分位数的统计应用。

数据的五个数构成了下面的五个样本分位数:最小值(Y1),四分之一分位数(Y0.25(n+1)),中位数(Y0.5(n+1)),四分之三分位数(Y0.75(n+1)),最大值(Yn)。注意我们给出的中位数是奇数的情况,如果是偶数,那么中位数与传统定义一样为(Yn/2+Yn/2+1)/2。接下里的我们用Q1,Q2,Q3分别表示样本的四分之一分位数,中位数,四分之三分位数。

这五个数将数据分开,使得数据更好理解。

例4:下面的数据是随机变量X大小为15的随机样本顺序观测值



因为n+1=16,所以五个数分别为y1=56,Q1=y4=94,Q2=y8=102,Q3=y12=108,y15=116。

这五个数是数据图像的基础,称为数据的盒图,盒子包含了中间50%的数据,线段用来表示中位数。然而顺序统计对离群点非常敏感,所以需要非常小心,为此我们将用box whisker图。为了定义这个图,我们需要定义潜在的离群点,令h=1.5(Q3−Q1)且定义lowerfence(LF)与upperfence(UF)为

LF=Q1−h,UF=Q3+h

位于区间(LF,UF)之外的点称为潜在离群点,在盒图中用0表示。

例5:考虑例4给出的数据,h=1.5(108−94)=21,LF=73,UF=129,这里观测值56,70为潜在的离群点,盒图如图1Panel A所示。



实际中,我们常假设数据服从某个分布,例如假设X1,…,Xn是正态分布的随机样本,分布的均值与方差未知,那么X的形式已知但参数未知,这样的假设需要进行验证并且存在许多统计测试方法。另一个分位数的应用就是诊断图。

我们考虑位置与尺度家族,假设X是cdf为f((x−a)/b)的随机变量,其中F(x)已知但a,b>0未知,令Z=(X−a)/b,那么Z的cdf为F(z)。令0<p<1,ξX,p是X的p分位数,ξZ,p是Z=(X−a)/b的p分位数,因为F(z)已知,所以ξZ,p已知,但是

p=P[X≤ξX,p]=P[Z≤ξX,p−ab]

由此得到线性关系

ξX,p=bξZ,p+a

那么如果X有形如F((x−a)/b)形式的cdf,那么X的分位数是Z分位数的线性函数,当然在实际中我们不知道X的分位数,但是我们可以估计它们。令X1,…,Xn是X分布的随机样本且Y1<⋯<Yn是顺序统计量,对于k=1,…,n,pk=k/(n+1),那么Yk是ξX,pk的一个估计量。相应的cdfF(z)分位数表示为ξZ,pk=F−1(pk),Yk,ξZ,pk的图像成为q−q图,它描述的是样本的分位数集合与理论cdf为F(z)的分位数集合的关系。基于上面的讨论,图像中的线性就表明X的cdf的形式为F((x−a)/b)。

X是cdf为F(X)的随机变量,对于0<p<1,我们用ξp表示分位数,其中F(ξp)=p,对于X上大小为n的样本,Y1<Y2<⋯<Yn是顺序统计量,令k=[(n+1)p],那么Yk是ξp的点估计。

我们现在推导ξp的分布自由置信区间,也就是说ξp的置信区间雨F(x)的任何假设无关,除了连续型外。令i<[(n+1)p]<j并考虑顺序统计量Yi<Yj与事件Yi<ξp<Yj,因为第i个统计量Yi小于ξp,所以至少有i个X值小于ξp,进一步因为第j个统计量Yj大于ξp,所有不到j个X值小于ξp,现在考虑二项分布的情况,成功的概率为P(X<ξp)=F(ξp)=p,进一步事件Yi<ξp<Yj等价于n个独立实验中i(包含)j(不包含)之间成功,因此

P(Yi<ξp<Yj)=∑w=ij−1(nw)pw(1−p)n−w

是至少有i但不到j次成功的概率。当n,i,j都指定后,就能算出这个概率。假设找到了γ=P(Yi<ξp<Yj),那么p分位数落在区间(Yi,Yj)之间的概率为γ。如果Yi,Yj的实验值为yi,yj,那么(yi,yj)为ξp100γ的置信区间。

注意由于二项分布的离散型,只存在某些置信水平。但是如果我们进一步假设f(x)关于ξ对称,那么离散就不是问题了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  顺序统计量