您的位置:首页 > 其它

漫步数理统计三十三——采样与统计量

2017-06-21 22:03 204 查看
本篇博文介绍一些有用的推断工具:置信区间与假设检验。

在典型的统计问题中,我们对随机变量X感兴趣,但是对其pdff(x)与pmfp(x)不知道,对此大致有两个类别:

f(x)或p(x)完全未知

f(x)或p(x)的形式已知,包含参数θ,其中θ可能是向量

目前考虑第二类问题,考虑几个这样的例子:

X满足指数分布,exp(θ),其中θ未知。

X满足二项分布b(n,p),其中n已知但p未知。

X满足伽玛分布Γ(α,β),其中α,β未知。

我们经常这样描述这样的问题,随机变量X满足形式为f(x;θ),p(x;θ)的密度或质量,其中θ∈Ω属于某个集合Ω。例如上面的(1),Ω={θ|θ>0},我们称θ为分布的参数,因为θ是未知的,所以我们想估计它。我们首先讨论一些估计量的性质,随后再给出估计的常用方法。因为估计是基于样本的,故我们会形式化采样过程。

为了理解这个想法,考虑一个盒子中有m个球,出了标号为1,…,m不同外其它都一样,我们随机选择一个球然后记下数字,令X表示该数字,那么X的分布为

P(X=x)=1m, for x=1,…,m

考虑这种情况,盒子里有许多球但是我们不知道有多少,也就是m未知,那么那种情况下θ=m,Ω是正整数集合,为了得到m的信息,我们从球中取n个样本,表示为X=(X1,…,Xn)′,其中Xi表示第i个球的数字。

接下里我们介绍两种采样方法,分别为:

有放回的采样:我们随机选一个球记下数字后放回去,然后继续随机抽,得到的X1,…,Xn是互相独立的随机变量且分布相同,我们定义为随机样本。

无放回的采样:随意选n个球,如果一次选一个的话,每次选完后不放回。得到的X1,…,Xn不是独立的且每个Xi有相同的分布,这种采样类型常称为随机采样。

如果m远大于n,那么两种方法实际一样。

定义1:(随机样本)随机变量X1,…,Xn如果互相独立且有相同的分布,那么他们构成了随机变量X的随机样本,我们简述为X1,…,Xn是iid;即独立同分布。

令F(x),f(x)分别表示X的cdf与pdf,那么X1,…,Xn的联合cdf为

FX1,…,Xn(x1,…,xn)=∏i=1nF(xi)

而联合pdf为

fX1,…,Xn(x1,…,xn)=∏i=1nf(xi)

同样的方式可定义离散随机变量X,我们常使用向量符号来表示样本X=(X1,…,Xn)′,接下来定义统计量。

定义2:(统计量)假设nn个随机变量X1,X2,X3,…,Xn是随机变量X分布中的一个样本,那么任何样本函数T=T(X1,…,Xn)称为统计量。

在高等课程中,我们将需要函数是博莱尔度量。

因为统计量是样本的函数,所以它也是随机变量,统计量经常是数据的总结,像统计量T=T(X1,…,Xn)可能包含未知参数θ的信息,这时候我们称统计量是θ的点估计量,回忆一下之前说过,如果E(T)=θ,那么T是θ的无偏估计,如果依概率T→θ,那么T是θ的一致估计。一旦得到的随机样本,X1,…,Xn的观测为x1,…,xn,那么值T(x1,…,xn)称为θ的点估计。那么什么是好的点估计呢?接下来我们讨论一些估计的性质,下面的实例给出了一些问题。

例1:还是考虑取球的例子,m个球标记为1,…,m,假设m未知,为了估计m我们需要有放回的得到随机样本,每个Xi的分布为P(X=x)=1/m,x=1,…,m,m的直观点估计量为T=max{X1,…,Xn},这就是m好的估计量,但是T与m有多远呢?一种方式是考虑T的分布,T的支撑为{1,…,m},为了确定T的cdf,注意因为T是X观测的最大时,所以事件T≤t可以表示为

{T≤t}={X1≤t,…,Xn≤t}=∩ni=1{Xi≤t}

其中1≤t≤m,因此根据X1,…,Xn是独立同分布的,T的iid为

P[T≤t]=∏i=1nP[Xi≤t]=[P(X1≤t)]n=([t]m)n

其中[t]表示小于等于t的最大整数,因此对于0≤t≤m

P[Tn≤t]=([t]m)n→{01t<mt=m

因此Tn→Dm,根据前面的定理可知Tn→Pm,所以Tn是m的一致估计。

注意在这个问题中,E(X¯)=(m+1)/2,因此E(2X¯−1)=m,其中X¯=n−1∑ni=1Xi表示样本均值,也许2X¯−1也是m的一个好的无偏估计量,如果这个满足的话,我们后面会说明T是更好的估计量。

例2:假设X是随机变量,未知参数为θ,X1,…,Xn是X分布中得到随机样本,令X¯=n−1∑ni=1Xi是样本均值,那么因为E(X¯)=θ ,所以统计量X¯是θ的无偏估计量,但是X¯与θ有多远呢?之后我们会介绍一般情况下的结论,目前先考虑特殊情况,假设X满足正态分布N(θ,σ2)且σ2已知,那么X¯的分布为N(θ,σ2/n),然后就可以用X¯分布的知识会到问题。因为(X¯−θ)/(σ/n‾‾√)满足标准正态分布,N(0,1),所以我们有

0.954=P(−2<X¯−θσ/θ‾‾√<2)=P(X¯−2σn‾‾√<θ<X¯+2σn‾‾√)

上式表明,在采样以前,θ落在随机区间(X¯−2σn√,X¯+2σn√)的概率为0.954,采完样之后,θ可能落在实际区间

(x¯−2σn‾‾√,x¯+2σn‾‾√)

也可能不在,但是因为有很高的概率落在区间内即0.954,所以区间为θ的95.4\%置信区间,0.954=95.4\%称为置信系数。注意随着置信的增加,置信区间的长度也会增加,即增加置信意味着降低准确度,另一方面对于任意的置信系数,样本增加也会缩短置信区间。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  统计量 采样