您的位置：首页 > 其它

漫步数理统计三十三——采样与统计量

2017-06-21 22:03 204 查看

本篇博文介绍一些有用的推断工具：置信区间与假设检验。

在典型的统计问题中，我们对随机变量X感兴趣，但是对其pdff(x)与pmfp(x)不知道，对此大致有两个类别：

f(x)或p(x)完全未知

f(x)或p(x)的形式已知，包含参数θ，其中θ可能是向量

目前考虑第二类问题，考虑几个这样的例子：

X满足指数分布，exp(θ)，其中θ未知。

X满足二项分布b(n,p)，其中n已知但p未知。

X满足伽玛分布Γ(α,β)，其中α,β未知。

我们经常这样描述这样的问题，随机变量X满足形式为f(x;θ),p(x;θ)的密度或质量，其中θ∈Ω属于某个集合Ω。例如上面的(1)，Ω={θ|θ>0}，我们称θ为分布的参数，因为θ是未知的，所以我们想估计它。我们首先讨论一些估计量的性质，随后再给出估计的常用方法。因为估计是基于样本的，故我们会形式化采样过程。

为了理解这个想法，考虑一个盒子中有m个球，出了标号为1,…,m不同外其它都一样，我们随机选择一个球然后记下数字，令X表示该数字，那么X的分布为

P(X=x)=1m, for x=1,…,m

考虑这种情况，盒子里有许多球但是我们不知道有多少，也就是m未知，那么那种情况下θ=m,Ω是正整数集合，为了得到m的信息，我们从球中取n个样本，表示为X=(X1,…,Xn)′，其中Xi表示第i个球的数字。

接下里我们介绍两种采样方法，分别为：

有放回的采样：我们随机选一个球记下数字后放回去，然后继续随机抽，得到的X1,…,Xn是互相独立的随机变量且分布相同，我们定义为随机样本。

无放回的采样：随意选n个球，如果一次选一个的话，每次选完后不放回。得到的X1,…,Xn不是独立的且每个Xi有相同的分布，这种采样类型常称为随机采样。

如果m远大于n，那么两种方法实际一样。

定义1：(随机样本)随机变量X1,…,Xn如果互相独立且有相同的分布，那么他们构成了随机变量X的随机样本，我们简述为X1,…,Xn是iid；即独立同分布。

令F(x),f(x)分别表示X的cdf与pdf，那么X1,…,Xn的联合cdf为

FX1,…,Xn(x1,…,xn)=∏i=1nF(xi)

而联合pdf为

fX1,…,Xn(x1,…,xn)=∏i=1nf(xi)

同样的方式可定义离散随机变量X，我们常使用向量符号来表示样本X=(X1,…,Xn)′，接下来定义统计量。

定义2：(统计量)假设nn个随机变量X1,X2,X3,…,Xn是随机变量X分布中的一个样本，那么任何样本函数T=T(X1,…,Xn)称为统计量。

在高等课程中，我们将需要函数是博莱尔度量。

因为统计量是样本的函数，所以它也是随机变量，统计量经常是数据的总结，像统计量T=T(X1,…,Xn)可能包含未知参数θ的信息，这时候我们称统计量是θ的点估计量，回忆一下之前说过，如果E(T)=θ，那么T是θ的无偏估计，如果依概率T→θ，那么T是θ的一致估计。一旦得到的随机样本，X1,…,Xn的观测为x1,…,xn，那么值T(x1,…,xn)称为θ的点估计。那么什么是好的点估计呢？接下来我们讨论一些估计的性质，下面的实例给出了一些问题。

例1：还是考虑取球的例子，m个球标记为1,…,m，假设m未知，为了估计m我们需要有放回的得到随机样本，每个Xi的分布为P(X=x)=1/m,x=1,…,m，m的直观点估计量为T=max{X1,…,Xn}，这就是m好的估计量，但是T与m有多远呢？一种方式是考虑T的分布，T的支撑为{1,…,m}，为了确定T的cdf，注意因为T是X观测的最大时，所以事件T≤t可以表示为

{T≤t}={X1≤t,…,Xn≤t}=∩ni=1{Xi≤t}

其中1≤t≤m，因此根据X1,…,Xn是独立同分布的，T的iid为

P[T≤t]=∏i=1nP[Xi≤t]=[P(X1≤t)]n=([t]m)n

其中[t]表示小于等于t的最大整数，因此对于0≤t≤m

P[Tn≤t]=([t]m)n→{01t<mt=m

因此Tn→Dm，根据前面的定理可知Tn→Pm，所以Tn是m的一致估计。

注意在这个问题中，E(X¯)=(m+1)/2，因此E(2X¯−1)=m，其中X¯=n−1∑ni=1Xi表示样本均值，也许2X¯−1也是m的一个好的无偏估计量，如果这个满足的话，我们后面会说明T是更好的估计量。

例2：假设X是随机变量，未知参数为θ，X1,…,Xn是X分布中得到随机样本，令X¯=n−1∑ni=1Xi是样本均值，那么因为E(X¯)=θ ,所以统计量X¯是θ的无偏估计量，但是X¯与θ有多远呢？之后我们会介绍一般情况下的结论，目前先考虑特殊情况，假设X满足正态分布N(θ,σ2)且σ2已知，那么X¯的分布为N(θ,σ2/n)，然后就可以用X¯分布的知识会到问题。因为(X¯−θ)/(σ/n‾‾√)满足标准正态分布，N(0,1)，所以我们有

0.954=P(−2<X¯−θσ/θ‾‾√<2)=P(X¯−2σn‾‾√<θ<X¯+2σn‾‾√)

上式表明，在采样以前，θ落在随机区间(X¯−2σn√,X¯+2σn√)的概率为0.954，采完样之后，θ可能落在实际区间

(x¯−2σn‾‾√,x¯+2σn‾‾√)

也可能不在，但是因为有很高的概率落在区间内即0.954，所以区间为θ的95.4\%置信区间，0.954=95.4\%称为置信系数。注意随着置信的增加，置信区间的长度也会增加，即增加置信意味着降低准确度，另一方面对于任意的置信系数，样本增加也会缩短置信区间。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 统计量采样

相关文章推荐

新的分享

章节导航