漫步数理统计三十三——采样与统计量
2017-06-21 22:03
204 查看
本篇博文介绍一些有用的推断工具:置信区间与假设检验。
在典型的统计问题中,我们对随机变量X感兴趣,但是对其pdff(x)与pmfp(x)不知道,对此大致有两个类别:
f(x)或p(x)完全未知
f(x)或p(x)的形式已知,包含参数θ,其中θ可能是向量
目前考虑第二类问题,考虑几个这样的例子:
X满足指数分布,exp(θ),其中θ未知。
X满足二项分布b(n,p),其中n已知但p未知。
X满足伽玛分布Γ(α,β),其中α,β未知。
我们经常这样描述这样的问题,随机变量X满足形式为f(x;θ),p(x;θ)的密度或质量,其中θ∈Ω属于某个集合Ω。例如上面的(1),Ω={θ|θ>0},我们称θ为分布的参数,因为θ是未知的,所以我们想估计它。我们首先讨论一些估计量的性质,随后再给出估计的常用方法。因为估计是基于样本的,故我们会形式化采样过程。
为了理解这个想法,考虑一个盒子中有m个球,出了标号为1,…,m不同外其它都一样,我们随机选择一个球然后记下数字,令X表示该数字,那么X的分布为
P(X=x)=1m, for x=1,…,m
考虑这种情况,盒子里有许多球但是我们不知道有多少,也就是m未知,那么那种情况下θ=m,Ω是正整数集合,为了得到m的信息,我们从球中取n个样本,表示为X=(X1,…,Xn)′,其中Xi表示第i个球的数字。
接下里我们介绍两种采样方法,分别为:
有放回的采样:我们随机选一个球记下数字后放回去,然后继续随机抽,得到的X1,…,Xn是互相独立的随机变量且分布相同,我们定义为随机样本。
无放回的采样:随意选n个球,如果一次选一个的话,每次选完后不放回。得到的X1,…,Xn不是独立的且每个Xi有相同的分布,这种采样类型常称为随机采样。
如果m远大于n,那么两种方法实际一样。
定义1:(随机样本)随机变量X1,…,Xn如果互相独立且有相同的分布,那么他们构成了随机变量X的随机样本,我们简述为X1,…,Xn是iid;即独立同分布。
令F(x),f(x)分别表示X的cdf与pdf,那么X1,…,Xn的联合cdf为
FX1,…,Xn(x1,…,xn)=∏i=1nF(xi)
而联合pdf为
fX1,…,Xn(x1,…,xn)=∏i=1nf(xi)
同样的方式可定义离散随机变量X,我们常使用向量符号来表示样本X=(X1,…,Xn)′,接下来定义统计量。
定义2:(统计量)假设nn个随机变量X1,X2,X3,…,Xn是随机变量X分布中的一个样本,那么任何样本函数T=T(X1,…,Xn)称为统计量。
在高等课程中,我们将需要函数是博莱尔度量。
因为统计量是样本的函数,所以它也是随机变量,统计量经常是数据的总结,像统计量T=T(X1,…,Xn)可能包含未知参数θ的信息,这时候我们称统计量是θ的点估计量,回忆一下之前说过,如果E(T)=θ,那么T是θ的无偏估计,如果依概率T→θ,那么T是θ的一致估计。一旦得到的随机样本,X1,…,Xn的观测为x1,…,xn,那么值T(x1,…,xn)称为θ的点估计。那么什么是好的点估计呢?接下来我们讨论一些估计的性质,下面的实例给出了一些问题。
例1:还是考虑取球的例子,m个球标记为1,…,m,假设m未知,为了估计m我们需要有放回的得到随机样本,每个Xi的分布为P(X=x)=1/m,x=1,…,m,m的直观点估计量为T=max{X1,…,Xn},这就是m好的估计量,但是T与m有多远呢?一种方式是考虑T的分布,T的支撑为{1,…,m},为了确定T的cdf,注意因为T是X观测的最大时,所以事件T≤t可以表示为
{T≤t}={X1≤t,…,Xn≤t}=∩ni=1{Xi≤t}
其中1≤t≤m,因此根据X1,…,Xn是独立同分布的,T的iid为
P[T≤t]=∏i=1nP[Xi≤t]=[P(X1≤t)]n=([t]m)n
其中[t]表示小于等于t的最大整数,因此对于0≤t≤m
P[Tn≤t]=([t]m)n→{01t<mt=m
因此Tn→Dm,根据前面的定理可知Tn→Pm,所以Tn是m的一致估计。
注意在这个问题中,E(X¯)=(m+1)/2,因此E(2X¯−1)=m,其中X¯=n−1∑ni=1Xi表示样本均值,也许2X¯−1也是m的一个好的无偏估计量,如果这个满足的话,我们后面会说明T是更好的估计量。
例2:假设X是随机变量,未知参数为θ,X1,…,Xn是X分布中得到随机样本,令X¯=n−1∑ni=1Xi是样本均值,那么因为E(X¯)=θ ,所以统计量X¯是θ的无偏估计量,但是X¯与θ有多远呢?之后我们会介绍一般情况下的结论,目前先考虑特殊情况,假设X满足正态分布N(θ,σ2)且σ2已知,那么X¯的分布为N(θ,σ2/n),然后就可以用X¯分布的知识会到问题。因为(X¯−θ)/(σ/n‾‾√)满足标准正态分布,N(0,1),所以我们有
0.954=P(−2<X¯−θσ/θ‾‾√<2)=P(X¯−2σn‾‾√<θ<X¯+2σn‾‾√)
上式表明,在采样以前,θ落在随机区间(X¯−2σn√,X¯+2σn√)的概率为0.954,采完样之后,θ可能落在实际区间
(x¯−2σn‾‾√,x¯+2σn‾‾√)
也可能不在,但是因为有很高的概率落在区间内即0.954,所以区间为θ的95.4\%置信区间,0.954=95.4\%称为置信系数。注意随着置信的增加,置信区间的长度也会增加,即增加置信意味着降低准确度,另一方面对于任意的置信系数,样本增加也会缩短置信区间。
在典型的统计问题中,我们对随机变量X感兴趣,但是对其pdff(x)与pmfp(x)不知道,对此大致有两个类别:
f(x)或p(x)完全未知
f(x)或p(x)的形式已知,包含参数θ,其中θ可能是向量
目前考虑第二类问题,考虑几个这样的例子:
X满足指数分布,exp(θ),其中θ未知。
X满足二项分布b(n,p),其中n已知但p未知。
X满足伽玛分布Γ(α,β),其中α,β未知。
我们经常这样描述这样的问题,随机变量X满足形式为f(x;θ),p(x;θ)的密度或质量,其中θ∈Ω属于某个集合Ω。例如上面的(1),Ω={θ|θ>0},我们称θ为分布的参数,因为θ是未知的,所以我们想估计它。我们首先讨论一些估计量的性质,随后再给出估计的常用方法。因为估计是基于样本的,故我们会形式化采样过程。
为了理解这个想法,考虑一个盒子中有m个球,出了标号为1,…,m不同外其它都一样,我们随机选择一个球然后记下数字,令X表示该数字,那么X的分布为
P(X=x)=1m, for x=1,…,m
考虑这种情况,盒子里有许多球但是我们不知道有多少,也就是m未知,那么那种情况下θ=m,Ω是正整数集合,为了得到m的信息,我们从球中取n个样本,表示为X=(X1,…,Xn)′,其中Xi表示第i个球的数字。
接下里我们介绍两种采样方法,分别为:
有放回的采样:我们随机选一个球记下数字后放回去,然后继续随机抽,得到的X1,…,Xn是互相独立的随机变量且分布相同,我们定义为随机样本。
无放回的采样:随意选n个球,如果一次选一个的话,每次选完后不放回。得到的X1,…,Xn不是独立的且每个Xi有相同的分布,这种采样类型常称为随机采样。
如果m远大于n,那么两种方法实际一样。
定义1:(随机样本)随机变量X1,…,Xn如果互相独立且有相同的分布,那么他们构成了随机变量X的随机样本,我们简述为X1,…,Xn是iid;即独立同分布。
令F(x),f(x)分别表示X的cdf与pdf,那么X1,…,Xn的联合cdf为
FX1,…,Xn(x1,…,xn)=∏i=1nF(xi)
而联合pdf为
fX1,…,Xn(x1,…,xn)=∏i=1nf(xi)
同样的方式可定义离散随机变量X,我们常使用向量符号来表示样本X=(X1,…,Xn)′,接下来定义统计量。
定义2:(统计量)假设nn个随机变量X1,X2,X3,…,Xn是随机变量X分布中的一个样本,那么任何样本函数T=T(X1,…,Xn)称为统计量。
在高等课程中,我们将需要函数是博莱尔度量。
因为统计量是样本的函数,所以它也是随机变量,统计量经常是数据的总结,像统计量T=T(X1,…,Xn)可能包含未知参数θ的信息,这时候我们称统计量是θ的点估计量,回忆一下之前说过,如果E(T)=θ,那么T是θ的无偏估计,如果依概率T→θ,那么T是θ的一致估计。一旦得到的随机样本,X1,…,Xn的观测为x1,…,xn,那么值T(x1,…,xn)称为θ的点估计。那么什么是好的点估计呢?接下来我们讨论一些估计的性质,下面的实例给出了一些问题。
例1:还是考虑取球的例子,m个球标记为1,…,m,假设m未知,为了估计m我们需要有放回的得到随机样本,每个Xi的分布为P(X=x)=1/m,x=1,…,m,m的直观点估计量为T=max{X1,…,Xn},这就是m好的估计量,但是T与m有多远呢?一种方式是考虑T的分布,T的支撑为{1,…,m},为了确定T的cdf,注意因为T是X观测的最大时,所以事件T≤t可以表示为
{T≤t}={X1≤t,…,Xn≤t}=∩ni=1{Xi≤t}
其中1≤t≤m,因此根据X1,…,Xn是独立同分布的,T的iid为
P[T≤t]=∏i=1nP[Xi≤t]=[P(X1≤t)]n=([t]m)n
其中[t]表示小于等于t的最大整数,因此对于0≤t≤m
P[Tn≤t]=([t]m)n→{01t<mt=m
因此Tn→Dm,根据前面的定理可知Tn→Pm,所以Tn是m的一致估计。
注意在这个问题中,E(X¯)=(m+1)/2,因此E(2X¯−1)=m,其中X¯=n−1∑ni=1Xi表示样本均值,也许2X¯−1也是m的一个好的无偏估计量,如果这个满足的话,我们后面会说明T是更好的估计量。
例2:假设X是随机变量,未知参数为θ,X1,…,Xn是X分布中得到随机样本,令X¯=n−1∑ni=1Xi是样本均值,那么因为E(X¯)=θ ,所以统计量X¯是θ的无偏估计量,但是X¯与θ有多远呢?之后我们会介绍一般情况下的结论,目前先考虑特殊情况,假设X满足正态分布N(θ,σ2)且σ2已知,那么X¯的分布为N(θ,σ2/n),然后就可以用X¯分布的知识会到问题。因为(X¯−θ)/(σ/n‾‾√)满足标准正态分布,N(0,1),所以我们有
0.954=P(−2<X¯−θσ/θ‾‾√<2)=P(X¯−2σn‾‾√<θ<X¯+2σn‾‾√)
上式表明,在采样以前,θ落在随机区间(X¯−2σn√,X¯+2σn√)的概率为0.954,采完样之后,θ可能落在实际区间
(x¯−2σn‾‾√,x¯+2σn‾‾√)
也可能不在,但是因为有很高的概率落在区间内即0.954,所以区间为θ的95.4\%置信区间,0.954=95.4\%称为置信系数。注意随着置信的增加,置信区间的长度也会增加,即增加置信意味着降低准确度,另一方面对于任意的置信系数,样本增加也会缩短置信区间。
相关文章推荐
- 漫步数理统计二十二——二项及相关分布
- 漫步数理统计三十四——顺序统计量
- 漫步数理统计十二——随机变量的期望
- 漫步数理统计二十七——t与F分布
- 漫步数理统计二十九——函数期望
- 漫步数理统计八——随机变量(下)
- 漫步数理统计二十八——混合分布
- 漫步数理统计五——条件概率与独立(上)
- 漫步数理统计二十五——正态分布
- 漫步数理统计一——绪论
- 漫步数理统计九——离散随机变量
- 漫步数理统计二十——多元随机变量
- 漫步数理统计三十二——中心极限定理
- 漫步数理统计十——连续随机变量(上)
- 漫步数理统计十九——独立随机变量
- 漫步数理统计二十三——泊松分布
- 漫步数理统计十四——重要的不等式
- 漫步数理统计十八——相关系数
- 漫步数理统计七——随机变量(上)
- 漫步数理统计二十六——多元正态分布