您的位置:首页 > 其它

第4章 参数估计

2017-05-30 16:12 148 查看

4.1 数理统计学的基本概念

数理统计学是这样一门学科:它使用概率论和数学的方法,研究怎样收集(通过试验或观察)带有随机误差的数据,并在设定的模型(称为统计模型)之下,对这种数据进行分析(称为统计分析),以对所研究的问题做出推断(称为统计推断)。

4.1.2 总体

总体是指与所研究的问题有关的对象(个体)的全体所构成的集合。

在大多数问题中,我们不关心具体的人或物,而只关心与之有关的某种指标。

在数理统计学中总体就是一个分布。只要有相同的分布,两个总体就视为同类总体。

英国统计学家R·A·费歇尔,引进了“无限总体”的概念,即个体的数量很大,在概率论上相当于用一个连续分布去逼近离散分布。

4.1.3 样本

样本是指按一定的规定在总体中抽出的一部分个体。“按一定规定是指”总体中的每一个个体有同等的被抽出的机会。

在有限总体的情况下,单由总体分布已不足以完全决定样本的分布如何,还要看抽样的方式。

4.1.4 统计量

完全由样本所决定的量叫做统计量。统计量只依赖于样本,不能依赖于任何其它未知的量,特别是总体分布中所包含的未知参数。

样本方差:

S2=∑i=1n(Xi−X¯)2/(n−1)

样本矩:

ak=(Xk1+Xk2+⋯+Xkn)n

mk=∑ni=1(Xi−X¯)kn

有时也把αk,μk称为理论矩,把ak,mk称为经验矩。

4.2 矩估计、极大似然估计和贝叶斯估计

4.2.1 参数的点估计问题

约定f(x;θ1,⋯,θk)为“总体分布”。比如,要估计未知参数θ1,构造一个适当的统计量θ^1=θ^1(X1,⋯,Xn),θ^1叫做θ1的估计量。由于θ1是数轴上的一个点,这样用一个点去估计另一个点,叫做点估计

4.2.2 矩估计法

关键是构造方程组求解。以原点矩为例。

αm=∫∞−∞xmf(x;θ1,⋯,θk)dx或∑ixif(x;θ1,⋯,θk)

当n足够大时,用:

am=(Xk1+Xk2+⋯+Xmn)n

去逼近αm。

即令αm(θ1,⋯,θk)=am。 取m=1,2,⋯,k,构造k个方程,解这个方程组即可。

矩估计的总体原则是:能用低阶矩就不用高阶矩

4.2.3 极大似然估计法

设总体分布为f(x;θ1,⋯,θk),则(X1,⋯,Xn)的分布(即其概率密度函数或概率函数)为:

f(x1;θ1,⋯,θk)f(x2;θ1,⋯,θk)⋯f(xn;θ1,⋯,θk)

记为L(x1,…,xn;θ1,⋯,θk)。

这时候已经有样本了,即可以把X1,⋯,Xn看成是固定的,将L看成是θ1,⋯,θk的函数。它称为似然函数。这个函数的意义就是,在取不同的θ1,⋯,θk的时候,X1,⋯,Xn同时发生,这个事件是有一定的概率的。所以,在固定住X1,⋯,Xn后,求取L的最大值即可。即:

∂L∂θi=0(i=1,⋯,k)

得到一个方程组。求解这个方程组,并验证得到的L值是最大值即可,得到的最大值就叫做极大似然估计

在各种估计方法中,极大似然估计的结果通常更加优良,但在一些个别情况下也会给出很不理想的结果。但是极大似然估计方法也有一些限制,比如极大似然估计要求总体分布有参数的形式,而矩估计则不要求。

4.2.4 贝叶斯法

出发点是:在进行抽样之前,我们已经对θ有了一定的知识,叫做先验知识,也叫作验前知识。比如,一个工厂生产产品,一定有以前的生产记录。即使没有记录,也要定出这样一个h(θ)。这样,在抽样后,构造联合密度:

h(θ)f(X1,θ)⋯f(Xn,θ)

算出(X1,⋯,Xn)的边缘密度为:

p(X1,⋯,Xn)=∫h(θ)f(X1,θ)⋯f(Xn,θ)dθ

这样,就可以得到θ的条件密度:

h(θ|X1,⋯,Xn)=h(θ)f(X1,θ)⋯f(Xn,θ)/p(X1,⋯,Xn)

h(θ|X1,⋯,Xn)通常称为θ的“后验(或验后)密度”

这样,再通过这个后验密度的一些操作,比如求一个期望,去估计总体分布的相关参数。

贝叶斯估计通常是对估计得到的结果留了一定的余地。

4.3 点估计的优良性原则

估计一个参数有很多种方法,那么怎样选择一种较好的方法呢?有几个基本原则可以遵守。

4.3.1 估计量的无偏性

设某统计总体的分布包含未知参数θ1,⋯,θk,X1,⋯,Xn是从该总体中抽出的样本,要估计g(θ1,⋯,θk)。g为一已知函数。设g^(θ1,⋯,θk)是一个估计量。如果对任何可能的(θ1,⋯,θk),都有:

Eθ1,⋯,θk[g^(θ1,⋯,θk)]=g(θ1,⋯,θk)

则称g^是g(θ1,⋯,θk)的一个无偏估计量

无偏估计的意思是,要求没有系统误差,但随机误差总是存在的。当大量取样时,能以100%的把握无限逼近被估计的量。

在正态分布、指数分布、二项分布、泊松分布中用X¯去估计总体的期望,是无偏估计。样本方差S2是总体方差σ2的无偏估计。

4.3.2 最小方差无偏估计

一个参数往往不只有一个无偏估计,我们想挑出那个最优的无偏估计。

θ^是随着抽样变化而变化的一个估计量。

取:

Mθ^=Eθ[θ^−θ]2

作为θ^的误差大小从整体角度的一个度量。越小越好。Mθ^就称为估计量θ^的均方误差

如果θ^在众多无偏估计中的均方误差最小,则称其为θ的最小方差无偏估计,简记为MVU估计

求MVU估计的方法:

记:

I(θ)=∫[(∂f(x,θ)∂θ)2/f(x,θ)]dx

信息量

克拉美-劳不等式

Varθ(g^)≥(g′(θ))2nI(θ)

即确定了g(θ)的一个无偏估计方差的一个下界。n是样本大小。

可以看出,I越大,这个下界越小,也就是更有可能达到更小的方差。

等号成立时并不要强求是算出来具体数值,而是要看估计的结果和不等式右边这个边界是不是 一致,只要是一致的,就是MVU估计。

4.3.3 估计量的相合性和渐进正态性

设总体分布依赖于θ1,⋯,θk,g(θ1,⋯,θk)是θ1,⋯,θk的一个给定函数。设X1,⋯,Xn是从该总体中抽出的样本,T(X1,⋯,Xn)是g(θ1,⋯,θk)的一个估计量。如果对任给ε>0,有:

limn→∞Pθ1,⋯,θk(|T(X1,⋯,Xn)−g(θ1,⋯,θk)|≥ε)=0

而且这对(θ1,⋯,θk)一切可能取的值都成立,则称T(X1,⋯,Xn)是g(θ1,⋯,θk)的一个相合估计

即当样本量无限增加时,如果估计量依概率收敛于被估计的值,则这个估计量是相合估计。

相合性是对一个估计量的最基本的要求。

许多形状复杂的统计量,当样本大小趋向于无穷时,其分布都渐进于正态分布。这称为统计量的“渐进正态性”。

4.4 区间估计

4.4.1 基本概念

点估计是用一个点去估计未知参数,区间估计就是用一个区间去估计未知参数,即把未知参数估计在某两个界限之间。

这要求:

被估计的值要有很大的可能落在该区间内;

估计的精度要高,即该区间的长度要小。

对于上面两个相互矛盾的要求,奈曼提出的原则是:先保证可靠度,再提高精度。

给定一个很小的数α,如果对参数θ的任何值,都有:

P(θ^1≤θ≤θ^2)=1−α

就称区间[θ^1,θ^2]的置信系数为1−α。

α一般取0.05。

4.4.2 枢轴变量法

如果:

Φ(uβ)=1−β

就称uβ为Φ上的“上β分位点”。

枢轴变量法的步骤是:

找一个与要估计的参数g(θ)有关的统计量T,一般是其一个良好的点估计,比如期望的估计X¯。

设法找出T和g(θ)的某一函数S(T,g(θ)),其分布F要与θ无关,S称为“枢轴变量”。

对任何常数a<b,不等式a≤S(T,g(θ))≤b要能改写成A≤g(θ)≤B,A,B只与T,a,b有关,与θ无关。

取分布F的上α/2分位点wα/2和上1−α/2分位点w1−α/2,则有F(wα/2)−F(w1−α/2)=1−α,因此有:P(wα/2≤S(T,g(θ))≤w1−α/2)=1−α,改写成A≤g(θ)≤B的形式,[A,B]就是g(θ)的一个置信系数为1−α的区间估计。

这时候,如果要控制估计的精度,再用区间去列一个不等式即可。一般从逻辑上讲,是求出一个n,在大于这个n的时候就可以保证精度。

4.4.3 大样本法

就是利用中心极限定理来建立数轴变量。当然,这只在n足够大的时候才有意义。

4.4.4 置信界

其实就是不是估计一个两个边界的区间了,只估计一个边界,将另一个边界设为∞或适应情况的值即可。

4.4.5 贝叶斯法

用的是后验密度:

∫θ^2θ^1h(θ|X1,⋯,Xn)dθ=1−α

但是这样只有一个方程,两个边界的解有很多,这就要利用“区间最小”的原则,尽量选取边界包含的部分是峰,这样最集中,区间最小,构造出另一个方程,就可以求解了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  统计学 参数估计