您的位置:首页 > 其它

数理统计中的点估计

2015-06-03 18:46 274 查看
• 统计推断的基本问题有二:估计问题,和假设检验问题.

• 本章讨论总体参数的点估计和区间估计.理解这两种估计的思想,掌握求参数估计量的方法和评判估计量好坏的标准.

点估计

问题的提出

设灯泡寿命T~N(μ,σ2)T~ N (\mu,\sigma^2),但参数μ\mu和σ2\sigma^2未知. 现在要求通过对总体抽样得到的样本,构造两样本函数分别μ\mu和σ2\sigma^2作出估计,称为估计量, 记为μ′\mu^\prime和σ2′\sigma^{2\prime},代入观察值x=(x1,…,xn)x =(x_1,…,x_n),得相应估计值.在不致混淆时统称为估计.

借助于总体的一个样本,构造适当的样本函数来估计总体SS未知参数的值的问题称为参数的点估计问题.

• 两种常用的构造估计量的方法: 矩估计法和极大似然估计法.

矩估计

思想与方法

设总体k阶矩存在,

对于连续型总体X,它的m阶原点矩为

μk:=E(Xk)=∫+∞−∞xkdF(x,θ)\mu_k:=E(X^k)=\int^{+\infty}_{-\infty}x^kdF(x,\theta)

若X为离散型的,则

μk:=E(Xk)=∑i=1nxkF(x,θ)\mu_k:=E(X^k)=\sum_{i=1}^nx^kF(x,\theta)

这里θ\theta为未知参数向量. 可见μk\mu_k是θ\theta的函数,改记为μk(θ)\mu_k(\theta) .

设测得10个灯泡寿命(失效时间)分别为

166,185,232,242,264,268,270,275,285,312166,185,232,242,264,\\
268,270,275,285,312 (小时).

那么自然想到平均寿命为

(166+185+...+312)/10=249.9(小时)(166 +185 +... + 312) / 10 = 249.9(小时)

即用样本均值的观测值x¯\overline x来估计总体的平均寿命(期望寿命) μ\mu



μ^=X¯¯¯=1n(X1+X2+⋯+Xn)\hat{\mu}=\overline X=\frac{1}{n}(X_1+X_2+\dots+X_n)

对μk(θ)\mu_k(\theta),k阶样本原点矩为

μk^(θ)=Mk=1n(Xk1+Xk2+⋯+Xkn)\hat{\mu_k}(\theta)=M_k=\frac{1}{n}(X_1^k+X_2^k+\dots+X_n^k)

这就是矩估计的思想:

用样本的k阶矩作为总体k阶矩的估计量.如果未知参数有m个,则可建立m个方程

μ^k(θ1,…,θm)=Mk,k=1,…,m\hat{\mu}_k(\theta_1,\dots,\theta_m)=M_k,k=1,\dots,m

(如总体μm\mu_m存在). 从中解出θj=θj(X1,X2,…,Xn)\theta_j=\theta_j(X_1,X_2,\dots,X_n), 改记为θ^\hat{\theta},并作为θj\theta_j的估计量. 称这种估计量为矩估计量, 相应观察值称为矩估计值.

由上一篇文章讲得经验df函数性质可以知道

样本矩几乎处处收敛于总体矩,






• 样本矩的连续函数也几乎处处收敛于总体矩的相应的连续函数,它保证:几乎每次从容量足够大的样本观测值,都可得到相应总体参数的近似值.

例题1

设总体XX的二阶矩存在,求总体XX的期望和方差的矩估计量.

解:

m=2m=2,可得




(将μ^和σ^2\hat{\mu}和\hat{\sigma}^2当做未知量,将XiX_i当做已知量,解方程组)

解得




结论:不论总体有什麽样的分布,只要它的期望和方差存在,则它们的矩估计量都分别是其样本均值和样本的二阶中心矩.

为突出是矩估计量,也常加下标M,例如μ^M\hat{\mu}_M

例题2

设总体X~U(0,θ)X ~ U(0, \theta), θ\theta未知,(X1,…,Xn)(X_1,…,X_n )是一个样本, 试求θ\theta的矩估计量.

解:

直接由上例结果,令解得θ\theta的矩估计量

θ^M=2X¯¯¯\hat{\theta}_M=2\overline X

例题3

设总体 ,即 具有概率密度




这里a,b为未知参数,(X1,X2,…,Xn)(X_1,X_2,\dots,X_n)为抽自X的简单随机样本

由于E(X)=a+b2, D(X)=(b−a)212E(X)={a+b\over 2},\ D(X)={(b-a)^2\over 12}






由此可解得a和b的矩估计为

a^=X¯¯¯−3√Snb^=X¯¯¯+3√Sn\hat{a}=\overline X-\sqrt{3}S_n\\ \hat{b}=\overline X+\sqrt{3}S_n

其中S2n=1n∑ni=1(Xi−X¯¯¯)2S_n^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2

极大似然估计法

思想和方法

假设在一个罐中放着许多黑球和白球,并假定已知它们的数目之比为 ,但不知哪种颜色的球多。如果我们有放回地从罐中抽取 个球,则其中的黑球数 服从二项分布:

P(X=k)=Ck3pkq3−k,k=0,1,2,3P(X=k)=C_3^kp^kq^{3-k},k=0,1,2,3

其中p=罐中黑球数目罐中全部球的数目,q=1−pp={罐中黑球数目\over 罐中全部球的数目},q=1-p,由假设知道pp可能取值为14或34\frac{1}{4}或\frac{3}{4}.

现在根据样本中的黑球数,来估计未知参数 ,也就是说在14和34\frac{1}{4}和\frac{3}{4}之间作一选择。对抽样的四种可能结果计算出相应的概率:




从表1中可见,如果样本中的黑球数为0,那么具有X=0的样本来自p=14p={1\over 4}的总体的可能性比来自p=34p={3\over 4}的总体的可能性大,这时应当估计p为14{1\over 4}而不是 34{3\over 4}。如果样本中黑球数为2,那么具有X=2的样本来自p=34p={3\over 4}的总体的可能性比来自p=14p={1\over 4}的总体的可能性大,这时应当估计p为34{3\over 4}而不是14{1\over 4}。从而可以选择估计量:




也就是说根据样本的具体情况来选择估计量 p^\hat p,使得出现该样本的可能性最大。

一般地,若总体X具有概率密度p(x,θ1,θ2,…,θk)p(x,\theta_1,\theta_2,\dots,\theta_k),其中θ1,θ2,…,θk\theta_1,\theta_2,\dots,\theta_k为未知参数,又设(x1,x2,…,xn)(x_1,x_2,\dots,x_n)是样本的一组观察值,那么样本(X1,X2,…,Xn)(X_1,X_2,\dots,X_n)落在点(x1,x2,…,xn)(x_1,x_2,\dots,x_n)的邻域内的概率为∏ni=1p(xi;θ1,θ2,…,θk)dxi\prod_{i=1}^np(x_i;\theta_1,\theta_2,\dots,\theta_k)dx_i,它是θ1,θ2,…,θk\theta_1,\theta_2,\dots,\theta_k的函数。

最大似然估计的直观想法是:既然在一次试验中得到了观察值(x1,x2,…,xn)(x_1,x_2,\dots,x_n),那么我们认为样本落入该观察值(x1,x2,…,xn)(x_1,x_2,\dots,x_n) 的邻域内这一事件应具有最大的可能性,所以应选取使这一概率达到最大的参数值作为参数真值的估计。记

离散型时θ应使

L(x,θ):=L(x1,…,xn;θ)=∏i=1np(xi;θ)L(x,\theta):=L(x_1,\dots,x_n;\theta)=\prod_{i=1}^np(x_i;\theta)

最大;

连续型时θ应使

f(x1,…,xn;θ)dx1…dxn=∏i=1nf(xi;θ)dxif(x_1,\dots,x_n;\theta)dx_1\dots dx_n=\prod_{i=1}^nf(x_i;\theta)dx_i

也即, 使L(x,θ)=∏ni=1f(xi;θ)L(x,\theta)=\prod_{i=1}^nf(x_i;\theta)最大.

称L(x,θ)L(x,θ)为样本的似然函数.




这样得到的估计值, 称为参数θ的极大似然估计值, 而相应的统计量称为参数θ的极大似然估计量.

求θ\theta的最大似然估计就是求似然函数L(x;θ)L(x;\theta)的最大值点的问题。

如L(x;θ)L(x;θ)关于θθ可微, 这时也可以从方程




解出. (1.12)和(1.13)都称为似然方程.

由于在许多情况下,求lnL(x;θ)lnL(x;\theta)的最大值点比较简单,而且lnxlnx是xx的严格增函数,因此在lnL(x;θ)lnL(x;\theta)对θi(i=1,2,…,k)\theta_i(i=1,2,\dots,k)的偏导数存在的情况下, 可由(1.13)式求得.

解这一方程组,若lnL(x;θ)lnL(x;\theta)的驻点唯一,又能验证它是一个极大值点,则它必是lnL(x;θ)lnL(x;\theta)的最大值点,即为所求的最大似然估计。但若驻点不唯一,则需进一步判断哪一个为最大值点。还需指出的是,若 lnL(x;θ)lnL(x;\theta)对 θi(i=1,2,…,k)\theta_i(i=1,2,\dots,k )的偏导数不存在,则我们无法得到方程组(1.13),这时必须根据最大似然估计的定义直接求L(x,θ)L(x,\theta)的最大值点。

有时我们需要估计g(θ1,θ2,…,θk)g(\theta_1,\theta_2,\dots,\theta_k),如果θ^1,θ^2,…,θ^k\hat\theta_1,\hat\theta_2,\dots,\hat\theta_k分别是θ1,θ2,…,θk\theta_1,\theta_2,\dots,\theta_k 的最大似然估计,且g(θ1,θ2,…,θk)g(\theta_1,\theta_2,\dots,\theta_k)为连续函数,则g(θ^1,θ^2,…,θ^k)g(\hat\theta_1,\hat\theta_2,\dots,\hat\theta_k) 是g(θ1,θ2,…,θk)g(\theta_1,\theta_2,\dots,\theta_k) 的最大似然估计。

例题1

设X~N(μ,σ2)X ~ N (\mu,\sigma^2), x1,…,xnx_1,…,x_n 为一个样本值求未知参数μ\mu和σ2\sigma^2的极大似然估计量.

解:

似然函数为




它的对数为




解对数似然方程组(见1.13):




可得




由于对数似然方程组有唯一解,且它一定是最大值点,于是 μ\mu和σ2\sigma^2的最大似然估计为



例题2

求事件发生的概率 的最大似然估计。

解:

若事件A发生的概率P(A)=pP(A)=p,定义随机变量




则X~B(1,p)X~B(1,p),其概率分布为

P(X=xi)=pxi(1−p)1−xi,xi=0,1P(X=x_i)=p^{x_i}(1-p)^{1-x_i},x_i=0,1

设(X1,X2,…,Xn)(X_1,X_2,\dots,X_n)为抽自X的样本,则似然函数为




由对数似然方程




解得




注意到∑ni=1xi≤n\sum_{i=1}^nx_i\leq n,容易验证d2lnLdp2d^2lnL\over dp^2在x¯\overline x处取得负值,于是x¯\overline x是lnLlnL的最大值点,因而p的最大似然估计为p^=X¯¯¯\hat p = \overline X

于是我们有结论:频率是概率的最大似然估计。

例题3

设总体 X~U[a,b]X~U[a,b],(X1,X2,…,Xn)(X_1,X_2,\dots,X_n) 为抽自X的样本,求未知参数a,b的最大似然估计。

解:

由于X的密度函数为




因此似然函数为




显然,作为a,b的二元函数,L是不连续的。这时我们不能用方程组(1.13)来求最大似然估计,而必须从最大似然估计的定义出发来求L的最大值点。

为使L达到最大,b-a应尽量地小,但b又不能小于max{x1,x2,…,x3}\max\{x_1,x_2,\dots,x_3\},否则L(x1,x2,…,x3;a,b)=0L(x_1,x_2,\dots,x_3;a,b)=0 ;类似地,a 又不能大于min{x1,x2,…,x3}\min\{x_1,x_2,\dots,x_3\}。因此a,b的最大似然估计为



估计的优良性准则

同一个未知参数,可以有几种不同的估计,这时就存在采用哪一种估计的问题。另一方面,对同一个参数,用矩估计法和最大似然估计法,即使得到同一个估计,也存在衡量该估计量优劣的问题。设θ\theta为未知参数, θ^\hat\theta是θ\theta的估计,直观上讲,θ^\hat\theta与θ\theta越接近越好,为了度量θ^\hat\theta与θ\theta的接近程度,我们可以采用|θ^−θ||\hat\theta-\theta|作为衡量的标准,但由于θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n)依赖于样本,它本身是随机变量,而θ\theta又是未知的,因此很难采用。下面我们从不同的角度,提出几种衡量估计优劣的标准。

一致性

定义1:

设θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n)是总体X分布的未知参数θ\theta的估计量,若θ^\hat\theta依概率收敛于θ\theta,即对任意的ε>0\varepsilon>0,

limn→∞P(|θ^−θ|<ε)=1\lim_{n\rightarrow \infty}P(|\hat\theta-\theta|<\varepsilon)=1

则称θ^\hat\theta是θ\theta的一致估计。

满足一致性的估计量 θ^\hat\theta,当样本容量n 不断增大时, θ^\hat\theta观察值能越来越接近参数真值 。这很容易理解,当样本容量n越大时,信息越多,当然估计就越准确。

由大数定律知,样本均值X¯¯¯\overline X是总体均值 μ\mu(即 E(X)E(X))的一致估计。还有,样本修正方差S2S^2是总体方差σ2\sigma^2(即D(X)D(X))的一致估计。

例题1

若总体X服从正态分布N(μ,σ2)N(\mu,\sigma^2), (X1,X2,…,Xn)(X_1,X_2,\dots,X_n)是来自总体 X的容量为n的样本,EXi=μEX_i=\mu ,DXi=σ2DX_i=\sigma^2 ,i=1,2,…,ni=1,2,\dots,n ,则由大数定律知,X¯¯¯\overline X依概率收敛于μ\mu,即

limn→∞P(|X¯¯¯−μ|<ε)=1\lim_{n\rightarrow \infty}P(|\overline X-\mu|<\varepsilon)=1

也即未知参数μ\mu的最大似然估计或矩估计μ^=X¯¯¯\hat\mu=\overline X是μ\mu的一致估计。

例题2

若总体X服从泊松分布P(λ)P(\lambda),(X1,X2,…,Xn)(X_1,X_2,\dots,X_n) 是从总体X\cal X中抽取的容量为n\cal n的样本,且EXi=λEX_i=\lambda ,DXi=λDX_i=\lambda ,i=1,2,…,ni=1,2,\dots,n,则 X¯¯¯\overline X依概率收敛于 λ\lambda,故未知参数λ\lambda 的最大似然估计或矩估计 λ^=X¯¯¯\hat \lambda=\overline X是 λ\cal \lambda的一致估计。

例题3

若总体XX服从0-1分布,P(X=1)=p,0<p<1P(X=1)=p,0, (X1,X2,…,Xn)(X_1,X_2,\dots,X_n) 是从X\cal X中抽取的容量为n\cal n的样本EXi=pEX_i=p ,DXi=p(1−p)DX_i=p(1-p) ,i=1,2,…,ni=1,2,\dots,n则 X¯¯¯\overline X依概率收敛于 pp,故未知参数pp 的最大似然估计或矩估计 p^=X¯¯¯\hat p=\overline X是 p\cal p的一致估计。

无偏性

设θ\theta为总体分布的未知参数,θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n) 是θ\theta的一个估计,它是一个统计量。对于不同的样本 (X1,X2,…,Xn)(X_1,X_2,\dots,X_n),θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n) 取不同的值。

定义2

如果θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n)的均值等于未知参数θ\theta ,即E[θ^(X1,X2,…,Xn)]=θE[\hat\theta(X_1,X_2,\dots,X_n)]=\theta 对一切可能的θ\theta成立 ————(3)

则称θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n)为θ\theta 的无偏估计 。

无偏估计的意义是:用θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n)去估计未知参数 θ\theta,有时候可能偏高,有时候可能偏低,但是平均说来等于未知参数 θ\theta。

在(3)式中,对一切可能的θ\theta ,是指在每个具体的参数估计问题中,参数θ\theta取值范围内的一切可能的值。例如,若θ\theta是正态总体N(μ,σ2)N(\mu,\sigma^2)的均值μ\mu,那么它的一切可能取值范围是 (−∞,+∞)(-\infty,+\infty)。若θ\theta是方差 σ2\sigma^2,则它的取值范围为(0,+∞)(0,+\infty)。我们之所以要求(3)对一切可能的θ\theta 都成立,是因为在参数估计中,我们并不知道参数的真值。因此,当我们要求一个估计量具有无偏性时,自然要求它在参数的一切可能取值范围内处处都是无偏的。

例题1

设(X1,X2,…,Xn)(X_1,X_2,\dots,X_n) 是抽自均值为μ\mu的总体的样本,考虑μ\mu的如下估计量:

μ^1=X1μ^2=X1+X22μ^3=X1+X2+Xn−1+Xn4\hat\mu_1=X_1\\ \hat\mu_2={X_1+X_2\over 2}\\ \hat\mu_3={X_1+X_2+X_{n-1}+X_n\over 4}

假设n≥4n\geq 4

因为EXi=μEX_i=\mu,容易验证Eμ^i=μ,i=1,2,3E\hat\mu_i=\mu,i=1,2,3 ,所以μ\mu都是 的的无偏估计,但是

μ^4=2X1μ^5=X1+X23 \hat\mu_4=2X_1\\ \hat\mu_5={X_1+X_2\over 3}

都不是μ\mu的的无偏估计。

对于任一总体 XX,由于EX¯¯¯=μE\overline X=\mu,所以X¯¯¯\overline X 是μ\mu的的无偏估计,但由于 ES2n=E[1n∑ni=1(Xi−X¯¯¯)2]=n−1nσ2ES_n^2=E[\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2]=\frac{n-1}{n}\sigma^2,故S2nS_n^2不是总体方差σ2\sigma^2的无偏估计,而修正的样本方差 是总体方差 S2n=1n−1∑ni=1(Xi−X¯¯¯)2S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2的无偏估计。

若 θ^\hat\theta是 θ\theta的估计, g(θ)g(\theta)为θ\theta 的实函数,通常我们总是用g(θ^)g(\hat\theta) 去估计g(θ)g(\theta) ,但是值得注意的是,即使 Eθ^=θE\hat\theta=\theta,也不一定有E(g(θ^))=g(θ)E(g(\hat\theta))=g(\theta) 。

例题2

修正样本方差的标准差SS不是总体标准差σ\sigma的无偏估计。

事实上,由于 σ2=E(S2)=DS2+[ES]2≥[ES]2\sigma^2=E(S^2)=DS^2+[ES]^2\geq[ES]^2,从而σ≥ES\sigma\geq ES ,即 SS不是σ\sigma的无偏估计。

若θ\theta的估计θ^\hat\theta不是无偏的,但当n→∞n\rightarrow \infty 时,Eθ^→θE\hat\theta\rightarrow \theta ,则称θ^\hat\theta 是θ\theta的渐近无偏估计。显然,样本方差S2nS_n^2是总体方差的一个渐近无偏估计。

无偏性对估计量而言是很基本的要求,它的直观意义是没有系统误差。由上例知,对于一个未知参数,它的无偏估计可以不止一个。那么,怎么来比较它们的好坏呢?我们很自然地想到,一个好的估计量应该方差比较小,只有这样才能得到比较稳定的估计值。

有效性

定义3

设θ^1(X1,X2,…,Xn)\hat\theta_1(X_1,X_2,\dots,X_n)和θ^2(X1,X2,…,Xn)\hat\theta_2(X_1,X_2,\dots,X_n)均为参数θ\theta的无偏估计,如果

Dθ^1<Dθ^2D\hat\theta_1

则称θ^1\hat\theta_1较θ^2\hat\theta_2有效。当θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n)是所有无偏估计中方差最小时,称θ^(X1,X2,…,Xn)\hat\theta(X_1,X_2,\dots,X_n)

为最小方差无偏估计。

例题

设(X1,X2,…,Xn)(X_1,X_2,\dots,X_n) 是来自总体XX的容量为nn的样本,证明总体均值μ\mu (即 EXEX)的估计量μ^1=X¯¯¯\hat\mu_1=\overline X比μ^2=∑ni=1aiXi\hat\mu_2=\sum_{i=1}^na_iX_i有效,其中ai≥0,i=1,2,…,na_i\geq0,i=1,2,\dots,n且∑ni=1ai=1\sum_{i=1}^na_i=1 。

证明

由于 Eμ^1=μE\hat\mu_1=\mu,Eμ^2=E(∑ni=1aiXi)=μ∑ni=1ai=μE\hat\mu_2=E(\sum_{i=1}^na_iX_i)=\mu\sum_{i=1}^na_i=\mu ,所以μ^1,μ^2\hat\mu_1,\hat\mu_2均是μ\mu的无偏估计。






从而




所以X¯¯¯\overline X比∑ni=1aiXi\sum_{i=1}^na_iX_i有效。

由上例和一致性知,样本均值X¯¯¯\overline X是总体均值 μ\mu(即EXEX)的一致最小方差无偏估计。同样还可以证明,样本修正方差S2S^2是总体方差σ2\sigma^2 (即DXDX )的一致最小方差无偏估计。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: