您的位置:首页 > Web前端 > Vue.js

数理统计8:点估计的有效性、一致最小方差无偏估计(UMVUE)、零无偏估计法

2021-02-08 14:36 549 查看

在之前的学习中,主要基于充分统计量给出点估计,并且注重于点估计的无偏性与相合性。然而,仅有这两个性质是不足的,无偏性只能保证统计量的均值与待估参数一致,却无法控制统计量可能偏离待估参数的程度;相合性只能在大样本下保证统计量到均值的收敛性,但却对小样本情形束手无策。今天我们将注重于统计量的有效性,即无偏统计量的抽样分布的方差。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢

[Toc]

Part 1:一致最小方差无偏估计

首先考虑这样的问题:如何刻画一个统计量的有效程度?注意到,一个统计量的取值既可能高于待估参数,亦可能低于待估参数,要综合考虑统计量对待估参数误差,需要用平方均衡这种双向偏差,因此,提出均方误差的概念:若$\hat g(\boldsymbol)$是$g(\theta)的估计量,则\hat g(\boldsymbol)$的均方误差定义为

\mathrm{MSE}(\hat g(\boldsymbol{X}))= \mathbb{E}[\hat g(\boldsymbol{X})-g(\theta)]^2.

对于确定的统计量$\hat g(\boldsymbol)而言,\mathrm(\hat g(\boldsymbol))是\theta$的函数。显然,一个统计量的均方误差越小,它就越在待估参数真值附近环绕,由此,用统计量的一次观测值作为待估参数的估计就有着越大的把握。

如果对于$g(\theta)的两个估计量\hat g_1(\boldsymbol)和\hat g_2(\boldsymbol),恒有\mathrm(\hat g_1(\boldsymbol))\le \mathrm(\hat g_2(\boldsymbol)),且严格不等号至少在某个\theta$处成立,就称$\hat g_1(\boldsymbol)在均方误差准则下优于\hat g_2(\boldsymbol)。如果我们能找到均方误差最小的统计量\hat g(\boldsymbol)$,就相当于找到了均方误差准则下的最优统计量。

不过,均方误差是$\theta$的函数,这就导致了某些统计量在$\theta=\theta_1$时均方误差小,在$\theta=\theta_2$时均方误差大,一致最小均方误差估计量便不存在,需要增加约束条件,找到更可能存在的“最优”。

基于此,我们提出**一致最小方差无偏估计(UMVUE)**的概念,它将$g(\theta)的估计量限制在了无偏估计之中,这使得UMVUE的存在可能性得以提高。并且,由于\mathbb(\hat g(\boldsymbol))=g(\theta)$,所以

\mathrm{MSE}(\hat g(\boldsymbol{X}))=\mathbb{E}(\hat g(\boldsymbol{X})-g(\theta))^2=\mathbb{E}[\hat g(\boldsymbol{X})-\mathbb{E}(\hat g(\boldsymbol{X}))]^2=\mathbb{D}(\hat g(\boldsymbol{X})),

即无偏估计的均方误差就是无偏估计的方差。

不过首先要提出的是,UMVUE往往比一致最小均方误差估计量更容易存在,但依然不是所有参数都存在UMVUE的,并且,甚至可能有的参数根本不存在无偏估计。

以下是一个典型的不存在无偏估计的例子:X\sim B(n,p),参数$g(p)=1/p$的无偏估计不存在。书上给出的证明过程如下:

首先,无偏估计不依赖于样本容量,故假设$n=1$。若$g(p)有无偏估计\hat g(X)$,则由于$X=0,1,\cdots,n$,故$\hat g(X)$的取值只可能是$a_0,a_1,\cdots,a_n$,可以写出其期望为

\mathbb{E}(\hat g(X))=\sum_{j=0}^n a_jC_n^jp^j(1-p)^{n-j},

当$\hat g(X)$为无偏估计时,成立以下等式:

\sum_{j=0}^na_jC_n^jp^j(1-p)^{n-j}=\frac{1}{p},

即对于某个多项式$f\in\mathcal P_{n+1}(\mathbb)$,有

f(p)=0,\quad \forall p\in(0,1).

显然,要使上式恒成立,除非$f$为零多项式。但$f$并不是零多项式,这意味着$f(p)=0$只会在至多$n+1$个点处成立,这与无偏性要求矛盾。因此,$g(p)=1/p$不存在无偏估计。

我们将存在无偏估计的待估参数称为可估参数,因此UMVUE仅对可估参数作讨论。我们的任务,就是用一定的方法,找到可估参数的UMVUE。

Part 2:改进无偏估计量

无偏估计量有许多,比如正态分布$N(\mu,\sigma^2)中,\mu$的无偏估计就有$X_1,2X_2-X_1,\bar X$等。充分统计量的条件期望法是改进无偏估计量的一个典型方式,它基于如下的定理:设$T=T(\boldsymbol)是一个充分统计量,\hat g(\boldsymbol)$是$g(\theta)$的一个普通无偏估计量,则$h(T)=\mathbb[\hat g(\boldsymbol)|T]$是$g(\theta)$的无偏估计,且

\mathbb{D}(h(T))\le \mathbb{D}(\hat g(\boldsymbol{X})),\quad \forall \theta\in\Theta.

等号成立当且仅当$\hat g(\boldsymbol)=h(T)$是均方条件下成立的。它的证明不是很有必要掌握,权当了解。

因为$T$是$g(\theta)的充分统计量,故\mathbb(\hat g(\boldsymbol)|T)$与待估参数$g(\theta)$无关,可以作为统计量,即

h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T)

是合理定义的统计量。下证其无偏性,由全期望公式,有

\mathbb{E}(h(T))=\mathbb{E}[\mathbb{E}(\hat g(\boldsymbol{X})|T)]=\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta).

最后证明其比$\hat g(\boldsymbol)$更有效,利用一个常用的拆分技巧,得到

\begin{aligned} \mathbb{D}(\hat g(\boldsymbol{X}))&=\mathbb{D}[\hat g(\boldsymbol{X})-h(T)+h(T)]\\ &=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))+2\mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T)), \end{aligned}

然后证明交叉项为0,这里需要再次用到全期望公式,有

\begin{aligned} &\quad \mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T))\\ &=\mathbb{E}[h(T)-g(\theta)][\hat g(\boldsymbol{X})-h(T)]\\ &=\mathbb{E}[\mathbb{E}[(h(T)-g(\theta))(\hat g(\boldsymbol{X})-h(T))|T]]\\ &=\mathbb{E}[(h(T)-g(\theta))(\mathbb{E}(\hat g(\boldsymbol{X})|T)-h(T)]\\ &=0. \end{aligned}

最后的等号是因为$h(T)=\mathbb(\hat g(\boldsymbol)|T)$,于是代回就得到

\mathbb{D}(\hat g(\boldsymbol{X}))=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))\ge \mathbb{D}(h(T)).

等号成立当且仅当$\mathbb(\hat g(\boldsymbol)-h(T))^2=\mathbb(\hat g(\boldsymbol)-h(T))^2=0$。

这个定理的重要意义在于,如果给定的无偏估计量不是充分统计量的函数,则可以通过条件期望法,将其转变成一个充分统计量的函数作为新的统计量,并且新的统计量总是更有效的。此外,这也对我们寻找UMVUE提出启示:UMVUE一定是充分统计量的函数。如果不然,则可以通过对充分统计量求期望,得到一个更有效的统计量。

不过,改进后的充分统计量函数,尽管是更为有效的参数估计,但却并不一定是UMVUE,下面的定理将给出一个验证点估计是否为UMVUE的方法。

Part 3:零无偏估计法

零无偏估计法是用于判断某个估计量是否为UMVUE的方法,为此,首先要提出什么是零无偏估计。顾名思义,零无偏估计即零的无偏估计量,对某个统计量$l(\boldsymbol),如果有\mathbb(l(\boldsymbol))=0$,则称$l(\boldsymbol)$是一个零无偏估计量;如果统计量$T$是待估参数$g(\theta)的充分统计量,且\mathbb(h(T))=0$,则$h(T)$也称为$g(\theta)$的零无偏估计量。

零无偏估计法的思想、证明过程都与上述的充分统计量条件期望法类似。如果$\hat g(\boldsymbol)是UMVUE,则对于任意其他无偏估计\hat g_1(\boldsymbol),都可以视为\hat g_1(\boldsymbol)=\hat g(\boldsymbol)+l(\boldsymbol),显然这里\mathbb(l(\boldsymbol))=0$,要使$\hat g_1(\boldsymbol)的方差大于\hat g(\boldsymbol)$,可以进行拆分,即

\mathbb{D}(\hat g_1(\boldsymbol{X}))=\mathbb{D}(\hat g(\boldsymbol{X}))+\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X})).

如果最后的协方差项为0,则必有$\mathbb(\hat g_1(\boldsymbol))\ge \mathbb(\hat g(\boldsymbol))$。综合以上讨论,给出零无偏估计法验证UMVUE的方式。

设$\hat g(\boldsymbol)$是$g(\theta)的一个无偏估计,\mathbb(\hat g(\boldsymbol))<\infty$,对任何$\theta\in\Theta$,若对任何零无偏估计$l(\boldsymbol)$都有

\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=0,

则$\hat g(\boldsymbol)$是$g(\theta)$的UMVUE。

如果$\hat g(\boldsymbol)$满足与任何零无偏估计无关,则它是UMVUE,这是一个充分条件。但反之,它也是一个必要条件,即UMVUE必定与任何零无偏估计量无关

如果不然,设$\mathrm(\hat g(\boldsymbol),l(\boldsymbol))=b(\theta)\ne 0$,则可以假设$\mathbb(l(\boldsymbol))=a^2(\theta)>0$。现在固定$\theta=\theta_0$为常数,并设$a(\theta_0)=a,b(\theta_0)=b$,只要

\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=a^2(\theta_0)+2b(\theta_0)=a^2+2b<0,

就能找到一个在$\theta=\theta_0$处,比$\hat g(\boldsymbol)方差更小的无偏估计,那么\hat g(\boldsymbol)$就不是UMVUE。注意到,如果$l(\boldsymbol)是零无偏估计,则\forall k\ne 0$,$kl(\boldsymbol)$也是零无偏估计,就有

\mathbb{D}(kl(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),kl(\boldsymbol{X}))=k^2a^2+2bk,

取$k$值为

\left\{\begin{array}l -\frac{2b}{a}<k<0,& b>0; \\ 0<k<-\frac{2b}{a},& b<0. \end{array}\right.

就使得$k2a2+2bk<0$成立,于是

\hat g_1(\boldsymbol{X})\xlongequal{def}\hat g(\boldsymbol{X})+kl(\boldsymbol{X})

是$g(\theta)的无偏估计量,且当\theta=\theta_0$时$\mathbb(\hat g_1(\boldsymbol))<\mathbb(\hat g(\boldsymbol)),故\hat g(\boldsymbol)$不是UMVUE。

有了这个方法,我们可以验证一些常用的充分统计量是UMVUE了。现以正态分布$N(\mu,\sigma2)的充分统计量(\bar X,S2)$为例,它们是否是UMVUE呢?如果直接验证会稍显繁琐,对零无偏估计法稍加修改可以得到以下的推论:

如果$T$是充分统计量且$h(T)$是$g(\theta)的一个无偏估计,对任何\theta\in\Theta$与一切零无偏估计量$\delta (T)$都有

\mathrm{Cov}(h(T),\delta(T))=\mathbb{E}(h(T)\delta(T))=0,

则$h(T)$是UMVUE。

这里只是将样本的函数改成了充分统计量的函数,以上证明过程是依然适用的。并且,由于UMVUE一定是充分统计量的函数,因此这个推论会更有应用意义。

对于正态分布而言,充分统计量可以视为

T_1=\frac{1}{n}\sum_{j=1}^n X_j,\quad T_2=\sum_{j=1}^n (X_j-\bar X)^2,\\ T_1\sim N\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{T_2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow T_2\sim\Gamma\left(\frac{n-1}{2},\frac{1}{2\sigma^2} \right).

由于$T_1,T_2$独立,所以其联合密度函数容易写出,有

f_1(t_1)=\frac{\sqrt{n}}{\sqrt{2\pi \sigma^2}}\exp\left\{-\frac{n(t_1-\mu)^2}{2\sigma^2} \right\},\\ f_2(t_2)=\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})\sigma^{n-1}}t_2^{\frac{n-1}{2}-1}e^{-\frac{t_2}{2\sigma^2}},\\ f(t_1,t_2)=\frac{C}{\sigma^n}t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}.

如果$\delta(t_1,t_2)$是零均值的,则有

\mathbb{E}(\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^\infty \delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}\mathrm{d}t_1\mathrm{d}t_2=0.

令$\exp$部分为$H(\mu,\sigma^2)$,也就是我们获得了这个关键的等式(它是证明的核心):

\int_{-\infty}^\infty\delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0

要验证$\mathbb(t_1,\delta(t_1,t_2))与\mathbb(t_2,\delta(t_1,t_2))$是否为0,先从第一个入手,写出其表达式为

\mathbb{E}(t_1,\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^{\infty}\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2.

要验证$\mathbb(t_1,\delta(t_1,t_2))=0$,实际上就是验证

\int_{-\infty}^\infty \delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0.

不要被这个庞然大物吓到,事实上我们唯一的条件只有$\mathbb(\delta(t_1,t_2))=0$所对应的等式,注意到上面的等式无论$\mu,\sigma$的真值是多少都应该成立,所以是$\mu,\sigma$的二元函数,我们能做的事也很有限——对参数求导。这里涉及到了求导与积分是否可交换的问题,我们姑且不考虑,默认视为可交换即可,由于$\sigma^2$很复杂,所以对$\mu$求导即可。唯一含有$\mu$的项是积分号中间的$\exp$部分,其导数为

H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),

于是就有

\frac{\partial \mathbb{E}(\delta_1,\delta_2)}{\partial\mu}=\frac{C}{\sigma^n}\int_{-\infty}^\infty\delta(t_1,t_2)t_2^{\frac{n-1}{2}-1}\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0,

将求导后得到的式子展开,提取出参数并代入上面的结果,就有

\int_{-\infty}^\infty\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma)\mathrm{d}t_1\mathrm{d}t_2=0,

也就说明了$\mathbb(t_1,\delta(t_1,t_2))=0$,由$\delta(t_1,t_2)$的任意性以及$T_1$的无偏性,可知$\bar X$是$\mu$的UMVUE。

下一步证明$T_2/(n-1)是\sigma^2$的UMVUE,也就是证明$\mathbb(t_2,\delta(t_1,t_2))=0$,同样写出需要验证的等式为

\int_{-\infty}^\infty\delta(t_1,t_2) t_2^{\frac{n-1}{2}}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0.

现在我们尝试将关键的等式对$\sigma2$求导,同样,先计算$H$对$\sigma2$的偏导,有

H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \sigma^2}=\frac{n(t_1-\mu)^2+t_2}{2\sigma^4}H(\mu,\sigma^2),

可以看到,这里除了出现已经确认代入能为0的常数项和$t_1$外,还多了$t_12$与$t_2$的项,$t_2$就是我们的目标,所以再处理一下$t_12$这一项。显然,对$\mu$求导一次能得到$t_1$的一次项,那么对$\mu$求二阶导,就能得到$t_1^2$项,所以

\frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),\\ \frac{\partial^2H(\mu,\sigma^2)}{\partial\mu^2}=H(\mu,\sigma^2)\left[\frac{4n^2(t_1-\mu)^2}{\sigma^4}-\frac{2n}{\sigma^2} \right].

这样就出现了需要的$t_12$项,剩下的工作只有繁琐的代入计算而已,我们实际上已经完成了证明的主要步骤,因此$S2$也是$\sigma^2$的UMVUE。

对于一元连续或离散情形下UMVUE的验证,难度要比二元情形下小得多,因此读者只要掌握了正态分布的零无偏估计法验证,理论上其他UMVUE的验证便不成问题。读者可以自己尝试其他UMVUE的验证。

今天,我们提出了UMVUE的概念,重点在于利用充分统计量改进普通的无偏估计,并且利用零无偏估计法验证某个充分统计量函数是否是UMVUE。但是,我们并没有给出寻找UMVUE的方法,如果依靠感觉没有方向地寻找再一个个验证是否为UMVUE,是十分繁琐且难以成功的。比如对于$B(1,p)$的参数估计$g(p)=p(1-p)$,如果用先猜想后验证的方法来寻找UMVUE,甚至没有入手点。

因此,明天我们将学习寻找UMVUE的方法,并介绍一个被我们忽略已久的概念——指数族。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐