您的位置:首页 > 其它

漫步数理统计十三——特殊的期望

2017-04-11 19:04 337 查看
某些期望有特殊的名字与符号表示。首先X表示离散随机变量,pmf为p(x),那么

E(X)=∑xxp(x)

如果X的支撑为{a1,a2,a3,…},那么

E(X)=a1p(a1)+a2p(a2)+a3p(a3)+⋯

这个乘积和是加权平均,权值a1,a2,a3,…将每个ai与p(ai)联系起来,这表明我们可以称E(X)为X的算术均值或者更简单点X的均值。

定义1:(均值)X是随机变量,且期望存在,X的均值μ定义为μ=E(X)。

均值是随机变量的一阶矩(关于0),另一个特殊的期望涉及到二阶矩,令X是离散随机变量,支撑为{a1,a2,…},pmf为p(x),那么

E[(X−μ)2]=∑x(x−μ)2p(x)=(a1−μ)2p(a1)+(a2−μ)2p(a2)+⋯

这个乘积和可以看成a1,a2,…与均值μ差值平方的加权平均,也可以当成X关于μ的二阶矩,它是非常重要的期望,我们通常称为方差。

定义2:(方差)X是随机变量,均值μ为有限值且使得E[(X−μ)2],那么X的方差定义为E[(X−μ)2],通常用σ2或Var(X)表示。

仔细观察Var(X)会发现

σ2=E[(X−μ)2]=E(X2−2μX+μ2)

并且因为E是线性运算,

σ2=E(X2)−2μE(X)+μ2=E(X2)−2μ2+μ2=E(X2)−μ2

这为计算X方差提供了很简单的方式。

习惯上称σ为X的标准差(或者分布的标准差),σ有时也为解释为空间中的点相对均值μ的分散程度,如果空间只包含一个点k,p(k)>0,那么p(k)=1,μ=k,σ=0。

注1:令连续随机变量X的pdf为fX(x)=1/(2a),−a<x<a,其余地方为零,使得sigmaX=a/3√是X分布的标准差,接下来,令连续随机变量Y的pdf为fY(y)=1/4a,−2a<y<2a,其余地方为零,使得σY=2a/3√是Y分布的标准差。这里Y的标准差是X的两倍;这说明对于Y而言,其概率的扩散速度比X的概率快两倍。

接下来我们定义第三个特殊的期望。

定义3:(矩生成函数(mgf))令X表示随机变量使得存在某个h>0,etX的期望在−h<t<h区间存在。X 的矩生成函数定义为M(t)=E(etX),−h<t<h,我们用简写mgf表示随机变量的矩生成函数。

实际上我们需要的就是mgf在0的开区间内存在,当然这样的区间包含形如(−h,h)的区间,其中h>0。进一步,如果我们令t=0,那么显然M(0)=1。 但是注意对于存在的mgf,在0 的开区间内其必定存在。之后会看到,并非所有的分布都有mfg。

如果讨论几个随机变量的话,我们经常将M写成MX来表示X额mgf。

令X,Y是有mgf的两个随机变量,如果X,Y有相同的分布,即对于所有的z,FX(z)=FY(z),那么在0的邻域内MX(t)=MY(t),但是mgf最重要的一个性质是这个命题反过来也成立。即mgf唯一确定一个分布,我们用一个定理描述这个命题,并用离散情况进行说明。

定理1:令X,Y是随机变量,他们的矩生成函数分别为MX,MY,在0的开区间内存在,那么对于所有的z∈R,FX(z)=FY(z),当且仅当存在h>0使得对所有的t∈(−h,h),等式MX(t)=MY(t)成立。

因为这个定理非常重要,为了对其有更好的认识,考虑离散随机变量,例如对于所有的实值t

M(t)=110et+210e2t+310e3t+410e4t

是离散随机变量X的mgf,如果令p(x)表示X的pmf,X的支撑为{a1,a2,a3,…},那么因为

M(t)=∑xetxp(x)

所以我们有

110et+210e2t+310e3t+410e4t=p(a1)ea1t+p(a2)ea2t+⋯

因为上式对t的所有实值成立,所以右边应该由四项组成且互相与左边相等;因此我们取a1=1,p(a1)=110;a2=2,p(a2)=210;a3=3,p(a3)=310;a4=4,p(a4)=410,或者简单点,X的pmf为

p(x)={x100x=1,2,3,4elsewhere

令一方面,假设X是连续随机变量,令

M(t)=11−t,t<1

是X的mgf。那么

11−t=∫∞−∞etxf(x)dx,t<1

这里f(x)不太明显,然而我们知道pdf为

f(x)={e−x00<x<∞elsewhere

的mgf为M(t)=(1−t)−1,t<1,因此随机变量X存在满足这种pdf的分布与mgf的唯一性是一致的。

因为有mgfM(t)的分布完全由M(t)确定,所以我们从M(t)中直接得到一些分布的性质。例如对−h<t<h而言M(t)的存在性意味着M(t)在t=0处的各阶导均存在。另外,数学分析中的定理表明微分与积分(离散情况是求和)的顺序可以交换,即如果X是连续的,那么

M′(t)=dM(t)dt=ddt∫∞∞etxf(x)dx=∫∞∞ddtetxf(x)dx=∫∞∞xetxf(x)dx

同样的,如果X是离散随机变量,那么

M′(t)=dM(t)dt=∑xxetxp(x)

令t=0,我们得到

M′(0)=E(X)=μ

M(t)的二阶导为

M′′(t)=∫∞−∞x2etxf(x)dx or ∑xx2etxp(x)

得到M′′(0)=E(X2)。因此var(X)等于

σ2=E(X2)−μ2=M′′(0)−[M′(0)]2

例如如果M(t)=(1−t)−1,t<1,利用上式

M′(t)=(1−t)−2 M′′(t)=2(1−t)−3

那么

μ=M′(0)=1, σ2=M′′(0)−μ2=2−1=1

当然,我们可以用pdf计算μ,σ2

μ=∫∞−∞xf(x)dx, σ2=∫∞−∞x2f(x)dx−μ2

一般而言,如果m是一个正整数,M(m)(t)表示M(t)的m阶导数,那么

M(m)(0)=E(Xm)

在力学上,

E(Xm)=∫∞∞xmf(x)dx or ∑xxmf(x)

这种积分(或和)称为矩,因为M(t)生成E(Xm),m=1,2,3,…的值,所以称其为矩生成函数(mgf)。事实上,有时候我们称E(Xm)为分布的m阶矩或者X的m阶矩。

例1:令X的pdf为

f(x)={12(x+1)0−1<x<1elsewhere

那么X的均值为

μ=∫∞−∞xf(x)dx=∫1−1xx+12dx=13

而X的方差为

σ2=∫∞−∞x2f(x)dx−μ2=∫1−1x2x+12dx−(13)2=29

例2:如果X的pdf为

f(x)={1x201<x<∞elsewhere

那么X的均值不存在,因为

{∫∞1|x|1x2dx=limb→∞∫b11xdx=limb→∞(logb−log1)

不存在。

例3:我们知道级数

112+122+132+⋯

收敛到π2/6,那么

p(x)={6π2x20x=1,2,3,…elsewhere

是离散随机变量X的pmf,这个分布的mgf(如果存在的话)为

M(t)=E(etX)=∑xetxp(x)=∑x=1∞6etxπ2x2

通过比值测试可知该级数在t>0时是发散的,所以不存在正数h使得−h<t<h时M(t)存在。因此这个pmf为p(x)的分布没有mgf。

例4:令X的mgf为M(t)=et2/2,−∞<t<∞,我们可以对M(t)求任意次导得到X的矩,然而考虑其他方法是很有意义的。函数M(t)可以表示成下面的麦克劳林级数

et2/2=1+11!(t22)+12!(t22)2+⋯+1k!(t22)k+⋯=1+12!t2+(3)(1)4!t4+⋯+(2k−1)⋯(3)(1)(2k)!t2k+⋯

一般而言,M(t)的麦克劳林级数为

M(t)=M(0)+M′(0)1!t+M′′(0)2!t2+⋯+M(m)(0)m!tm+⋯=1+E(X)1!t+E(X2)2!t2+⋯+E(Xm)m!tm+⋯

因此在M(t)的麦克劳林级数表示中的系数为E(Xm),从而我们有

E(X2k)=(2k−1)(2k−3)⋯(3)(1)=(2k)!2kk!,k=1,2,3,…E(X2k−1)=0,k=1,2,3,…

在之后的文章中我们会用着这个结论。

注2:在高级课程中,我们一般不适用mgf,因为许多分布没有矩生成函数。然而,我们令i表示虚数单位,t是任意实数,我们将定义φ(t)=E(eitX),对于每个分布这个期望均存在,称其为分布的特征函数。为了说明φ(t)对所有实数t存在,考虑其连续情况的绝对值

|φ(t)|=∣∣∣∫∞−∞eitxf(x)dx∣∣∣≤∫∞−∞|eitexf(x)|dx

然而,因为f(x)是非负的,所以|f(x)|=f(x),并且

|eitx|=|costx+isintx|=cos2tx+sin2tx−−−−−−−−−−−−−√=1

因此

|φ(t)|≤∫∞−∞f(x)dx=1

故φ(t)对所有t的实数值均存在。对于离散情况,只需要将积分符号换成求和即可。

每个分布有一个唯一的特征函数;对每个特征函数,存在唯一一个与之对应的概率分布。如果X的分布存在一个特征函数φ(t),例如如果E(X),E(X2)存在,他们分别由iE(X)=φ′(0),i2E(X2)=φ′′(0)给出,熟悉复数函数的可能写成φ(t)=M(it)。

研究拉普拉斯与傅里叶变换的可能注意到这些变换之间与M(t),φ(t)有相似之处;这些变换的唯一性使得我们断言矩生成函数与特征函数是唯一的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  一阶矩 二阶矩