您的位置:首页 > 其它

数理统计

2015-06-02 18:39 211 查看
当研究并解决一个实际问题时, 我们会

遇到下面问题:

• 1. 这个随机现象可以用什么样的分布律

来刻划,这种分布律的选用合理吗?

• 2. 所选用的这一分布律的参数是多少?

如何估计和确定这些参数?

如何利用数据资料,作出尽可能精确可

靠的统计结论(统计推断):

1) 估计——从局部观测资料的统计特征,推断总体的特征(分布与矩);

2)假设检验——依据抽样数据资料,对总体的某种假设作检验,从而决定对此假定是拒绝抑或接受.

数理统计的基本概念

总体:研究对象全体; 也称母体, 记作SS.

样本:总体中抽出作观测的个体;也称子样,记ω\omega

样本容量:抽取的个体数目;也称样本大小.

例子

随机抽5支,得寿命数据(称为观察[测]值):

725,520,683,992,742725,520,683,992,742.(小时)

一般记为,x1 x2 x3 x4 x5x_1\ x_2\ x_3\ x_4\ x_5.

又抽5支, x′1 x′2 x′3 x′4 x′5x^\prime_1\ x^\prime_2\ x^\prime_3\ x^\prime_4\ x^\prime_5.

再抽5支, x′′1 x′′2 x′′3 x′′4 x′′5 x^{\prime \prime}_1\ x^{\prime \prime}_2\ x^{\prime \prime}_3\ x^{\prime \prime}_4\ x^{\prime \prime}_5\ .

…… ……

如此继续. 各组观察值彼此不同.

如此继续. 每组中的第一支灯的寿命,

也彼此不同. 这样,泛指所抽取的第一支荧光灯的寿命应是一个rvrv,记为

X1X_1 . 同样第二支的寿命是rv X2rv\ X_2 ,…

如此得一组rv : X1,X2,X3,X4,X5rv\ :\ X_1,X_2,X_3,X_4,X_5

称为大小为5的样本.

一般地则有大小(容量)为nn 的样本,称x1,x2,...,xnx_1, x_2, ..., x_n为样本观察值[现实].

抽取的样本如能切实保证其随机性,那么应该彼此独立,且能反映总体的随机规律性,即所有样本彼此独立且与总体同分布. 这样的样本,我们称之为简单样本. 这种抽样方法,叫简单抽样.

注意,在有限总体中,各观察结果可能不独立.

样本的数字特征与分布

最简单又方便的样本函数g(X1,…,Xn)g (X_1, …, X_n)是XiX_i们的一次和二次的线性组合.

由于样本“平等”,线性组合中应有相等的权系数.

一次时:样本的算术平均值X¯¯¯\overline X;

二次时:中心化后的样本二阶中心矩S2nS_n^2.

设X1,…,XnX_1, …,X_n为总体SS的大小为nn的样本, 分别称

X¯¯¯=1n∑i=1nXi S2=1n−1∑i=1n(Xi−X¯¯¯)2\overline X={1 \over n}\sum_{i=1}^nX_i\ \ \ \ S^2={1 \over n-1}\sum^n_{i=1}(X_i-\overline X)^2

样本均值和*样本方差(样本方差除以n-1的原因),而依次称

Mk=1n∑i=1nXki S2n=1n∑i=1n(Xi−X¯¯¯)2M_k={1 \over n}\sum^n_{i=1}X_i^k\ \ \ \ S^2_n={1 \over n}\sum^n_{i=1}(X_i-\overline X)^2

样本的k阶矩样本的二阶中心矩.


记号:总体k阶矩

μk=EXk∫+∞−∞xkdFX(x)\mu_k= EX^k\int ^{+\infty}_{-\infty}x^kdF_X(x)

总体的k阶中心矩

σk=∫+∞−∞(x−EX)kdFX(x)\sigma_k=\int ^{+\infty}_{-\infty}(x-EX)^kdF_X(x)

μ=μ1,σ2=σ2\mu=\mu_1,\sigma_2=\sigma^2.

注意

1)M1=X¯¯¯,S2n M_1=\overline X , S_n^2 没叫样本方差.

2) 比较总体的期望μ\mu、方差σ2\sigma^2与矩μk\mu_k:

   1. 样本的均值、方差及kk阶矩等都是rvrv,并且因nn有限而总是存在的.

   2. 总体的期望、方差及kk阶矩等不一定存在.且即便存在,也是实数值, 而非rvrv.

3)代入观察值, 有相应的样本矩的观察值x,mx, m以及s2s^2 等.

性质 如果总体kk阶矩存在,则样本的k阶矩的数学期望等于总体的kk阶矩,而当nn 趋于无穷时,样本的kk 阶矩以概率收敛到总体的kk 阶矩,即



顺序统计量与经验dfdf

仍从观察值出发设法求总体分布. 以五支荧光灯寿命数据725,520,683,992,742725, 520, 683, 992, 742为例,构造




其dfdf 函数(如后图)称为经验dfdf 函数.

设{xi}\{x_i\}观察值重新依序排列为{x(n)}: x(1)≤x(2)≤⋯≤xn\{x_{(n)}\}:\ \ \ \ x_{(1)}\leq x_{(2)}\leq \dots \leq x_{{n}}





称为由{xi}\{x_i\}决定的经验dfdf, 简记为F∗n(x)F_n^*(x).

将以从小到大为序重新排列的一个样本,称为顺序统计量,专记为x(1) x(2) … xnx_{(1)}\ x_{(2)}\ \dots \ x_{{n}}

下面一个非常重要的定理确立经验dfdf 的重要地位. 此定理保证,几乎由每一组观察值得到的经验dfdf,只要n足够大,都可作为总体dfdf 的近似. 定理中一致收敛性和几乎处处收敛性,给了我们充分的自由.从而由样本去找总体dfdf ,理论上有一个完满的解决.

limn→∞F∗n(x)=F(x)\lim_{n\rightarrow \infty} F_n^*(x)=F(x)

抽样分布与统计量

正态总体常用的样本函数

1.设总体S~N(μ,σ2)S ~N (\mu,\sigma^2). 则

样本均值X¯¯¯~N(μ,σ2n)\overline X ~N (\mu,{\sigma^2 \over n}),从而

Z:=X¯¯¯−μσ/n√~N(0,1)Z:={\overline X-\mu \over \sigma/\sqrt{n}} ~ N(0,1)

2.K2n:=∑n1(Xi−μσ)2K_n^2:=\sum_1^n({X_i-\mu \over \sigma})^2的分布χ2(n)\chi^2(n)

K2nK_n^2是nn个独立的标准正态变量的平方和,称nn个独立的标准正态变量的平方和的分布为自由度为nn的χ2\chi^2分布.

3.(n−1)S2σ2~χ2(n−1)\frac{(n-1)S^2}{\sigma^2} ~\chi^2(n-1)

样本均值与样本方差独立, 且

K2=(n−1)S2σ2=∑1n(Xi−X¯¯¯σ)2 ~ χ2(n−1)K_2=\frac{(n-1)S^2}{\sigma^2}=\sum_1^n({X_i-\overline X\over \sigma})^2 ~ \chi^2(n-1)

在K2n=∑n1(Xi−μσ)2K_n^2 =\sum_1^n({X_i-\mu \over \sigma})^2 中用X¯¯¯\overline X易μ\mu得K2K_2.

4.T:=X¯−μS/n√~ t(n−1)T:={\overline X-\mu \over S/\sqrt{n}} ~ t(n-1)

Z:=X¯−μσ/n√~N(0,1)Z:={\overline X-\mu \over \sigma/\sqrt{n}} ~ N(0,1)中如σ\sigma未知,S2S^2是σ2\sigma^2的无偏估计,自然用S代替Z中的σ\sigma引入T

如果Z ~N(0,1),Y~χ2(n)Z ~N(0,1),Y~\chi^2(n)且独立,则称

t=ZY/N−−−−√~t(n)t={Z \over \sqrt{Y/N}}~t(n)

即自由度nn的tt 分布.

5.Fnm:=S21σ22S22σ21~F(n−1,m−1)F_{nm}:={S_1^2\sigma^2_2 \over S_2^2\sigma^2_1}~F(n-1,m-1)

如果X~χ2(n),Y~χ2(n)X~\chi^2(n),Y~\chi^2(n),且两者相互独立,则称F=χ2(n)/nχ2(m)/m~F(n,m)F={\chi^2(n)/n\over \chi^2(m)/m}~F(n,m)

为自由度为n,m的F分布

性质

• t 分布是对称的,且n→∞n\rightarrow \infty极限为正态(n≥30n\geq30时近似的效果就很好) .

• t 分布只有k<nk阶矩.

• κ2\kappa^2 分布和F分布不对称,且x<0x<0 时为0.

• κ2\kappa^2 分布的可加性:设U 与V 独立,且分别~κ2(n)\kappa^2(n)和κ2(m)\kappa^2(m),则U+V~κ2(n+m)U+V ~\kappa^2(n+m).

对给定的实数α∈(0,0.5)\alpha \in(0, 0.5), 使

P(X>y)=∫∞yfX(x)=αP(X>y)=\int^\infty_yf_X(x)=\alpha

成立的点yy, 称为XX 或其分布的上百分位α\alpha点. 特别对N(0,1)N(0, 1)、t(n)t(n)、κ2(n)\kappa^2(n)和F(n,m)F(n, m)分布, 分别记为

zα,tα(n),χ2α(n),Fα(n,m)z_\alpha,t_\alpha(n),\chi_\alpha^2(n),F_\alpha(n,m)

使

P(X>y)=∫∞yfX(x)=1−αP(X>y)=\int^\infty_yf_X(x)={1-\alpha}

成立的点yy, 称为XX 或其分布的下百分位α\alpha点. 特别对N(0,1)N(0, 1)、t(n)t(n)、κ2(n)\kappa^2(n)和F(n,m)F(n, m)分布, 分别记为

z1−α,t1−α(n),χ21−α(n),F1−α(n,m)z_{1-\alpha},t_{1-\alpha}(n),\chi_{1-\alpha}^2(n),F_{1-\alpha}(n,m)

百分位点的值,可由表查得.

例题:

例题1:

设X1,X2,…,XnX_1, X_2,…, X_n, 是来自总体X~N(0,σ2)X~N(0,\sigma^2)的简单随机样本,求统计量

∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√\sum^{10}_{i=1}(-1)^iX_i\over \sqrt{\sum^{20}_{i=11}X_i^2}

的分布。

解:

由题意可知Xk~N(0,σ2)X_k~N(0,\sigma^2)可得

∑10i=1(−1)iXi~N(0,10σ2)\sum^{10}_{i=1}(-1)^iX_i~N(0,10\sigma^2)

∑10i=1(−1)iXi /10−−√σ~N(0,1)\sum^{10}_{i=1}(-1)^iX_i\ /\sqrt{10}\sigma~N(0,1)

又因为∑20i=11(X2iσ)~χ2(10)\sum^{20}_{i=11}({X_i^2\over\sigma})~\chi^2(10)

故由t分布定义可得

∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√ = ∑10i=1(−1)iXi10−−√σ(∑20i=11(X2i/10)σ)−1~t(10){\sum^{10}_{i=1}(-1)^iX_i\over \sqrt{\sum^{20}_{i=11}X_i^2}}\ =\ \frac{\sum^{10}_{i=1}(-1)^iX_i}{\sqrt{10}\sigma}({\sum^{20}_{i=11}({X_i^2/10})\over \sigma})^{-1}~t(10)

例题2:

设X1,X2,…,Xn+1X_1, X_2,…, X_{n+1}是正态总体的简单样本,前面容量为n的样本均值和样本二阶中心矩分别为X¯¯¯\overline X 和S2nS_n^2

试求下列样本函数的分布

1)(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2(n-1)(X_1-\mu)^2\ /\ \sum_{i=2}^n(X_i-\mu)^2

2)Xn+1−X¯Snn−1n+1−−−√{X_{n+1}-\overline X \over S_n}\sqrt{n-1\over n+1}

解:

1)

(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2=(Xi−μ)2σ2∑ni=2(Xi−μσ)2n−1(n-1)(X_1-\mu)^2\ /\ \sum_{i=2}^n(X_i-\mu)^2\\={\frac{(X_i-\mu)^2}{\sigma^2}\over\frac{\sum_{i=2}^n{(\frac{X_i-\mu}{\sigma})^2}}{n-1}}

分子服从χ2(1)\chi^2(1),分母服从χ2(n−1)\chi^2(n-1)

所以整个式子服从F(1,n−1)F(1,n-1)

2)

Xn+1−X¯Snn−1n+1−−−√{X_{n+1}-\overline X \over S_n}\sqrt{n-1\over n+1}

分母部分变成:

S2n(n−1)σ2~χ2(n−1){S_n^2(n-1)\over\sigma^2}~\chi^2(n-1)

分子部分变成:

Xn+1−X¯σ~N(0,1){X_{n+1}-\overline X \over\sigma}~N(0,1)

因此原式变成:

Xn+1−X¯σS2n(n−1)σ2√ / n−1√\frac{X_{n+1}-\overline X \over \sigma}{\sqrt{S_n^2(n-1)\over\sigma^2}\ /\ \sqrt{n-1}}

服从t(n−1)t(n-1)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: