您的位置:首页 > 其它

连续分布——正态分布、卡方分布、t分布、F分布

2016-09-22 13:25 246 查看

正态分布

某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布。

正态分布,即高斯分布,是自然界最常见的数据分布了。

用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5),就是均值为-2,标准差为0.5的正态分布。而N(0,1)称为标准正态分布。

这里给出R应用

//假设当在居民的身高正态分布均值为170cm,标准差为10,身高低于160的概率为
pnorm(160,170,10)//0.1586553
//身高在170~180之间的概率为
pnorm(180,170,10)-pnorm(170,170,10)//0.8413447-0.5=0.3413447


中心极限定理

通常,由于总体过大,我们以样本为研究对象,并用样本的统计量估算总体的统计量。

比如,我们根据样本均值,估算出总体均值。

我们从总体中100取出多个样本,每个样本10条数据,取每个样本的均值,得到100个样本均值。当样本均值够多时,就会发现这些样本均值服务正态分布。取这个样本均值的正态分布的均值,理论上最接近总体均值了。这就是大数定理,即,中心极限定理。

抽样分布

上面提到的样本均值,算是一种样本统计量。

就是说,当我们在一个数据集中抽出多个样本时,这些样本的样本统计量会服从固定的抽样分布。

这样,我们只要看抽样分布与假定的总体分布差距大小,就知道总体分布的情况了。

常见的三大抽样分布:卡方分布、t分布、F分布,都是基于正态分布导出的,用来检验正态总体。

抽样检验

还是上面的人群身高的例子。假如那个地区的人们说自己当地男性的平均身高是170cm,但我们观察到的情况是低于170的人比较多,于是我们假设居民平均身高低于170cm,并来检验一下这个假设。

我们测量20男性的身高当作样本。已知总体身高服从正态分布,总体均值为170cm,我们只要用t分布来检验样本均值和总体均值差距是否大,就可以知道当在居民是否说谎了。

//样本数据
h<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);
//做t检验。假设居民平均身高低于170cm,并来检验一下这个假设
t.test(h,m=1.70,alternative = "less")


以下是t检验的输出结果

One Sample t-test


data: h

t = -3.2065, df = 19, p-value = 0.002323

alternative hypothesis: true mean is less than 1.7

95 percent confidence interval:

-Inf 1.694241

sample estimates:

mean of x

1.6875

从t检验结果可以看出:

样本均值为1.6875。

在t分布图上,t值-3.2065对应的概率p值为0.002323。使用0.005的显著性水平的话,由于p值小于显著性水平,表明假设错误的概率很低。可以说,平均身高应该是低于170cm的,且估计错误的概率低于0.005。

检验模式

上面的例子我们使用了单尾检验模式中的less,即假设总体均值小于170cm。还有两种模式:greater、two-side,分别表示样本均值大于总体均值,不等于总体均值。

这里看下R代码

//假设居民平均身高高于170cm,并来检验一下这个假设
t.test(h,m=1.70,alternative = "greater")


One Sample t-test
data: h

t = -3.2065, df = 19, p-value = 0.9977

alternative hypothesis: true mean is greater than 1.7

95 percent confidence interval:

1.680759 Inf

sample estimates:

mean of x

1.6875

可以得出结果,由于t = -3.2065对应的p值没有小于显著水平0.005,假设不成立。

对比检验

上面例子是样本与总体预估均值的对比检验,接下看下两个样本之间的对比检验。

还是拿身高的例子来说,这里我们要研究饮用水源对身高的影响,选了相同地区两村子的居民做样本来研究。一个村子喝地下水,一个村子喝河水,分别测量20名男性身高,做对比。因为有人声称喝河水的民民普遍长的高,我们就来检验一下假设。

//喝地下水的居民身高
h1<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);
//喝河水的居民身高
h2<-c(1.69,1.69,1.70,1.71,1.67,1.68,1.68,1.70,1.70,1.68,1.64,1.73,1.66,1.71,1.68,1.69,1.69,1.68,1.67,1.69);
//假设喝河水的居民比喝地下水的居民高
t.test(h1,h2,alternative = "less")


Welch Two Sample t-test

data: h1 and h2

t = 0.085501, df = 37.536, p-value = 0.5338

alternative hypothesis: true difference in means is less than 0

95 percent confidence interval:

-Inf 0.01036226

sample estimates:

mean of x mean of y

1.6875 1.6870

从检验结果来看,t = 0.085501在t分布图上对应的概率p为0.5338,没有低于显著水平0.05,假设不成立。

正态检验

上面的几个例子可以使用t检验我们的各种假设,是因为我们确定身高数据服从正态分布,否则所有的检验就无效了。

实际应用过程中,可以这样检验数据是否服从正态分布:

shapiro.test(h)


Shapiro-Wilk normality test

data: h

W = 0.94791, p-value = 0.3365

从输出结果来看,由于p值大于显著性水平0.05,所以可以判定数据集h服从正态分布。

所有检验都不是100%正确。比如下面这段R代码:

shapiro.test(1:30)//输出为:0.2662
shapiro.test(1:50)//输出为:0.05809


零假设、备选假设

前面有关身高的例子中,以p小于显著性水平0.05来判断假设是否成立,而关于正态分布检验的例子中,以p大于显著性水平0.05来判断是否满足正态分布。真正的标准是什么?

p<0.05是拒绝是零假设,承认备选假设;p>0.05是无法拒绝零假设。重点在于选择的零假设和备选假设是什么。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: