描述统计学基础
2017-05-27 19:13
92 查看
第一课:研究方法入门
总体参数(如 mu 或 μ)是用来描述整个总体的值。样本统计量(如 X-bar 或
x¯ )是用来描述样本的值;我们使用统计量来估计总体参数。估计值是我们对总体参数的最佳猜测。所以,我们可以使用 X-bar 来估计 mu。
- μ-x¯称为抽样误差
- a parameter is a characteristic of a population, while a statistic is a characteristic of a sample.
第四课:可变性
IQR(Interquartile Range)=Q3-Q1Outlier(异常值)
StandardDeviation=∑(xi−x¯)2n−1−−−−−−−−−−√
variance=∑(xi−x¯)2n−1
s=∑(xi−x¯)2n−1−−−−−−−−−−√
σ=∑(xi−x¯)2n−−−−−−−−−−√
我们称s为sample standard deviation
如果你有样本,并且需要估算总体标准差。用s这个公式。如果你有数据集,要估算数据集的标准差而不是总体的标准差,用 σ 来计算
第七课:抽样分布
中心极限定理σn−−√≈SE
SE称之为标准误差 standard error
SE也是样本均值分布的标准差。也就是用这个公式,根据总体的标准差,除以样本量的平方根,可以得到样本的标准差
因为中心极限定理,我们的总体可以是任何形状的,我们从中抽取一个样本,然后计算出均值。之后再抽取一个,计算均值。假设持续很多次(非常大),这时我们将均值绘制成图像形状会显得相对正太。其中标准偏差会等于总体偏差除以样本量的平方根。
当n值越大时,样本标准差就会越来越小,总体均值会落入的区间也会越来越小。注意:抽样分布的均值和总体的均值是一样的。具体说来,我们需要使n增大四倍才能实现一半的衡量错误
抽样分布:如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到N取n的组合个样本(所有可能的样本个数)。抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。由平均数构成的新总体的分布,称为平均数的抽样分布。随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。
标准分数(standard score)也叫z分数(z-score)含义及计算过程:
含义:标准分数可以回答这样一个问题:”一个给定分数距离平均数多少个标准差?”在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。
由于标准分数不仅能表明原始分数在分布中的地位,它还是以标准差为单位的等距量表,故经过把原始分数转化为标准分数,可以在不同分布的各原始分数之间进行比较。
例如:某中学高(1)班期末考试,已知语文期末考试的全班平均分为73分,标准差为7分,甲得了78分;数学期末考试的全班平均分为80分,标准差为6.5分,甲得了83分。甲哪一门考试成绩比较好?
因为两科期末考试的标准差不同,因此不能用原始分数直接比较。需要将原始分数转换成标准分数,然后进行比较。
Z(语文)=(78-73)/7=0.71 Z(数学)=(83-80)/6.5=0.46 甲的语文成绩在其整体分布中位于平均分之上0.71个标准差的地位,他的数学成绩在其整体分布中位于平均分之上0.46个标准差的地位。由此可见,甲的语文期末考试成绩优于数学期末考试成绩。
计算公式:
z=x−μσ (7−1)
其中μ为均值,σ为标准差
若随机变量无法确定,则为算数平均数,公式为
z=x¯−μσ/n−−√ (7−2)
样本均值的均值:假设有一个总体,从中抽样,每次抽n个,每次抽出来的n个数值会有个均值u,如果一共抽了k次,那就有k个均值,比如设为u1,u2,u3,…uk,这k个均值的均值等于总体的均值。
顺便说一句,基于中心极限定理,这K个均值的标准差是总体标准差的根号n分之一倍。
关于第二个公式的进一步理解如下:
该公式实际上是对样本均值抽样分布求z值。由于有如下关系式:
抽样分布的标准差=总体标准差n−−√=σn−−√
将此公式带入(7-1)中,于是得到如下算式
z抽样分布=x¯−μ抽样分布的标准差=x¯−μσ−n−−√
即(7-2)
事实上,计算z的目的,是将任意正态分布N(μ,σ2),转换成标准正态分布N(0,1)
这样就可以利用标准正态分布的特有性质,将“与均值的距离”转换成特定区域内的概率。(可以通过查标准正太分布的z表得出概率)
第一次写博客,也是第一次用Markdown记笔记,好多东西写的不系统,也不完善,还请大家见谅,我以后会逐步改进的。争取最大可能把复杂问题简单化。最后附上我的优达学城优惠码C7B2877A
相关文章推荐
- 统计学基础-第一周 描述统计学
- Oracle11g监听程序当前无法识别连接描述符中请求的服务
- 用verilog来描述组合逻辑电路
- SQL批量添加数据库中所有用户数据表描述
- oracle给字段添加描述
- 基础篇1.3 Android的总体架构描述
- app的描述-软件的描述
- pthread_cond_wait与pthread_cond_signal (描述有问题)
- salesforce DML和Database及rollback方法简单描述
- globalmem虚拟设备实例描述(四)
- Apache 服务器运行一段时间后本地无法通过外网访问的情况问题解决描述(转)
- servlet是如何运行的描述
- Elipse 中新建标签库描述文件(Tag Library Descriptor , TLD)
- FM:MONTH_NAMES_GET获取 月份描述信息
- Android页面描述视图大小的单位
- VxWorks启动过程描述及主要宏开关含义
- STM32的CustomHID的各描述符介绍
- 小甲鱼PE详解之区块描述、对齐值以及RVA详解(PE详解06)
- String , StringBuffer 与 StringBuilder 简单的JDK JRE描述
- SVM入门(三、四、五)线性分类器的求解——问题的描述