您的位置:首页 > 编程语言 > Python开发

数据分析复盘——基础之统计学

2017-09-14 13:37 176 查看
更多详细内容,可参考统计学元知识

1. 中心极限定理(基本概念)

设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为(σ^2)/n 的正态分布。

关于各种参数的估计,可以结合分布的定义去看。也许就更容易地理解那些公式,就不用死记硬背了) 假设检验同理。(详见

2.参数估计:

2.1 参数估计是什么?

用样本统计量估计总体参数

2.2 点估计

直接用样本变量估计总体参数

2.3 区间估计

用接近或者所属分布去估计参数的去取值范围(给定置信水平)

如,40个样本的平均长度u=13cm,置信区间为95%。因为是大样本,所以可以用Z分布去估计。估计区间为等我回去拿课本。。。

a)大样本Z(接近)
b)方差已知Z(分布相同) Z=X-μ / σ/根号N
c) 小样本、方差未知t~(n-1)(注意自由度)
d)非正态总体只要是大样本,就可以用Z分布求均值。(中心极限定理说的)
e)总体比例计算出抽样比例的标准差(方差)、直接通过分布计算。
f)总体方差卡方分布~(n-1)、相对比较特别的分布、区间直接用置信度上线限的值。公式推导大致过程:构造卡方变量(含有方差)、取一个执行度、计算具体,如图所示。
g)两个样本:
i. 均值之差记住标准差公式、其余的规则和单个样本一致。(标准化、加减分布上下限的值)
ii. 匹配样本(两组相同个体产生的样本)默认总体方差一致(所以只要算一组方差即差值的方差)、分大小样本(大z,小t(正太分布才可以))
iii. 总体比例之差记住方差公式就可以
Ⅳ.两个总体方差比F分布、推倒步骤和卡方分布类似:构造F分布变量、取一个置信度、计算上线限值、代入
h)样本量的确定:
i. 估计总体均值由公式推导 n=(分布的临界值)^2 * 方差 / 误差值值(上下限之差)
ii. 估计总体比例同上、方差为p*(1-p)

3. 注意事项:

t分布和卡方分布查值时,注意自由度(n-1)、 (n1+n2-2)

3.假设检验:

1. 和参数估计的区别

通过样本推总体参数、已知一个总体参数和另一个总体样本,假设样本抽样结果和已知总体的参数相同(双尾)或者不同(单尾/双尾),然后去检验假设。

2. 检验流程:

a) 提出假设(结合题意)

b) 步骤判断适用条件(大小样本、方差知道与否(同参数估计))

c) 相应的分布值的计算(Z、t、 卡方、F )

d) 对比相应的置信度上(下)限

e) 给出结论(能否拒绝原假设)

3. 假设的提出

a) α类错误首先考虑:即以弃真错误概率为基础去提假设,有0.05概率会在错误拒绝原假设。

b) 假设检验用的是反证法:即错误拒绝的概率很小,既然没发生(落在拒绝域内),就反推原假设是没有显著差异的

c) 显著差异:即拒绝零假设、并且结果不太可能是偶然。并不是说,原假设一定为假,只是在显著性水平(α)下可以拒绝原假设。

4. 单双尾检验

和>、< 尤其注意书中P194 提出的概念:“大大超过规定标准”(又用了一次反证法,不去直接检验超过标准、而是去检验没有超过标准 是否不显著(%5犯错),从而反推超过标准是否显著(95%))

5. 卡方检验和F检验

a) 总个体方差的检验 同参数估计(构造包含方差的 卡方 分布式子,详见197)

b) 两个总体方差比的检验((P205) F分布见P142)

i. 具体是用样本方差比值估计总体方差比,然后和F分布上下限对比。(外拒绝,内接受)

6. 其它两个总体参数的假设检验:

a) 两个总体均值之差:和一个统计量一样,只要记住两个统计量的方差。

b) 两个总体比例之差: 没看懂怎么推来的…

4.分类数据分析:

1. 分类数据

数据表现为类别、而非顺序和数字(观测值)

2. 相关分析

分析类别之间的相关度

a) 卡方统计量(详见P217的图OR P139)

b) 拟合优度检验:依据总体分布状况,计算出分类变量中个类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异。(可以用来检验数据是否符合正态分布)

i. 构造卡方检验量

(自由度=R-1)

ii. 计算检验量的值、看是否符合

3. 独立性分析

a) 列联分析:两个分类变量的相关分析

i. 列联表

ii. 独立性检验:对应到每个单元格的观测值和期望值之差的计算(见P221表)

4. 列联表相关的度量

a) 相关系数φ :(卡方统计量P224)

b) 列联相关系数 c(卡方统计量) 有上限(0~1)

c) V相关系数:有上限(0~1)(P226)



d) 数值分析(P226)

C和V的范围都是0~1,

φ的值为【-1,1】,符号无意义,取绝对值即可。

5.方差分析

1. 方差分析作用

假设检验、多个总体均值是否有显著差异

2. 为什么要用方差分析

因为两两检验太麻烦了,而且犯错概率会提高(见P234,引论)

3. 误差

组间误差(类别误差SSA)、组内误差(随机误差SSE) 总误差

组间方差、组内方差

4. F分布



组间方差/组内方差(大于Fα就拒绝原假设)

(但是呢为何就变成了右侧单尾检验?。。。)

5. 关系强度度量



(组建误差解释总误差的程度)(见P247)

6. 多重比较&均值之差

LSD =tα/2/ /MSE(1/n1+1/n2) (/是根号) 与两两均值之差比较(P248)

7. 双因素方差分析

a) 行列都进行方差分析:

行因素均方差:



列因素均方差:



1) 其中,为什么行因素均方差除的是列数呢?因为,列数对应当前行的项数。列均方差同理。

2) 至于那个式中没有出现的求和下标,i/j,就当后面一项是常数项,直接用下标范围乘以后面的式子。如(i=1,上限为k式中又没出现i,则直接用k乘以后面的式子即可)



b) 组内均方差(随机误差的均方联合计算见P252)



8. 有交互作用

多一个交互作用计算步骤:见(P256)、误差对应的自由度不一样(用到了行数)

6.线性回归

干嘛使的:当有两组数值碰到了一起,想知道是否有“特殊关系”,线性回归可以告诉你。(仅限于线性关系LOL)、超出了线性范畴就只能通过散点图看出来了(各种非线性相关)。

1. 基本的概念

a) 相关关系:变量之间的变化相互依赖、那么就说明相关

b) 函数关系:完全相关关系

c) 相关系数r:公式和最小二乘法很像(P268&P275)(亦称作皮尔森系数)

2. 相关关系(系数)的显著性检验

因为相关系数的计算是基于抽样的,所以和总体的参数是否一致还需要检验。检验统计量,看不懂LOL。(P271)检验过程见假设检验

3. 参数最小二乘估计

估计系数,通过计算

4. 回归直线拟合优度

a) 判定系数(拟合度):在一元线性回归中,R2=r2 所以r值需要源源大于0.5才具有更强的拟合优度。当r=0.7时,才接近一半。

b) 估计标准误差(误差值):残差平方和/(n-2) 的开方

c) 区别就是误差值更直观明了

5. 调整判定系数

6. 估计标准差

7. 预测

8. 残差分析

用来检验残差为0这一假设,如果被推翻,那么预测很可能不对??(tag)

a) 残差图、标准化残差

7.自问自答

1. T分布和卡方分布自由度?F分布呢?

答:

T分布:
一个变量n-1
两个变量
方差相等n1+n2-1
方差不相等会给计算公式的
F分布(m,n)
卡方分布:
拟合优度分析(分类变量和数值型变量相关分析))R-1
独立性检验(两个分类变量的独立性检验) (R-1)*(C-1)

2. 点估计和参数估计有什么联系?

答:参数估计在点估计的基础上进行

3. 参数估计和假设检验的区别是啥?

答:参数估计是从抽样中估计总体参数;假设检验是通过对总体参数的提出一个假设,假设符合已知的总体参数。(大于、小于、等于),然后利用样本信息去检验假设是否成立。

4. 假设检验的作用是什么?为什么要用?

答:用来检验当前总体参数(抽样总体)是否符合要求的总体参数。 因为,很多情况下都没办法(没必要)全部统计。

5. 如何估计总体均值区间?依据是什么?

1) 答:正太总体中,分两个维度,样本大小、方差已知与否。

2) 非正太总体只考虑大样本的情况。

正态总体大样本小样本
方差已知(σ)ZZ
方差未知(S)ZT(近似正太分布,样本量越大越接近)

6. 假设检验中,两个参数和一个参数的区别和联系。

两个总体均值之差的检验计算公式和一个总体参数检验,都一样,只要把两个总体均值之差的方差和 均值之差替换过去即可。

公式(大样本的情况):



方差分析:

7. 方差分析用的是什么分布?为什么?(结合定义)

答:F分布, 做方差分析的时候公式:

两者比值符合F分布定义。组间均方和组内均方均符合卡方分布。(正太总体的方差符合卡方分布)

8. 方差分析之后,如何度量结果的相关性?

答:即看组间平方和占总体平方和的比例(R2)

9. 为什么要做多重比较?

答:在做完方差分析之后,如果是相关的,但是却不知道是具体哪些类目和数值型数据相关。通过多重比较可以看出来。

a) 如果结果很相关又很怀疑这个结果,可以通过多重比较看看详细。

b) 为什么不直接做多重比较呢?

i. 我猜因为一般情况下,更需要的是一个大总体的相关性。比如书中的例子,行业和投诉的次数的关系。这样更有通用意义。

ii. 增加了判断错误的概率,每做一次两两比较,估计总体相关的错误概率就增加一点 具体概率为:1-(1-α)n 当n等于6的时候,错误概率会增加到0.265.

10. 多重比较,用的是什么分布?

答:用的是t分布,(一个原因估计是小样本)

11. 独立性检验和(双因素)方差分析的一般区别是什么?

独立性检验双因素方差分析
方法比较的是观察值与期望值,看构造的卡方统计量在卡方分布中的什么位置。比较的是均值的是否一致,看构造的F统计量(行列均方(方差)与随机误差的比值)在F分布的什么位置。
结果独立,不独立① 因素独立的相关分析,相关程度 ② 行列交互的相关分析

12. 独立性检验用的是什么分布?

答:母鸡啊,卡方分布(一涉及到平方和,且姑且可以认为符合正太分布吧)

13. T分布、卡方分布、F分布的使用?

卡方分布①独立性检验、列联表的相关度量(相关系数φ和列相关系数c)
②总体方差的估计
F分布①方差分析
② 两个总体方差比的参估和假检验
T分布①小样本方差未知均值、均值之差的估计(配对样本同)估计 ② 多重比较
Z分布①大样本/方差已知的所有估计和假检验
关于正太总体的确定:不用太纠结,有时即使不确定,也可以近似认为正态总体。

如果偏要验证,理论上从问题本身分析?(什么鬼…) 数据上,做正态性假设检验。(如拟合优度检验(SPSS中可以做)

8.各种分布

1.卡方分布

1.1卡方分布的定义:

若n个相互独立的随机变量X1,X2,…,Xn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和∑Xi2构成一新的随机变量,其分布规律称为χ2(n)分布(chi-square distribution),其中参数 n 称为自由度。

1.2卡方分布图:



2.t分布

2.1t概述:

在概率论和统计学中,学生t-分布(Student’s t-distribution)应用在当对呈正态分布的母
bb9d
群体的均值进行估计。t检定改进了Z检定,不论样本数量大或小皆可应用。在样本数量大(超过120等)时,可以应用Z检定,但Z检定用在小的样本会产生很大的误差,因此样本很小的情况下得改用t检定。在有三组以上数据时,因为误差无法压低,此时可以用变异数分析代替t检定。

由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换t= ,统计量t 值的分布称为t分布。

2.2 t分布图:



3.F分布

3.1 F分布定义:

若X与Y相互独立,且X~x2 (n),Y~x2 (m),则


3.2 F分布图:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息