您的位置：首页 > 编程语言 > Python开发

数据分析复盘——基础之统计学

2017-09-14 13:37 176 查看

更多详细内容，可参考统计学元知识

1. 中心极限定理（基本概念)

设从均值为μ、方差为σ^2;（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为（σ^2）/n 的正态分布。

关于各种参数的估计，可以结合分布的定义去看。也许就更容易地理解那些公式，就不用死记硬背了）假设检验同理。（详见

2.参数估计：

2.1 参数估计是什么？

用样本统计量估计总体参数

2.2 点估计

直接用样本变量估计总体参数

2.3 区间估计

用接近或者所属分布去估计参数的去取值范围（给定置信水平）

如，40个样本的平均长度u=13cm，置信区间为95%。因为是大样本，所以可以用Z分布去估计。估计区间为等我回去拿课本。。。

a)大样本	Z（接近）
b)方差已知	Z（分布相同） Z=X-μ / σ/根号N
c) 小样本、方差未知	t~（n-1）（注意自由度）
d)非正态总体	只要是大样本，就可以用Z分布求均值。（中心极限定理说的）
e)总体比例	计算出抽样比例的标准差（方差）、直接通过分布计算。
f)总体方差	卡方分布~（n-1）、相对比较特别的分布、区间直接用置信度上线限的值。公式推导大致过程：构造卡方变量（含有方差）、取一个执行度、计算具体，如图所示。

g)两个样本：
i. 均值之差	记住标准差公式、其余的规则和单个样本一致。（标准化、加减分布上下限的值）
ii. 匹配样本（两组相同个体产生的样本）	默认总体方差一致（所以只要算一组方差即差值的方差）、分大小样本（大z,小t（正太分布才可以））
iii. 总体比例之差	记住方差公式就可以
Ⅳ.两个总体方差比	F分布、推倒步骤和卡方分布类似：构造F分布变量、取一个置信度、计算上线限值、代入

h)样本量的确定：
i. 估计总体均值	由公式推导 n=（分布的临界值）^2 * 方差 / 误差值值（上下限之差）
ii. 估计总体比例	同上、方差为p*（1-p）

3. 注意事项：

t分布和卡方分布查值时，注意自由度（n-1）、 (n1+n2-2)

3.假设检验：

1. 和参数估计的区别

通过样本推总体参数、已知一个总体参数和另一个总体样本，假设样本抽样结果和已知总体的参数相同（双尾）或者不同（单尾/双尾），然后去检验假设。

2. 检验流程：

a) 提出假设（结合题意）

b) 步骤判断适用条件（大小样本、方差知道与否（同参数估计））

c) 相应的分布值的计算（Z、t、卡方、F ）

d) 对比相应的置信度上（下）限

e) 给出结论（能否拒绝原假设）

3. 假设的提出

a) α类错误首先考虑：即以弃真错误概率为基础去提假设，有0.05概率会在错误拒绝原假设。

b) 假设检验用的是反证法：即错误拒绝的概率很小，既然没发生（落在拒绝域内），就反推原假设是没有显著差异的

c) 显著差异：即拒绝零假设、并且结果不太可能是偶然。并不是说，原假设一定为假，只是在显著性水平（α）下可以拒绝原假设。

4. 单双尾检验

和>、< 尤其注意书中P194 提出的概念：“大大超过规定标准”（又用了一次反证法，不去直接检验超过标准、而是去检验没有超过标准是否不显著(%5犯错)，从而反推超过标准是否显著(95%)）

5. 卡方检验和F检验

a) 总个体方差的检验同参数估计（构造包含方差的卡方分布式子，详见197）

b) 两个总体方差比的检验（（P205） F分布见P142）

i. 具体是用样本方差比值估计总体方差比，然后和F分布上下限对比。（外拒绝，内接受）

6. 其它两个总体参数的假设检验：

a) 两个总体均值之差：和一个统计量一样，只要记住两个统计量的方差。

b) 两个总体比例之差：没看懂怎么推来的…

4.分类数据分析:

1. 分类数据

数据表现为类别、而非顺序和数字（观测值）

2. 相关分析

分析类别之间的相关度

a) 卡方统计量（详见P217的图OR P139）

b) 拟合优度检验：依据总体分布状况，计算出分类变量中个类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异。（可以用来检验数据是否符合正态分布）

i. 构造卡方检验量

（自由度=R-1）

ii. 计算检验量的值、看是否符合

3. 独立性分析

a) 列联分析：两个分类变量的相关分析

i. 列联表

ii. 独立性检验：对应到每个单元格的观测值和期望值之差的计算（见P221表）

4. 列联表相关的度量

a) 相关系数φ ：（卡方统计量P224）

b) 列联相关系数 c(卡方统计量) 有上限（0~1）

c) V相关系数：有上限（0~1）（P226）

d) 数值分析（P226）

C和V的范围都是0~1，

φ的值为【-1,1】，符号无意义，取绝对值即可。

5.方差分析

1. 方差分析作用

假设检验、多个总体均值是否有显著差异

2. 为什么要用方差分析

因为两两检验太麻烦了，而且犯错概率会提高（见P234，引论）

3. 误差

组间误差（类别误差SSA）、组内误差（随机误差SSE）总误差

组间方差、组内方差

4. F分布

组间方差/组内方差（大于Fα就拒绝原假设）

（但是呢为何就变成了右侧单尾检验？。。。）

5. 关系强度度量

（组建误差解释总误差的程度）（见P247）

6. 多重比较&均值之差

LSD =tα/2/ /MSE(1/n1+1/n2) (/是根号) 与两两均值之差比较（P248）

7. 双因素方差分析

a) 行列都进行方差分析：

行因素均方差：

列因素均方差：

1) 其中，为什么行因素均方差除的是列数呢？因为，列数对应当前行的项数。列均方差同理。

2) 至于那个式中没有出现的求和下标，i/j,就当后面一项是常数项，直接用下标范围乘以后面的式子。如（i=1，上限为k式中又没出现i,则直接用k乘以后面的式子即可）

b) 组内均方差（随机误差的均方联合计算见P252）

8. 有交互作用

多一个交互作用计算步骤：见（P256）、误差对应的自由度不一样（用到了行数）

6.线性回归

干嘛使的：当有两组数值碰到了一起，想知道是否有“特殊关系”，线性回归可以告诉你。（仅限于线性关系LOL）、超出了线性范畴就只能通过散点图看出来了（各种非线性相关）。

1. 基本的概念

a) 相关关系：变量之间的变化相互依赖、那么就说明相关

b) 函数关系：完全相关关系

c) 相关系数r：公式和最小二乘法很像（P268&P275）（亦称作皮尔森系数）

2. 相关关系（系数）的显著性检验

因为相关系数的计算是基于抽样的，所以和总体的参数是否一致还需要检验。检验统计量，看不懂LOL。（P271）检验过程见假设检验

3. 参数最小二乘估计

估计系数，通过计算

4. 回归直线拟合优度

a) 判定系数（拟合度）：在一元线性回归中，R2=r2 所以r值需要源源大于0.5才具有更强的拟合优度。当r=0.7时，才接近一半。

b) 估计标准误差（误差值）：残差平方和/（n-2）的开方

c) 区别就是误差值更直观明了

5. 调整判定系数

6. 估计标准差

7. 预测

8. 残差分析

用来检验残差为0这一假设，如果被推翻，那么预测很可能不对？？（tag）

a) 残差图、标准化残差

7.自问自答

1. T分布和卡方分布自由度？F分布呢？

答：

T分布：
一个变量	n-1
两个变量
方差相等	n1+n2-1
方差不相等	会给计算公式的
F分布	(m,n)
卡方分布：
拟合优度分析（分类变量和数值型变量相关分析））	R-1
独立性检验（两个分类变量的独立性检验）	（R-1）*（C-1）

2. 点估计和参数估计有什么联系？

答：参数估计在点估计的基础上进行

3. 参数估计和假设检验的区别是啥？

答：参数估计是从抽样中估计总体参数；假设检验是通过对总体参数的提出一个假设，假设符合已知的总体参数。（大于、小于、等于），然后利用样本信息去检验假设是否成立。

4. 假设检验的作用是什么？为什么要用？

答：用来检验当前总体参数（抽样总体）是否符合要求的总体参数。因为，很多情况下都没办法(没必要)全部统计。

5. 如何估计总体均值区间？依据是什么？

1) 答：正太总体中，分两个维度，样本大小、方差已知与否。

2) 非正太总体只考虑大样本的情况。

正态总体	大样本	小样本
方差已知（σ）	Z	Z
方差未知（S）	Z	T(近似正太分布，样本量越大越接近)

6. 假设检验中，两个参数和一个参数的区别和联系。

两个总体均值之差的检验计算公式和一个总体参数检验，都一样，只要把两个总体均值之差的方差和均值之差替换过去即可。

公式（大样本的情况）：

方差分析：

7. 方差分析用的是什么分布？为什么？（结合定义）

答：F分布，做方差分析的时候公式：

两者比值符合F分布定义。组间均方和组内均方均符合卡方分布。（正太总体的方差符合卡方分布）

8. 方差分析之后，如何度量结果的相关性？

答：即看组间平方和占总体平方和的比例（R2）

9. 为什么要做多重比较？

答：在做完方差分析之后，如果是相关的，但是却不知道是具体哪些类目和数值型数据相关。通过多重比较可以看出来。

a) 如果结果很相关又很怀疑这个结果，可以通过多重比较看看详细。

b) 为什么不直接做多重比较呢？

i. 我猜因为一般情况下，更需要的是一个大总体的相关性。比如书中的例子，行业和投诉的次数的关系。这样更有通用意义。

ii. 增加了判断错误的概率，每做一次两两比较，估计总体相关的错误概率就增加一点具体概率为：1-(1-α)n 当n等于6的时候，错误概率会增加到0.265.

10. 多重比较，用的是什么分布？

答：用的是t分布，（一个原因估计是小样本）

11. 独立性检验和（双因素）方差分析的一般区别是什么？

	独立性检验	双因素方差分析
方法	比较的是观察值与期望值，看构造的卡方统计量在卡方分布中的什么位置。	比较的是均值的是否一致，看构造的F统计量（行列均方（方差）与随机误差的比值）在F分布的什么位置。
结果	独立，不独立	① 因素独立的相关分析，相关程度 ② 行列交互的相关分析

12. 独立性检验用的是什么分布？

答：母鸡啊，卡方分布（一涉及到平方和，且姑且可以认为符合正太分布吧）

13. T分布、卡方分布、F分布的使用？

卡方分布	①独立性检验、列联表的相关度量（相关系数φ和列相关系数c） ②总体方差的估计
F分布	①方差分析 ② 两个总体方差比的参估和假检验
T分布	①小样本方差未知均值、均值之差的估计（配对样本同）估计 ② 多重比较
Z分布	①大样本/方差已知的所有估计和假检验

关于正太总体的确定：不用太纠结，有时即使不确定，也可以近似认为正态总体。

如果偏要验证，理论上从问题本身分析？（什么鬼…）数据上，做正态性假设检验。（如拟合优度检验（SPSS中可以做）

8.各种分布

1.卡方分布

1.1卡方分布的定义：

若n个相互独立的随机变量X1，X2，…，Xn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和∑Xi2构成一新的随机变量，其分布规律称为χ2(n)分布（chi-square distribution），其中参数 n 称为自由度。

1.2卡方分布图：

2.t分布

2.1t概述：

在概率论和统计学中，学生t-分布（Student’s t-distribution）应用在当对呈正态分布的母
bb9d
群体的均值进行估计。t检定改进了Z检定，不论样本数量大或小皆可应用。在样本数量大（超过120等）时，可以应用Z检定，但Z检定用在小的样本会产生很大的误差，因此样本很小的情况下得改用t检定。在有三组以上数据时，因为误差无法压低，此时可以用变异数分析代替t检定。

由于在实际工作中，往往σ是未知的，常用s作为σ的估计值，为了与u变换区别，称为t变换t= ，统计量t 值的分布称为t分布。

2.2 t分布图：

3.F分布

3.1 F分布定义：

若X与Y相互独立，且X～x2 (n)，Y～x2 (m)，则

3.2 F分布图：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 数据分析统计学

相关文章推荐

新的分享

章节导航