您的位置:首页 > 职场人生

读书笔记-《统计思维 程序员数学之概率统计》

2016-03-10 19:43 627 查看


《统计思维 程序员数学之概率统计》

第一章探索性数据分析
术语简介

用到的python包和方法

注意点
数据验证

解释数据

第二章分布
术语

用到的python包和方法

注意点
离群值

分布概述

方差

第一章:探索性数据分析

术语简介

横截面研究(cross-sectional study)

收集一个总体在某个特定时间点的数据的研究。

纵向研究(longtitudinal study)

在一段时间内跟踪一个总体的研究,从同一个群体重复收集数据。

过度采样(oversampling)

一种通过增加一个子总体的样本数来避免因样本过小产生错误的技术。

重编码(recode)

通过计算和应用于原始数据、计算或解释,直接收集和记录的值。

轶事证据(anecdotal evidence)

随意收集,而非精心设计的研究获得的数据,通常是个人数据。

用到的python包和方法

replace


语法:
str.replace(old, new[, max])


或者:
>>>str.replace? #查看帮助信息


Python replace() 方法把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。

参考

series
类提供了
value_counts
方法,用于计算每个值出现的次数。

defaultdict


查看:
collections.defaultdict?


说明:defaultdict是其中一个方法,就是给字典value元素添加默认类型。

参考

$ipython notebook --pylab=inline


说明:使图片在“行内”。

注意点

数据验证

如果能抽出时间进行数据验证,就可以节省后续可能花费的时间,避免可能出现的错误。

解释数据

要想有效使用数据,就必须从两个层面思考问题:统计学层面和上下文层面

PS:这里说的上下文应该就是要联系实际,联系背景!

第二章:分布

描述变量的最佳方法之一就是列出该变量在数据集中的值,以及每个值出现的次数。这种描述称为该变量的分布(distribution)。

分布最常用的就是直方图(histogram),即展示每个字值的频数(frequency)的图形。

术语

众数(mode)

正态分布(normal distribution)

钟形的理想化分布,也称为高斯分布(Gaussian)。

均匀分布(uniform distribution)

所有值具有相同频数的分布。

尾部(tail)

一个分布中最高端和最低端的部分。

离群值(outlier)

远离集中趋势的值。

展布(spread)

对值在分布中扩展规模的度量。

方差(variance)

一种汇总统计量,常用于量化展布。

标准差(standard deviation)

方差的平方根,也用于量化展布。

效应量(effect size)

一种汇总统计量,用于量化一个效应的大小,如群组之间的差异。(如:男女生身高的差异?)

用到的python包和方法

matplotlib的pyplot

注意点

离群值

通过观察直方图,很容易发现最常出现的值,并能判断分布的形状,但不一定能看到很少出现的值。

在进一步探索之前,我们最好检查一下离群值(outlier).

x¯=1n∑ixi

分布概述

分布概述常常可以从一下角度:

- 集中趋势

- 众数

是否有多个焦点?

- 展布

变量的变化性如何?

- 尾部

当值偏离众数时,其概率降低多快?

- 离群值

方差

南瓜个体差异比较大,不存在具有代表性的南瓜,因此平均值没有意义。

如果我们不能用一个字值来概括南瓜的重量,那么使用两个值会好一些:均值和方差(variance)。

方差是用于描述一个分布的变化性或者展布(spread)的汇总统计量。计算方差的公式为:

S2=1n∑i(xi−x¯)2

公式中xi−x¯称为“离差”,因此方差就是离差平方的均值。方差的平方根S是标准差(standard deviation)。

如果以前学过相关知识,可能见过n-1而不是n为分母的方差公式。这种统计量用于使用一个样本对总体方差进行估计。将在第8章讨论。

pandas
数据结构提供计算均值、方差、标准差的方法。

mean = xx.mean()
var = xx.var()
std = xx.std()


书中的例子,妊娠期的均值为38.6周,标准差为2.7周。哇,看看吧,标准差的实际意义就有啦!!!也就是说,我们认为2~3周的偏差值是正常的。

妊娠的方差为7.3,这个值就很难理解,尤其是方差的单位是周的平方。感觉有点像物理公式啊,单位也要有意义啊~

PS:看书还是很好的,以前统计里的概念很难记,有了实际意义就好理解了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: