统计分析基础-描述数据
2017-01-09 00:29
375 查看
衡量集中趋势
均值mean
可以迭代计算 均值会受到异常值的影响,使得平均值难以具备中位数的代表性
众数mode
均匀分布不存在众数,多峰分布存在多个众数。 数据集中的所有分值都会影响众数。 直方图中的众数会随着组距而改变 从同一总体中抽取出的样本,每一个样本的众数不一定相同。 众数没有计算公式
中位数median
robust:处理高偏斜分布更能反应集中趋势
图片来自《数据挖掘:概念与技术》p.31
中心度量 | 有简单计算公式 | 对数据变化敏感 | 不受组距变化影响 | 不易受异常值影响 | 容易在直方图上找到 |
---|---|---|---|---|---|
mean | √ | √ | √ | ||
mode | √ | √ | |||
median | √ | √ |
度量数据散布
极差
截尾 cut tail
四分位数极差 interquartile range IQR
IQR = Q3 - Q1 50%的数据在IQR间 IQR不会受到数据集中每个值的影响 IQR不受异常值影响
异常点 outlier
outlier < Q1 - 1.5IQR or outlier > Q3 + 1.5IQR
如图,mean不总在IQR之间,因为mean对异常值敏感。而median总在IQR之间
离均差 deviation from mean
平均偏差:正负项会相互抵消 绝对偏差,平均绝对偏差 平方偏差,平均平方偏差
方差 variance
标准差 standard deviation
图片来自 Coursera Statistic with R
样本标准差与总体方差关系
图片来自 Udacity
相关文章推荐
- Excel在统计分析中的应用—第一章—统计基础与数据描述
- 数据分析的统计基础-大纲
- (十一)数据的统计描述和分析
- 数据分析中的统计学基础--数理统计基础
- python数据分析pandas包入门学习(三)汇总和统计描述
- 利用Python进行数据分析(9) pandas基础: 汇总统计和计算
- 统计分析基础 (一) 数据统计与图表
- 统计分析基础 (一) 数据统计与图表
- python/pandas/Numpy数据分析-统计描述,唯一值,值计数
- 统计分析与数据挖掘所涉及的应用领域探讨
- 统计分析与数据挖掘所涉及的应用领域探讨
- 如何把股票软件的数据导入到数据库(access,sqlserver,oracle)然后自行统计分析?
- 关于SNS网站的数据统计分析
- 千万级数据统计分析
- 分析报告、统计分析与数据挖掘的区别(转)
- 51CTO博客周刊数据统计表及下期分析预测
- 对java基础数据类型在运算过程中的自动转换的一些分析
- [摘记]数值方法10——数据的统计描述
- 通用数据采集与统计分析管理系统,随数据库结构的调整而自动调整