您的位置:首页 > 其它

统计分析基础-描述数据

2017-01-09 00:29 375 查看

衡量集中趋势

均值mean

可以迭代计算
均值会受到异常值的影响,使得平均值难以具备中位数的代表性


众数mode

均匀分布不存在众数,多峰分布存在多个众数。
数据集中的所有分值都会影响众数。
直方图中的众数会随着组距而改变
从同一总体中抽取出的样本,每一个样本的众数不一定相同。
众数没有计算公式


中位数median

robust:处理高偏斜分布更能反应集中趋势



图片来自《数据挖掘:概念与技术》p.31

中心度量有简单计算公式对数据变化敏感不受组距变化影响不易受异常值影响容易在直方图上找到
mean
mode
median

度量数据散布

极差

截尾 cut tail

四分位数极差 interquartile range IQR

IQR = Q3 - Q1
50%的数据在IQR间
IQR不会受到数据集中每个值的影响
IQR不受异常值影响


异常点 outlier

outlier < Q1 - 1.5IQR or outlier > Q3 + 1.5IQR




如图,mean不总在IQR之间,因为mean对异常值敏感。而median总在IQR之间

离均差 deviation from mean

平均偏差:正负项会相互抵消
绝对偏差,平均绝对偏差
平方偏差,平均平方偏差


方差 variance

标准差 standard deviation


图片来自 Coursera Statistic with R

样本标准差与总体方差关系


图片来自 Udacity
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息