描述性数据分析
通过查资料、看书搜集了一些关于描述性数据分析的知识点,总结如下:
一、什么是描述统计分析(Descriptive Analysis)
概念:使用几个关键数据来描述整体的情况
用处:统计归纳无序的数据形成数据集,运用相关数字来反映研究对象的情况
描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
Excel里的分析工具库里的数据分析可以实现描述性统计分析的功能。
描述性统计分析即是对数据源最初的认知,其次才能去做一些其他的分析。
二、常用指标
平均数、中位数、众数体现了数据的集中趋势。
极差、方差、标准差体现了数据的离散程度。
偏度、峰度体现了数据的分布形状。
1、平均数。平均值容易受极值的影响,当数据集中出现极值时,所得到的的结果将会出现较大的偏差。
2、中位数:不受极值影响,所以对极值缺乏敏感性。数据按照从小到大的顺序排列时,最中间的数据。当数据个数为奇数时,中位数即最中间的数;当数据个数为偶数时,中位数为中间两个数的平均值。
3、四分位数:数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字)、下四分位数(数据从小到大排列排在第25%位置的数字)。四分位数可以很容易地识别异常值。箱线图就是根据四分位数做的图。
设四分位的百分比值为y,数据的数量为n,则分位数L=n x y得到。
- 情况1:如果L是整数,则取第L和第L+1位数的平均数
- 情况2:如果L不是整数,则向上取离L最近的一个整数。
如1、2、3、4、5、6、7、8、9、10
下四位数:10X25%=2.5,取向上最近的整数位第3位,下四位数为3
上四位数:10X75%=7.5,上四位数8
箱线图可以用来比较不同组别的数据。箱线图除了上下四分位数,还有上边缘(除异常点以外的最大值)、下边缘(除异常点以外的最小值)
4、方差和标准差。方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差与标准差表示数据集波动的大小,方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。由于标准差只能用于统一体系内的数据比较,如果要对不同体系的数据比较,就要引入标准分的概念。
σ2=1Ni=1N(Xi-μ)2
σ=σ2
5、标准分z:对数据进行标准化处理,可用来表示数据值在所在数据集内的相对排名 。标准分的意义是每个数值距离平均值有多少个标准差。
有数据集x1,x2,x3,其平均值为μ,标准差为σ,则其标准分z为:
z=x2-μσ
6、众数:数据中出现次数最多的数字。众数还可用于非数值型数据,不受极值影响。
7、绝对数
8、相对数:倍数、成数、百分数
9、百分比
10、百分点:1个百分点=1%,是指变动的幅度
11、频数:绝对数,是一组数据中个别数据重复出现的次数
12、频率:相对数,次数与总次数的比。
13、比例:相对数,总体中各部分占全部的比,如:男生的比例是30:50
14、比率:相对数,不同类别的比,如男女比率俄日3:2
15、倍数:相对数,一个数除以另一个数所得的商,如A/B=C,那么A是B的C倍。
16、番数:相对数,指原来数量的2的N次方,如翻一番,意思是原来数量的2倍,翻两番意思是4倍
17、同比:相对数,指历史同时期进行比较,如去年12月与今年12月相比是同比
18、环比:相对数,指与前一个统计期进行比较,如今年5月与今年4月相比是环比
19、极差:=最大值-最小值,描述了数据的范围。
20、峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,比正太分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正太分布更矮更胖,呈平阔峰分布。
21、偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数>0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。
一些常见的指标,不仅在描述性统计分析中常见,在数据报告中也很常见。
三、常用的图
1、直方图
展示分组数据分布的图形。通过直方图可以看出数据的分布形状、分布的中心位置及数据分散的程度,由此判断数据是否符合正态分布。
2、箱线图
箱线图就是根据四分位数做的图,箱线图可以用来比较不同组别的数据。
上四分位数:数据从小到大排列排在第75%的数字
下四分位数(数据从小到大排列排在第25%位置的数字。
上边缘:除异常值以外的最大值
下边缘:除异常值以外的最小值
设四分位的百分比值为y,数据的数量为n,则分位数L=n x y得到。
- 情况1:如果L是整数,则取第L和第L+1位数的平均数
- 情况2:如果L不是整数,则向上取离L最近的一个整数。
如1、2、3、4、5、6、7、8、9、10
下四位数:10X25%=2.5,取向上最近的整数位第3位,下四位数为3
上四位数:10X75%=7.5,上四位数8
3、茎叶图
4、线图
5、饼图
四、数据分析(Data Analysis)
1、概念:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
数据分析是建立在业务的基础上,没有业务指标,数据分析也就失去了意义。
2、分类:描述性数据分析、探索性数据分析、验证性数据分析
3、作用:现状分析、原因分析、预测分析
4、步骤
- 明确分析的目的和思路
- 收集数据(数据源获取)
- 数据处理
- 数据分析
- 数据展现
- 报告撰写
五、数据挖掘(Data Mining)
1、概念:运用基于计算机的方法从数据中获得有用知识的过程,叫做数据挖掘。从已知的数据集合中发现各种模型、概要和导出值得过程。
2、目标:数据挖掘的目标是预测和描述
3、分类:预测性数据挖掘和描述性数据挖掘。
4、步骤:
- 陈述问题,阐明假设(明确分析的目的和思路)
- 收集数据
- 数据预处理
- 模型评估
- 解释模型,得出结论
- 【转】第5章 数据的描述性分析
- 【数据分析 R语言实战】学习笔记 第五章 数据的描述性分析(上)
- 定性数据的描述性分析
- 数据描述性分析
- 数据分析(入门篇)-第二章-玩转数据分析-Part2(Excel数据分析工具库-描述性统计分析)
- R_数据的描述性分析
- 【数据分析 R语言实战】学习笔记 第五章 数据的描述性分析(下)
- 单组数据的描述性分析以及正态性判别r语言代码
- 『原创』统计建模与R软件-第三章 数据描述性分析
- 主成分分析实战篇:南极考察站检测数据降维
- 数据绑定以及Container.DataItem的具体分析
- 数学之路(2)-数据分析-R基础(13)
- Spark 2.1.0 大数据平台源码分析:章节序列
- PetShop4.0数据层设计之分析
- 大数据计算框架与平台--深入浅出分析
- 数据分析-主成分分析
- 影响RAID数据可靠性因素分析
- 2、lib7z-Memory从内存或网络解压数据(分析源码,修改源码)
- Python进阶(三十九)-数据可视化の使用matplotlib进行绘图分析数据
- Python数据分析--KaggleTitanic项目实战