您的位置:首页 > 其它

数据分析(一)----- 基本概念及分析软件安装

2019-01-22 16:05 176 查看

一、什么是数据分析

        专业的解释:有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。

        从行业的角度:数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。

        数据分析立足于三点:一是目的,要有针对性;二是方法,统计基础和数据挖掘;三是结果,要达到最初的目的并有较好的应用。

二、数据分析六部曲

       数据分析的过程主要包括:明确分析目的和内容、数据收集、数据处理、数据分析、数据展现和报告撰写等六个步骤。

2.1 明确分析目的和内容

       在进行数据分析之前,数据分析师应对需要分析的项目进行一个详细的了解,或者自己本身就对此分析项目所涉及的行业有比较深刻的了解,对其内部的运行规律即使做不到了如指掌,至少也要有一个整体框架上的了解。数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?数据分析师对这些都要了然于心。对数据分析目的的把握,是数据分析项目成败的关键。只有对数据分析的目的有深刻的理解,才能整理出完整的分析框架和分析思路,因为根据不同的数据分析目的所选择的数据分析方法是不同的。

2.2 数据收集

       当我们根据分析的目的,选定了相应的设计框架之后,一个重要的问题就出现了,如何能准确有效地收集数据,从而客观全面地反映所要研究的问题的真实状况。数据收集是一个按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它是数据分析的基础。通常数据收集的方法包括观察法、访谈法、问卷法、测验法等。

2.3 数据预处理

       数据预处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。概括起来,统计数据预处理的过程包括数据审查、数据清理、数据转换和数据验证四个步骤。
第一步:数据审查
        该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与研究目的要求一致,是否全面,包括利用描述性统计分析,检查各个字段的字段类型,字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。
第二步:数据清理
       该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,使得后续的数据分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。
第三步:数据转换
       数据分析强调分析对象的可比性,但不同字段值由于计量单位等不同,往往造成数据不可比。对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,那么容易引起评价结果出现较大误差,再加上分析过程中的其他一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化,以及属性构造等。
第四步:数据验证
       该步骤的目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中。上述四个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值或空值个数等),接着对发现的问题进行处理,即数据清理;再就是提高数据的可比性,对数据进行一些变换,使数据形式上满足分析的需要;最后则是进一步检测数据内容是否满足分析需要,诊断数据的真实性及数据之间的协调性等,确保优质的数据进入分析阶段。

2.4 数据分析

       数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。到了这个阶段,要能驾驭数据、开展数据分析,就要涉及工具和方法的使用。其一要熟悉常规数据分析方法,最基本的是要了解例如方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果的释;其二要熟悉 1+1 种数据分析工具,Excel 是最常见的数据分析工具,一般的数据分析我们可以通过 Excel 完成,而后要熟悉一个专业的分析软件便于进行一些专业的统计分析、数据建模等。专业的数据分析工具主要包括:SPSS、R、python、MATLAB、SAS 等。

2.5 数据展现

       一般情况下,数据分析的结果都是通过图、表的方式来呈现的,俗话说“字不如表,表不如图”。借助数据展现手段,能更直观地让数据分析师表述想要呈现的信息、观点和建议。常用的图表包括饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕雷托图等。

2.6 报告撰写

       最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以为达成商业目的提供参考。
       一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容。图文并茂可以令数据更加生动活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。
        另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,更重要的是解决问题,否则称不上是好的数据分析,同时也失去了报告的意义,数据分析的初衷就是为了满足商业目的而进行的。

三、数据分析方法简介

      数据分析方法的选择很重要,有时候不同的数据分析方法会得到不同的分析结果。

3.1 统计分析方法简介

1.描述性统计分析 
       描述性统计分析(Description Statistics)是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。描述性统计分析分为集中趋势分析和离中趋势分析和相关分析三大部分。

       集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如测试班级的平均成绩是多少?是正偏分布还是负偏分布?

       离中趋势分析主要靠全距、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势。例如,当我们想知道两个教学班的语文成绩,哪个班级的成绩分布更分散时,就可以用两个班级的四分差或百分点来比较。
       相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率和个人领域空间之间的关系;既包括 A 大 B 就大(小),A 小 B 就小(大)的直线相关关系,也可以是复杂相关关系(A=YB·X);既可以是 A、B 变量同时增大的正相关关系,也可以是 A 变量增大时 B 变量减小的负相关关系,还包括两变量共同变化的紧密程度——相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——因果系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行 A 变量到 B 变量的估算,这就是所谓的回归分析。因此相关分析是一种完整的统计研究方法,它贯穿于提出假设、数据分析、数据研究的始终。

2.回归分析 
       回归分析(Regression)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量 Y 对另一个变量(X)或一组(X1,X2,…,Xk)变量的相依关系,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析。按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。此外所讲的回归分析是指一元线性回归,区别于数据挖掘方法里的多元线性回归和逻辑斯蒂回归。

3.对应分析 
       对应分析(Correspondence Analysis)又称“关联分析”、“R-Q 型因子分析”,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

4.因子分析 
        因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析的方法有 10 多种,如重心法、影像分析法,最大似然解法、最小平方法、阿尔发抽因法、拉奥典型抽因法等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。

5.方差分析 
        方差分析(Analysis of Variance,简称 ANOVA)又称“变异数分析”、“F 检验”,是 R.A.Fisher发明的分析方法,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一个是不可控的随机因素,另一个是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

3.2 数据挖掘方法简介

1. 聚类分析

2. 分类分析

      决策树、贝叶斯、支持向量机、随机森林、人工神经网络。

3. 关联规则

4. 回归分析

3.3 统计分析和数据挖掘的区别和联系

 联系:

        两者的理论都是统计基础理论,因此很多情况下两者是同根同源的。比如概率论和随机事件在统计分析中常用,而在数据挖掘上朴素贝叶斯分类也是这个理论。

区别:

       数据挖掘是统计分析技术的延伸和发展;统计分析时需要进行假设,然后根据假设得到的结果来验证假设的合理性;而数据挖掘中不需要进行假设,它的算法帮你解决了这些问题。统计分析常常研究的是一个或一组函数关系,变量和结果都较明确,而数据挖掘研究的变量及其因素较多,里面的关系较复杂。这两者的研究思维会有一些区别。

四、数据分析工具的安装

 1. Excel2016上安装分析工具

  点击文件:

点击选项:

点击加载项:

选择excel加载项后点击转到:

选择分析工具库后确定即可:

最后点击数据,下面出现数据分析工具项表明成功,之后可以直接使用。

4.2 数据分析软件SPSS的安装

        软件的下载及安装步骤有很多,随意网上找一下即可,但是注意安装后需要注册;如果安装过程中出现让你填注册码的地方可以去网上找一个可用的填上即可,如果安装过程中没有出现让你填注册码但是报错:could not create java virtual machine,这时候只需要找一个包含注册序号的lservrc文件放到安装目录下即可。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: