您的位置:首页 > 编程语言 > Python开发

【R语言或PYTHON语言入门必读】大数据分析师到底需要懂什么(二)

2016-09-20 20:03 615 查看
算法

在统计分析和数据挖掘,我们经常用的算法有二元分类器、数值预测器、回归、贝叶斯网络、Logistics回归、判别式、两步、序列、时间序列、QUEST、C&R树、CHAID、GRI、Apriori、异常、特征选择、C5.0、神经网络、决策列表、K-Means、Kohonen、主成分分析因子、SLRM、SYM、GenLin、Cox、Cama

常用的数据分析工具

用户级、部门级】PPT、Swiff、ColorWheel、NetDraw、SQL、MYSQL、TABLEAU

企业级、BI级】Yed、Flex、Xcelsius、SAS、SPSS、Clementine、ORACLE、IBM、DB2

总结】ORACLE、DB2(IBM)数据库{本身带有统计分析的包,里面也有标准的过程可做数据分析的工作,但总的来说不专业,缺乏在统计过程中的标准函数,比如,做一个线性回归模型,需要写一个很长的SQL或者PLSQL的程序才能完成,而专业的只需要写一个函数就可以做出来}

排名前三的巨头专业的统计软件

R语言:开源统计包软件

SAS:商业、历史最久、美国的医学杂志接受的文章要求里面的统计结果必须是由SAS软件统计出来,其他一概不认可

SPSS:历史悠久的仿真软件后被IBM收购,是数据挖掘的工具。在社会学研究用的比较多,市场排行第三位

Xcelsius:水晶报表在做BI和报表方面非常擅长

UCINET:社会学研究常用软件,主要擅长画社交关系图

数据挖掘方面

数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联。
数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习
常见数据挖掘任务:关联分析、聚类分析、孤立点分析等等
例如:啤酒与尿布的故事
例如:《SCIENCE》的文章《科学家探索出大型数据集内的趋势》



展现层
其实在数据分析中有非常重要的作用,数据分析的软件-读数据-算数据,结果算出来之后,数据分析没有结束,还需要展现结果,展现结果花的时间可能比数据分析还要久。下面是个非常老的报表。人对数字感觉不敏感,但对图形感觉敏感。以下这个不能拿给老板看。



R语言等及其他统计软件园都支持饼图、柱形图、曲线图等大部分的图。

其实,按照我多年的经验和数据分析汇总后的结果表示

a.如果要表达数据整体的部分的信息,主要采用饼状图或垂直柱

b.如果想要表达不同数据之间的对比,主要采用水平柱或者水泡

c.如果想要表达时间序列或者频率,主要采用垂直柱或线图

d.如果想要表达两组数据的相关性,主要采用水平柱或水泡

e.如果想要表达和多重数据或标准相比较,主要采用维度图



R本身也有地图包,可以在地图上展现数据,可以展示出如下的图



下面这个是用R语言进行数据分析之后可视化呈现的社交网络图,大概描述了信息在微博中扩散的路径情况,其中,点代表是人,发亮的地方表示信息在传播。有一条微博可能被很多人转发,信息扩散的图,到了一定程度转发越来越低,陷入低潮,突然,又被某人转发,掀起局部的信息转发小高潮,传播的范围越来越广。这个图对于现在的社交网络的信息传播,是一个很真实而又很有意思的展现。

下图也是数据分析的结果展现。信息图,也是数据展现工作的重要组成部分,也会给决策带来好处,现在有一种职位叫做数据可视化工程师。这个图反应的是使用安卓的人的特征。



下面一张利用R语言分析得出的网页点击的热力图以及作为大数据分析师应该分析出来的用户在观看网页的时候的行为动态和规律,进而可以分析出来广告位的放置和广告位的价格区域的划分。
颜色越红点击越高,点击呈现F的形状。用户先是横着扫,然后越来越低,关注度也就越来越低。如果你想发布的信息被用户关注到,最好安排在三角区域之中



R是S语言的一种实现。S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman和Ross Ihaka及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。

S语言只是标准,实现可以有多种形式。Robert 主要是做生物的。LINUX也是GNU执照的东西。R也有数组、变量、条件语句、控制流以及进行专业数据分析的函数(独有的比起C语言)、开放性很好,在包这个体系,可以自己开发。R总共有5000多个包,现在学习R最大的困扰在于,这些包我怎么知道是做什么的?

R is free
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简单而强大的编程语言;可操纵数据的输入和输出,可实现分支、循环,用户自定义功能。
R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的,在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。
R官方网站地址如下: http://www.r-project.org
R的特点
1.有效的数据处理和保存机制
2.拥有一套整数组和矩阵的操作运算符
3.一系列连贯而又完整的数据分析中间工具
4.图形统计可以对数据直接进行分析和显示,可用于多种图形设备。
5.一种相当完善、简洁和高效的程序设计语言。它包括条件语句、循环语句、用户自定义的递归函数以及输入输出接口。
6.R语言是彻底面向对象的统计编程语言
7.R语言和其他编程语言、数据库之间有很好的接口
8.R语言是自由软件,可以放心大胆地使用,但其功能却不比任何其它同类软件差。
9.R语言具有丰富的网上资源

商业版本的R
Revolution R(官网:http://www.revolutionanalytics.com/)

很多大型厂商也在开始推出自己的R或兼容R的产品,例如Oracle、IBM、Sybase。一般免费申请是可以成功。R的软件包非常短小精悍。SAS一般是10G
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息