您的位置:首页 > 大数据

大数据企业架构以及产生的相关热门职位

2017-08-23 22:21 281 查看
对于刚开始学习大数据的人来说,清楚的明白大数据的企业架构尤为重要,对于以后的学习有着不可替代的作用,我将分享一下我对大数据架构的一些理解,不足之处,希望谅解。

大数据的技术架构

这是一张大数据架构的图



根据上图,我们可以清楚的了解到大数据的架构分为六层。接下来我将会一一讲解各层作用。

数据源:

数据源顾名思义也就是数据的来源。我们学习的大数据,数据来源一般分为以下三个方面。

互联网:对于互联网,我想大家再清楚不过了,因为我们每天都会去访问互联网。我们可以通过一些工具,比如八爪鱼等工具爬取我们所需要的数据。另外我们还可以通过自己写的爬虫,爬取网上我们想要的数据。

物联网:也就是我们通常所说的传感器,摄像头,冰箱,洗衣机等所产生的数据。

企业数据:这个没有什么好讲的,就是企业业务中积攒下来的数据。

数据收集/准备:

数据已经在那里了,我们当然要进行数据的收集与准备了。

Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

Kafka:Kafks是消息队列,一般接物联网数据。

Sqoop: Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系

型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进

到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库

中。

数据存储:

得到的数据当然要存储起来了。

HDFS:HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。

HBase:H Base是一个开源的非关系型分布式数据库(NoSQL)。

HBase产生背景:

1.HDFS在数据随机访问和实时响应方面的表现并不理想;

2.HDFS是针对大体积文件(128M)来设计的,小文件占用存储和性能,查询慢;

3.HBase具有的有点:

a)合并小文件存储为大文件

b)排序提高检索性能(key-value形式存储)

c)支持MapReduce(HBase不支持join操作,所以支持MapReduce)

资源管理:

Yarn: YARN是从0.23.0版本开始新引入的资源管理系统,进行资源管理和作业调度。

计算框架:

计算框架分为三类。

批处理:MR等

流式处理:Storm等

交互式处理:Presto(因为处理速度快,不适合大批量)

数据分析:

清洗完数据后进行数据分析。

Mahout:(hadoop自带)生产环境一般不用它

Mllib:(Spark)一般比较常用

数据展示:

最后阶段当然就是数据展示了,利用一些工具跟软件将数据漂亮完美的展现出来。

其中有D3,Echart:,Tableau,FineReport(国内市场占用最多的)等等。

大数据的相关热门职业

基于以上大数据的架构,产生可各种各样的工作职位。以下这张图介绍了大数据的相关热门职业。



通过这篇博客,你有没有对大数据的架构有了清晰的认识呢?希望我写的这篇文章对你们有所帮助。因为在我刚开始学习大数据的时候,可是没找到这一类型的。所以今天总结以下,希望对各位有所帮助。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐