您的位置：首页 > 大数据

大数据企业架构以及产生的相关热门职位

2017-08-23 22:21 281 查看

对于刚开始学习大数据的人来说，清楚的明白大数据的企业架构尤为重要，对于以后的学习有着不可替代的作用，我将分享一下我对大数据架构的一些理解，不足之处，希望谅解。

大数据的技术架构

这是一张大数据架构的图

根据上图，我们可以清楚的了解到大数据的架构分为六层。接下来我将会一一讲解各层作用。

数据源：

数据源顾名思义也就是数据的来源。我们学习的大数据，数据来源一般分为以下三个方面。

互联网：对于互联网，我想大家再清楚不过了，因为我们每天都会去访问互联网。我们可以通过一些工具，比如八爪鱼等工具爬取我们所需要的数据。另外我们还可以通过自己写的爬虫，爬取网上我们想要的数据。

物联网：也就是我们通常所说的传感器，摄像头，冰箱，洗衣机等所产生的数据。

企业数据：这个没有什么好讲的，就是企业业务中积攒下来的数据。

数据收集/准备：

数据已经在那里了，我们当然要进行数据的收集与准备了。

Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。

Kafka：Kafks是消息队列，一般接物联网数据。

Sqoop: Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系

型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进

到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库

中。

数据存储：

得到的数据当然要存储起来了。

HDFS:HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。

HBase:H Base是一个开源的非关系型分布式数据库（NoSQL）。

HBase产生背景：

1.HDFS在数据随机访问和实时响应方面的表现并不理想；

2.HDFS是针对大体积文件(128M)来设计的,小文件占用存储和性能,查询慢；

3.HBase具有的有点：

a)合并小文件存储为大文件

b)排序提高检索性能（key-value形式存储）

c)支持MapReduce（HBase不支持join操作，所以支持MapReduce）

资源管理：

Yarn: YARN是从0.23.0版本开始新引入的资源管理系统,进行资源管理和作业调度。

计算框架：

计算框架分为三类。

批处理:MR等

流式处理：Storm等

交互式处理：Presto（因为处理速度快，不适合大批量）

数据分析：

清洗完数据后进行数据分析。

Mahout：(hadoop自带)生产环境一般不用它

Mllib:(Spark)一般比较常用

数据展示：

最后阶段当然就是数据展示了，利用一些工具跟软件将数据漂亮完美的展现出来。

其中有D3，Echart:，Tableau，FineReport（国内市场占用最多的）等等。

大数据的相关热门职业

基于以上大数据的架构，产生可各种各样的工作职位。以下这张图介绍了大数据的相关热门职业。

通过这篇博客，你有没有对大数据的架构有了清晰的认识呢？希望我写的这篇文章对你们有所帮助。因为在我刚开始学习大数据的时候，可是没找到这一类型的。所以今天总结以下，希望对各位有所帮助。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航