大数据企业架构以及产生的相关热门职位
2017-08-23 22:21
281 查看
对于刚开始学习大数据的人来说,清楚的明白大数据的企业架构尤为重要,对于以后的学习有着不可替代的作用,我将分享一下我对大数据架构的一些理解,不足之处,希望谅解。
根据上图,我们可以清楚的了解到大数据的架构分为六层。接下来我将会一一讲解各层作用。
数据源:
数据源顾名思义也就是数据的来源。我们学习的大数据,数据来源一般分为以下三个方面。
互联网:对于互联网,我想大家再清楚不过了,因为我们每天都会去访问互联网。我们可以通过一些工具,比如八爪鱼等工具爬取我们所需要的数据。另外我们还可以通过自己写的爬虫,爬取网上我们想要的数据。
物联网:也就是我们通常所说的传感器,摄像头,冰箱,洗衣机等所产生的数据。
企业数据:这个没有什么好讲的,就是企业业务中积攒下来的数据。
数据收集/准备:
数据已经在那里了,我们当然要进行数据的收集与准备了。
Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
Kafka:Kafks是消息队列,一般接物联网数据。
Sqoop: Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系
型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进
到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库
中。
数据存储:
得到的数据当然要存储起来了。
HDFS:HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。
HBase:H Base是一个开源的非关系型分布式数据库(NoSQL)。
HBase产生背景:
1.HDFS在数据随机访问和实时响应方面的表现并不理想;
2.HDFS是针对大体积文件(128M)来设计的,小文件占用存储和性能,查询慢;
3.HBase具有的有点:
a)合并小文件存储为大文件
b)排序提高检索性能(key-value形式存储)
c)支持MapReduce(HBase不支持join操作,所以支持MapReduce)
资源管理:
Yarn: YARN是从0.23.0版本开始新引入的资源管理系统,进行资源管理和作业调度。
计算框架:
计算框架分为三类。
批处理:MR等
流式处理:Storm等
交互式处理:Presto(因为处理速度快,不适合大批量)
数据分析:
清洗完数据后进行数据分析。
Mahout:(hadoop自带)生产环境一般不用它
Mllib:(Spark)一般比较常用
数据展示:
最后阶段当然就是数据展示了,利用一些工具跟软件将数据漂亮完美的展现出来。
其中有D3,Echart:,Tableau,FineReport(国内市场占用最多的)等等。
通过这篇博客,你有没有对大数据的架构有了清晰的认识呢?希望我写的这篇文章对你们有所帮助。因为在我刚开始学习大数据的时候,可是没找到这一类型的。所以今天总结以下,希望对各位有所帮助。
大数据的技术架构
这是一张大数据架构的图根据上图,我们可以清楚的了解到大数据的架构分为六层。接下来我将会一一讲解各层作用。
数据源:
数据源顾名思义也就是数据的来源。我们学习的大数据,数据来源一般分为以下三个方面。
互联网:对于互联网,我想大家再清楚不过了,因为我们每天都会去访问互联网。我们可以通过一些工具,比如八爪鱼等工具爬取我们所需要的数据。另外我们还可以通过自己写的爬虫,爬取网上我们想要的数据。
物联网:也就是我们通常所说的传感器,摄像头,冰箱,洗衣机等所产生的数据。
企业数据:这个没有什么好讲的,就是企业业务中积攒下来的数据。
数据收集/准备:
数据已经在那里了,我们当然要进行数据的收集与准备了。
Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
Kafka:Kafks是消息队列,一般接物联网数据。
Sqoop: Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系
型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进
到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库
中。
数据存储:
得到的数据当然要存储起来了。
HDFS:HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。
HBase:H Base是一个开源的非关系型分布式数据库(NoSQL)。
HBase产生背景:
1.HDFS在数据随机访问和实时响应方面的表现并不理想;
2.HDFS是针对大体积文件(128M)来设计的,小文件占用存储和性能,查询慢;
3.HBase具有的有点:
a)合并小文件存储为大文件
b)排序提高检索性能(key-value形式存储)
c)支持MapReduce(HBase不支持join操作,所以支持MapReduce)
资源管理:
Yarn: YARN是从0.23.0版本开始新引入的资源管理系统,进行资源管理和作业调度。
计算框架:
计算框架分为三类。
批处理:MR等
流式处理:Storm等
交互式处理:Presto(因为处理速度快,不适合大批量)
数据分析:
清洗完数据后进行数据分析。
Mahout:(hadoop自带)生产环境一般不用它
Mllib:(Spark)一般比较常用
数据展示:
最后阶段当然就是数据展示了,利用一些工具跟软件将数据漂亮完美的展现出来。
其中有D3,Echart:,Tableau,FineReport(国内市场占用最多的)等等。
大数据的相关热门职业
基于以上大数据的架构,产生可各种各样的工作职位。以下这张图介绍了大数据的相关热门职业。通过这篇博客,你有没有对大数据的架构有了清晰的认识呢?希望我写的这篇文章对你们有所帮助。因为在我刚开始学习大数据的时候,可是没找到这一类型的。所以今天总结以下,希望对各位有所帮助。
相关文章推荐
- Intel64及IA-32架构优化指南第7章——7.2 数据的硬件预取,7.3 预取以及与Cache相关的指令
- 金融安全资讯精选 2017年第十八期:4个月内P2P网贷企业信息安全未合规将被取缔,全球100起重大投融资看未来网络安全发展热点,Gartner2017年安全投入以及人员投入占比相关数据
- EF4.1 企业架构模式 自动映射数据表(转载)
- 黑马程序员——常量变量以及相关的数据类型
- TOGAF企业架构的产生原因——上海信息化培训中心
- IFC标准是为了满足建筑行业的信息交互与共享而产生的统一数据标准,是建 筑行业事实上的数据交换与共享标准。本文概要介绍了IFC标准的产生及发展 历程,IFC的整体框架结构,简要说明了IFC标准的实现方法和过程,描述了 当前的应用以及我们应该更加积极地利用IFC标准为建筑软件行业服务。
- DotNET企业架构应用实践-基于接口开发介绍以及应用场景和案例
- 基于MongoDB REST API 以及XMPP的游戏数据同步架构
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- 关于OA系统以及SOA架构相关
- 企业大数据平台架构
- Oracle内存全面分析(2)-1Oracle 的内存架构组成_1SGA.2Buffer cache的管理、参数以及相关视图
- Servlet的体系架构 以及 servlet的运行相关--笔记
- js五种数据类型,以及相关的基础方法
- java 大数据以及Hadoop相关概念介绍
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- 企业架构,业务架构,数据架构
- 数据-企业最重要的资产(一)数据架构为先
- 【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路
- Android 连接Mysql进行相关操作——用PHP做中介以及JSON做数据交换