五年经验大佬带你掌握 基于Hadoop与Spark的大数据开发实战
前言:
本书以Hadoop和Spark为核心,阐述了基于这两种通用大数据处理平台的应用开发技术。
在Hadoop生态圈中,从HDFS初识分布式存储系统;以MapReduce详解f分布式计算的步骤;利用HBase分析适合非结构化数据存储的分布式数据库;利用Hive分析将SQL查询转化为分布式计算的过程;并结合项目案例“音乐排行榜”练习Hadoop核心技能点的运用;同时,介绍了几种离线处理系统中常用的辅助工具。
在Spark生态圈中,从Scala开始介绍多范式编程;并从Spark Core、Spark SQL、Spark Streaming三个方面来分析对比Hadoop生态圈中的分布式计算、Hive、 流式计算的可替换方案和它们各自的优势。
设计思路
本书共12章,内容包括Hadoop初体验、Hadoop分布式文件系统、Hadoop分布式计算框架、Hadoop 新特性、Hadoop 分布式数据库、Hadoop 综合实战一音 乐排行榜、数据仓库Hive、大数据离线处理辅助系统、Spark 基础、Spark Core、Spark SQL和Spark Streaming.具体内容安排如下。
第1章:Hadoop初体验
➢第1章是对Hadoop的总体概述,介绍大数据基本概念、Hadoop生态圈、Hadoop与大数据的关系以及Hadoop安装部署的详细步骤。
第2章:Hadoop分布式系统
➢第2章是对HDFS的介绍,主要包括HDFS的体系结构、Shell操作以及通过Java API实现访问。
第3章:Hadoop分布式计算框架
➢第3章是对MapReduce分布式计算框架的讲解,包括MapReduce的编程模型、编写和运行MapReduce程序。
第4章:Hadoop新特性
➢第4章是对Hadoop新的资源调度框架YARN及Hadoop新特性的讲解,以及如何实现Hadoop高可用集群。
第5章:Hadoop分布式数据库
➢第5 章是对HBase数据库的讲解,介绍HBase的安装及其使用方法。
第6章:Hadoop综合实践——音乐排行榜
➢第6章通过案例“音乐排行榜”的实现,对前面各章的技能点做一个阶段回顾与总结,介绍如何通过HDFS、MapReduce与HBase的结合使用完成Hadoop离线批处理应用开发。
第7章:数据仓库Hive
➢第7章是对Hive的讲解,介绍如何使用类似于SQL查询的方式来执行MapReduce计算。
第8章:大数据离线处理辅助系统
➢第8 章介绍Sqoop、Azkaban 这两种在开发离线处理系统时常用的辅助工具。
第9章:Spark基础
➢第9章是对Spark的基本介绍,包括Spark的安装与运行、Spark的开发语言Scala.
第10章:Spark Core
➢第10章是对Spark的核心RDD的详解,介绍Spark Core的编程模型以及Spark应用程序的开发。
第11章:Spark SQL
➢第11 章是对Spark SQL的详解,包括常用的SQL on Hadoop框架、Spark SQL的编程方法以及Spark SQL对多种外部数据源的操作。
第12章:Spark Streaming
➢第12章是对Spark Streaming的详解,包括Spark Streaming 核心概念、常用的流处理系统,以及使用Spark Streaming进行流处理应用的开发。
由于文章篇幅有限,为了节省大家的时间,所以整理出来了一部分内容供大家参考。小编已经帮助大家把文档整理出来了,只需要私信【学习】二字即可。
如果大家喜欢小编的文章可以关注、转发,万分感谢!
- 点赞
- 收藏
- 分享
- 文章举报
- 从事大数据开发想要拿高薪,除了hadoop和spark还需掌握哪些技术
- 大数据Spark “蘑菇云”行动第71课: 基于Spark 2.0.1项目开发分析与实战
- 大数据开发实战:美团是如何应用Spark处理大数据的?
- 大数据处理技术 - 基于Hadoop的实战
- 基于Metronic的Bootstrap开发框架经验总结(7)--数据的导入、导出及附件的查看处理
- 【备忘】2016年最新云计算视频教程hadoop大数据实战开发
- Solr5.5视频教程之基于微博数据检测的Solr5.5实战开发
- Spark+HBase 亿级大数据企业实战(上):核心设计开发
- Spark应用开发之一:Hadoop分析大数据
- Hive和SparkSQL: 基于 Hadoop 的数据仓库工具
- 大数据Spark实战高手之路1---熟练的掌握Scala语言系列课程
- 第一天:Java源码级实战速成(通过动手实战类、对象等,通过Spark和Hadoop案例代码和源码解析具体指知识的应用、深度详解匿名接口在Spark开发中的运用)
- Sparkstreaming基于kafka以Receiver方式获取数据原理和案例实战
- (大数据)转载:Windows下基于eclipse的Spark应用开发环境搭建
- 北风首套Hadoop大数据包跳槽课程(Hive、ZooKeeper、Storm、Spark、项目实战)
- 大数据框架对比:Hadoop、Storm、Samza、Spark和Flink--容错机制(ACK,RDD,基于log和状态快照),消息处理at least once,exactly once两个是关键
- 【备忘】【No2】2016年最新云计算视频教程hadoop大数据实战开发
- 大数据精英实战项目班-Hadoop-Spark-真实企业项目
- Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】
- Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】