您的位置:首页 > 大数据 > Hadoop

五年经验大佬带你掌握 基于Hadoop与Spark的大数据开发实战

2020-01-12 21:26 239 查看

 

 

前言:

本书以Hadoop和Spark为核心,阐述了基于这两种通用大数据处理平台的应用开发技术。

在Hadoop生态圈中,从HDFS初识分布式存储系统;以MapReduce详解f分布式计算的步骤;利用HBase分析适合非结构化数据存储的分布式数据库;利用Hive分析将SQL查询转化为分布式计算的过程;并结合项目案例“音乐排行榜”练习Hadoop核心技能点的运用;同时,介绍了几种离线处理系统中常用的辅助工具。

在Spark生态圈中,从Scala开始介绍多范式编程;并从Spark Core、Spark SQL、Spark Streaming三个方面来分析对比Hadoop生态圈中的分布式计算、Hive、 流式计算的可替换方案和它们各自的优势。

设计思路

本书共12章,内容包括Hadoop初体验、Hadoop分布式文件系统、Hadoop分布式计算框架、Hadoop 新特性、Hadoop 分布式数据库、Hadoop 综合实战一音 乐排行榜、数据仓库Hive、大数据离线处理辅助系统、Spark 基础、Spark Core、Spark SQL和Spark Streaming.具体内容安排如下。

第1章:Hadoop初体验

第1章是对Hadoop的总体概述,介绍大数据基本概念、Hadoop生态圈、Hadoop与大数据的关系以及Hadoop安装部署的详细步骤。

第2章:Hadoop分布式系统

第2章是对HDFS的介绍,主要包括HDFS的体系结构、Shell操作以及通过Java API实现访问。

第3章:Hadoop分布式计算框架

第3章是对MapReduce分布式计算框架的讲解,包括MapReduce的编程模型、编写和运行MapReduce程序。

第4章:Hadoop新特性

第4章是对Hadoop新的资源调度框架YARN及Hadoop新特性的讲解,以及如何实现Hadoop高可用集群。

第5章:Hadoop分布式数据库

第5 章是对HBase数据库的讲解,介绍HBase的安装及其使用方法。

第6章:Hadoop综合实践——音乐排行榜

第6章通过案例“音乐排行榜”的实现,对前面各章的技能点做一个阶段回顾与总结,介绍如何通过HDFS、MapReduce与HBase的结合使用完成Hadoop离线批处理应用开发。

第7章:数据仓库Hive

第7章是对Hive的讲解,介绍如何使用类似于SQL查询的方式来执行MapReduce计算。

第8章:大数据离线处理辅助系统

第8 章介绍Sqoop、Azkaban 这两种在开发离线处理系统时常用的辅助工具。

第9章:Spark基础

第9章是对Spark的基本介绍,包括Spark的安装与运行、Spark的开发语言Scala.

第10章:Spark Core

第10章是对Spark的核心RDD的详解,介绍Spark Core的编程模型以及Spark应用程序的开发。

第11章:Spark SQL

第11 章是对Spark SQL的详解,包括常用的SQL on Hadoop框架、Spark SQL的编程方法以及Spark SQL对多种外部数据源的操作。

第12章:Spark Streaming

第12章是对Spark Streaming的详解,包括Spark Streaming 核心概念、常用的流处理系统,以及使用Spark Streaming进行流处理应用的开发。

由于文章篇幅有限,为了节省大家的时间,所以整理出来了一部分内容供大家参考。小编已经帮助大家把文档整理出来了,只需要私信【学习】二字即可。

如果大家喜欢小编的文章可以关注、转发,万分感谢!

 

 

  • 点赞
  • 收藏
  • 分享
  • 文章举报
juan333 发布了51 篇原创文章 · 获赞 0 · 访问量 553 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐