您的位置：首页 > 大数据 > Hadoop

五年经验大佬带你掌握基于Hadoop与Spark的大数据开发实战

2020-01-12 21:26 239 查看

前言：

本书以Hadoop和Spark为核心，阐述了基于这两种通用大数据处理平台的应用开发技术。

在Hadoop生态圈中，从HDFS初识分布式存储系统;以MapReduce详解f分布式计算的步骤;利用HBase分析适合非结构化数据存储的分布式数据库;利用Hive分析将SQL查询转化为分布式计算的过程;并结合项目案例“音乐排行榜”练习Hadoop核心技能点的运用;同时，介绍了几种离线处理系统中常用的辅助工具。

在Spark生态圈中，从Scala开始介绍多范式编程;并从Spark Core、Spark SQL、Spark Streaming三个方面来分析对比Hadoop生态圈中的分布式计算、Hive、流式计算的可替换方案和它们各自的优势。

设计思路

本书共12章，内容包括Hadoop初体验、Hadoop分布式文件系统、Hadoop分布式计算框架、Hadoop 新特性、Hadoop 分布式数据库、Hadoop 综合实战一音乐排行榜、数据仓库Hive、大数据离线处理辅助系统、Spark 基础、Spark Core、Spark SQL和Spark Streaming.具体内容安排如下。

第1章：Hadoop初体验

➢第1章是对Hadoop的总体概述，介绍大数据基本概念、Hadoop生态圈、Hadoop与大数据的关系以及Hadoop安装部署的详细步骤。

第2章：Hadoop分布式系统

➢第2章是对HDFS的介绍，主要包括HDFS的体系结构、Shell操作以及通过Java API实现访问。

第3章：Hadoop分布式计算框架

➢第3章是对MapReduce分布式计算框架的讲解，包括MapReduce的编程模型、编写和运行MapReduce程序。

第4章：Hadoop新特性

➢第4章是对Hadoop新的资源调度框架YARN及Hadoop新特性的讲解，以及如何实现Hadoop高可用集群。

第5章：Hadoop分布式数据库

➢第5 章是对HBase数据库的讲解，介绍HBase的安装及其使用方法。

第6章：Hadoop综合实践——音乐排行榜

➢第6章通过案例“音乐排行榜”的实现，对前面各章的技能点做一个阶段回顾与总结，介绍如何通过HDFS、MapReduce与HBase的结合使用完成Hadoop离线批处理应用开发。

第7章：数据仓库Hive

➢第7章是对Hive的讲解，介绍如何使用类似于SQL查询的方式来执行MapReduce计算。

第8章：大数据离线处理辅助系统

➢第8 章介绍Sqoop、Azkaban 这两种在开发离线处理系统时常用的辅助工具。

第9章：Spark基础

➢第9章是对Spark的基本介绍，包括Spark的安装与运行、Spark的开发语言Scala.

第10章：Spark Core

➢第10章是对Spark的核心RDD的详解，介绍Spark Core的编程模型以及Spark应用程序的开发。

第11章：Spark SQL

➢第11 章是对Spark SQL的详解，包括常用的SQL on Hadoop框架、Spark SQL的编程方法以及Spark SQL对多种外部数据源的操作。

第12章：Spark Streaming

➢第12章是对Spark Streaming的详解，包括Spark Streaming 核心概念、常用的流处理系统，以及使用Spark Streaming进行流处理应用的开发。

由于文章篇幅有限，为了节省大家的时间，所以整理出来了一部分内容供大家参考。小编已经帮助大家把文档整理出来了，只需要私信【学习】二字即可。

如果大家喜欢小编的文章可以关注、转发，万分感谢！

点赞
收藏
分享
文章举报

juan333 发布了51 篇原创文章 · 获赞 0 · 访问量 553 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部