您的位置：首页 > 大数据

大数据入门环境搭建整理、大数据入门系列教程合集、大数据生态圈技术整理汇总、大数据常见错误合集、大数据的离线和实时数据处理流程分析

2018-11-25 15:46 1036 查看

本篇文章主要整理了笔者学习大数据时整理的一些文章，文章是从环境搭建到整个大数据生态圈的常用技术整理，环境希望可以帮助到刚学习大数据到童鞋，大家在学习过程中有问题可以随时评论回复！

大数据生态圈涉及技术：

Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala、Python、Kafka、Flume、Sqoop、Zookeeper

大数据生态圈技术图：

一、大数据入门环境搭建整理（集群、环境配置）

1、Windows安装VMware Workstation Pro、Mac安装Parallels

2、虚拟机VMware中安装linux系统CentOS

3、CentOS7设置静态IP以及windows下ping不通虚拟机、虚拟机ping不通外网解决方案

4、Linux中安装配置jdk1.7

5、Linux(CentOS7)设置主机名及IP映射(用于hadoop单机/伪分布式/分布式/集群配置)

6、Winodws下使用VMware克隆、移出、快照Linux系统

7、Linux下yum方式安装mysql 以及卸载mysql

8、linux(Centons7)下重置root密码超详细步骤

9、linux下配置ssh免密(用于Hadoop高可用集群)

10、Linux系统xshell安装上传下载文件命令rz sz

11、Linux下zookeeper单机、伪分布式、分布式环境搭建（本篇主要介绍分布式用于Hadoop高可用集群）

二、大数据入门系列教程合集（生态圈技术安装配置使用）

【Hadoop篇】

1、大数据入门教程系列之Hadoop环境搭建--Hadoop单机/伪分布式搭建配置

2、基于centons7安装配置apache hadoop（mac）

3、大数据入门教程系列之Hadoop环境搭建--Hadoop集群/分布式搭建配置

4、大数据入门教程系列之Hadoop环境搭建--Hadoop高可用集群搭建配置

5、大数据入门教程系列之Hadoop环境搭建--新建Hadoop用户

6、大数据入门教程系列之HDFS分布式文件系统--idea下使用java API操作HDFS分布式文件系统

7、大数据入门教程系列之mapreduce--idea下使用java API操作mapreduce完成wordcount案例

8、大数据入门教程系列之HDFS分布式文件系统--shell命令操作HDFS分布式文件系统

【Hive篇】

1、大数据入门教程系列之Hive环境搭建--Linux(Centons7)下配置安装Hive

2、大数据入门教程系列之Hive的Java API 操作

3、大数据入门教程系列之Hive内置函数及自定义函数

4、Hive DDL DML及SQL操作

5、Hadoop2.7.4 编译支持5种压缩

【Hbase篇】

1、大数据入门教程系列之Hbase安装(伪分布式)

【Flume篇】

1、Centons7下安装配置Flume、Linux下安装配置Flume、Flume的简单使用示例、Flume整合Kafka使用

【Kafka篇】

1、Centons7下安装配置Kafka、Linux下安装配置Kafka

【Spark篇】

1、hadoop集群下spark环境配置并且完成wordcount案例

2、Spark中RDD的Value型Transformation算子操作（一）

3、Spark中RDD的Key-Value型Transformation算子操作（二）

4、Spark中Actionn算子操作（三）

三、大数据生态圈技术整理汇总（技术架构、原理、流程）

1、Hive概述、体系架构、分区、桶与倾斜、环境搭建

2、Hbase架构及工作原理、数据及物理模型、Hbase优化

3、Hbase常用优化、Hbae性能优化、Hbase优化经验总结

4、Flume架构、Flume工作原理、Flume应用场景

5、Kafka架构、Kafka核心组件、Kafka工作原理、Kafka应用场景

6、在idea下使用java将Log4j日志实时写入Kafka（Kafka实时日志写入）

7、Spark基本架构及原理

四、大数据常见错误合集（环境搭建和实际项目操作）

1、windows下运行mapreduce报错Could not locate executable null bin winutils.exe in the Hadoop binaries 解决方案

2、windows下运行mapreduce报错The auxService mapreduce_shuffle do 解决方案

3、Hadoop HA 高可用集群启动报错 Encountered exception loading fsimage 解决方案

4、Hadoop HA 高可用集群格式化NameNode后启动没有DataNode

5、Hive启动hiveserver2报错：Could not open client transport with JDBC Uri解决方案

6、Hive2.x版本创建表报错：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

7、使用hive的beeline连接报错hadoop is not allowed to impersonate hadoop (state=08S01,code=0)解决方案

8、Hbase错误总结：Hbase未正常关闭启动报错

9、Hbase错误总结：Hbase连接不上Zookeeper

10、kafka启动报错is empty Please build the project first e.g. by running gradlew jar

五、大数据的离线和实时数据处理流程分析

1、

2、

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航