大数据入门环境搭建整理、大数据入门系列教程合集、大数据生态圈技术整理汇总、大数据常见错误合集、大数据的离线和实时数据处理流程分析
本篇文章主要整理了笔者学习大数据时整理的一些文章,文章是从环境搭建到整个大数据生态圈的常用技术整理,环境希望可以帮助到刚学习大数据到童鞋,大家在学习过程中有问题可以随时评论回复!
大数据生态圈涉及技术:
Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala、Python、Kafka、Flume、Sqoop、Zookeeper
大数据生态圈技术图:
一、大数据入门环境搭建整理(集群、环境配置)
1、Windows安装VMware Workstation Pro、Mac安装Parallels
3、CentOS7设置静态IP以及windows下ping不通虚拟机、虚拟机ping不通外网解决方案
5、Linux(CentOS7)设置主机名及IP映射(用于hadoop单机/伪分布式/分布式/集群配置)
6、Winodws下使用VMware克隆、移出、快照Linux系统
7、Linux下yum方式安装mysql 以及卸载mysql
8、linux(Centons7)下重置root密码超详细步骤
9、linux下配置ssh免密(用于Hadoop高可用集群)
10、Linux系统xshell安装上传下载文件命令rz sz
11、Linux下zookeeper单机、伪分布式、分布式环境搭建(本篇主要介绍分布式用于Hadoop高可用集群)
二、大数据入门系列教程合集(生态圈技术安装配置使用)
【Hadoop篇】
1、大数据入门教程系列之Hadoop环境搭建--Hadoop单机/伪分布式搭建配置
2、基于centons7安装配置apache hadoop(mac)
3、大数据入门教程系列之Hadoop环境搭建--Hadoop集群/分布式搭建配置
4、大数据入门教程系列之Hadoop环境搭建--Hadoop高可用集群搭建配置
5、大数据入门教程系列之Hadoop环境搭建--新建Hadoop用户
6、大数据入门教程系列之HDFS分布式文件系统--idea下使用java API操作HDFS分布式文件系统
7、大数据入门教程系列之mapreduce--idea下使用java API操作mapreduce完成wordcount案例
8、大数据入门教程系列之HDFS分布式文件系统--shell命令操作HDFS分布式文件系统
【Hive篇】
1、大数据入门教程系列之Hive环境搭建--Linux(Centons7)下配置安装Hive
【Hbase篇】
【Flume篇】
1、Centons7下安装配置Flume、Linux下安装配置Flume、Flume的简单使用示例、Flume整合Kafka使用
【Kafka篇】
1、Centons7下安装配置Kafka、Linux下安装配置Kafka
【Spark篇】
1、hadoop集群下spark环境配置并且完成wordcount案例
2、Spark中RDD的Value型Transformation算子操作(一)
3、Spark中RDD的Key-Value型Transformation算子操作(二)
三、大数据生态圈技术整理汇总(技术架构、原理、流程)
2、Hbase架构及工作原理、数据及物理模型、Hbase优化
3、Hbase常用优化、Hbae性能优化、Hbase优化经验总结
5、Kafka架构、Kafka核心组件、Kafka工作原理、Kafka应用场景
6、在idea下使用java将Log4j日志实时写入Kafka(Kafka实时日志写入)
四、大数据常见错误合集(环境搭建和实际项目操作)
1、windows下运行mapreduce报错Could not locate executable null bin winutils.exe in the Hadoop binaries 解决方案
2、windows下运行mapreduce报错The auxService mapreduce_shuffle do 解决方案
3、Hadoop HA 高可用集群启动报错 Encountered exception loading fsimage 解决方案
4、Hadoop HA 高可用集群格式化NameNode后启动没有DataNode
5、Hive启动hiveserver2报错:Could not open client transport with JDBC Uri解决方案
6、Hive2.x版本创建表报错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
7、使用hive的beeline连接报错hadoop is not allowed to impersonate hadoop (state=08S01,code=0)解决方案
9、Hbase错误总结:Hbase连接不上Zookeeper
10、kafka启动报错is empty Please build the project first e.g. by running gradlew jar
五、大数据的离线和实时数据处理流程分析
1、
2、
- 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (三)-- 概念
- 实时数据处理环境搭建flume+kafka+storm:1.zookeeper 安装配置
- VB速查大全(数据库、表格及报表编程) ★ VB错误处理,ado常见错误,VB数据类型等,网上有很多教程是错的,强烈建议看此文
- 大数据学习(一):实时处理环境搭建
- EasyAR从入门到精通开发系列教程(1)---搭建开发环境
- 新手入门系列(三)——Brew常见错误整理(转贴外加整理)
- 电商用户行为分析大数据平台相关系列8-数据分析流程
- struts2系列(一):struts2入门(struts2的产生、struts2的工作流程、搭建struts2开发环境)
- 搭建ELK(ElasticSearch+Logstash+Kibana)日志分析系统(八) elasticsearch配置外网访问及常见错误处理
- Python数据分析入门-Pandas环境搭建
- 大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
- VS,WCF(DotNet)常见错误处理系列(整理)
- Android Studio安装使用教程\环境搭建\常见问题汇总
- Entity Framework7 入门之全功能.NET版本下使用EF7(含源码)另附数据迁移常见错误处理
- 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (二)-- 背景
- 大数据分析平台搭建教程:基于Apache Zeppelin Notebook和R的交互式数据科学
- Android 环境搭建,Helloworld以及常见错误处理,最新版哦
- 大数据分析平台搭建教程:基于Apache Zeppelin Notebook和R的交互式数据科学
- 大数据分析的两个流程(实时与离线):
- 【Apache Samza 系列】实时流数据处理框架Samza中文教程 (一)-- 介绍