Hadoop入门简介
2015-08-25 15:46
176 查看
1.推荐书籍
基础—《hadoop权威指南》apache hadoop官网
升级版—《hadoop技术内幕》
2.组件
核心组件:MapReduce
HDFS
组件:
YARN
HBase
Hive
Pig
Sqoop
Zookeeper
Flume
Oozie
3.HDFS
一次写入,多次读取主节点(Namenode)—大型文件分割成各个小部分(数据块),主节点知道从节点上的哪个数据块可以组成完整的文件。
主节点与从节点进行持续的交流,知道从节点的可用性。
从节点(DataNode)—提供心跳信息,无心跳的时候,卸载此从节点。
HDFS保持正确数据的措施:
事务日志
验证校验
数据块—复制到若干个从节点上
数据管道—在不同服务器上移动
4.数据块
本地:一个数据块—一个副本第二个副本—另一个机架—防止工作崩溃
第三个副本—远程相同的机架—不同的服务器
其余的副本—随机放在远程或者本地的集群中
5.MapReduce
处理文本解析,处理web日志,读取海量原始数据资源在无需分析的时候表现最好
6.YARN
资源协调者—资源管理者和应用管理者7.HBase
列式数据库Hbase和RDBMS重要区别—版本追踪
8.与Hadoop交互的工具
Pig Pig LatinSqoop SQL to Hadoop
Zookeeper
Flume
Oozie
相关文章推荐
- linux服务器必要的两个系统设置
- Linux的文件系统
- 运维工单--服务器申请工单
- Opencv用鼠标绘制填充多边形
- openssl生成RSA格式,并转为pkcs8格式
- Opencv用鼠标绘制线段
- 我的openwrt学习笔记(十):开发小贴士_vmware虚拟机窗口大小设置
- OpenGL
- linux---动静态库编译及使用
- 各类数据库字符串连接网站
- Opencv用鼠标画圆
- 迅为4412开发板Linux驱动教程之GPIO的初始化
- Setting up Django and your web server with uWSGI and nginx
- OpenCV2:等间隔采样和局部均值的图像缩小
- tomcat的环境变量部署
- linux-impdp的使用
- nginx 代理缓存配置
- Linux下硬盘设备命名规则
- error RC1015: cannot open include file 'atlres.h'问题解决
- linux kernel 0.11 head