您的位置：首页 > 大数据 > Hadoop

大数据面试之Hadoop

2019-12-18 11:35 781 查看

解释Hadoop三种运行模式，它们各自的特点？

Hadoop Common：为其他Hadoop模块提供基础设施

Hadoop DFS：一个高可靠、高吞吐量的分布式文件系统

Hadoop MapReduce：一个分布式离线并进行计算框架

Hadoop YARN：新的MapReduce框架，任务调度与资源管理

hdfs-site.xml:配置hdfs文件

Hadoop-env.sh:配置Hadoop环境变量

NameNode：NameNode管理文件系统的文件命名空间维护着文件系统树及整棵树内所有的文件和目录

SecondaryNameNode：辅助NameNode节点。定期合并fsimage和edits日志

DataNode：数据节点，用于存储Block文件

fsimage保存了最新的元数据检查点。

edits保存自最新检查点后的命名空间的变化。

从最新检查点后，hadoop将对每个文件的操作都保存在edits中，为避免edits不断增大，secondary namenode就会周期性合并fsimage和edits成新的fsimage，edits再记录新的变化。

bzip2、gzip、lzo、snappy

其中lzo、snappy需要操作系统安装native库

1.1访问datanode中的数据反序列化，数据并进行切片，为每个切片分配map任务

1.2并发的执行这些任务

1.3通过recordReader读取切片的每一条记录，偏移值作为map的key，记录行作为map 的value，当做map方法的参数

3.1map数据会先输出到缓冲区，当达到80%会溢写生成多个小文件

3.2溢写过程中会经历分区、排序的过程

3.3当最后一个文件溢写完成后，区与区文件就会进行合并、排序

3.4经过分区排序的大文件会按照不同的分区拷贝到相应的reduce中处理

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Snappy HDFS MapReduce Hadoop

相关文章推荐

新的分享

章节导航