您的位置：首页 > 运维架构

Hadoop概念学习系列之hadoop细节知识题小整理（二十四）

2016-07-11 17:55 155 查看

1、下列有关hdfs的说法正确的是（）

A、HDFS是分布式计算中数据存储管理的基础，可以运行在多台廉价的商用服务器上

B、HDFS来源于Google2003年10月发表的GFS（Google File System）论文，是GFS的一个克隆版本

C、HDFS具有高容错性，由HDFS内部机制自动保存和恢复多个副本，我们不必关心

D、HDFS支持文件的并发写入和随机修改

正确答案：A,B,C

解析：

为了保证数据的一致性，一个文件只能有一个写，不允许多个线程同时写，不支持文件的随机修改，仅支持数据的append（追加）

2、下列有关HDFS架构组成部分的说法正确的是（）

A、HDFS采用Master/Slave的架构来存储数据

B、Client负责在文件上传到HDFS之前将文件切分成一个一个的Block,然后进行存储

C、namenode是master，负责管理，datanode是slave，负责实际的数据操作

D、当namenode挂掉时，secondarynamenode会马上替换namenode并提供服务。

正确答案：A,B,C

解析：

secondarynamenode并不是namenode热备，所以当namenode挂掉时，secondarynamenode并不会马上替换namenode并提供服务。

3、hadoop自身具有严格的权限管理和安全措施保障集群正常运行（）

A、正确

B、错误

正确答案：B

解析：

hadoop只能阻止好人办坏事，但是不能阻止坏人干坏事

4、Namenode本地磁盘保存了Block的位置信息（）

A、正确

B、错误

正确答案：A

解析：

DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode

5、NameNode 负责管理 metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。（）

A、正确

B、错误

正确答案：B

解析：

NameNode 不需要从磁盘读取 metadata，所有数据都在内存中，硬盘上的只是序列化的结果，只有每次 namenode 启动的时候才会读取。

1）文件写入

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

2）文件读取

Client向NameNode发起文件读取的请求。

Client读取文件信息

6、查看压缩文件内容的参数是（）

A、Cat

B、Tail

C、Text

D、More

正确答案：C

解析：

对于压缩的结果文件只能用 -text 参数来查看，否则是乱码。

7、Hadoop中各个节点的通信是通过远程调用（RPC）实现的，那么 RPC序列化应该具备哪些要求？（）

A、紧凑：紧凑的格式能让我们能充分利用网络带宽，而带宽是数据中心最稀缺的资源；

B、快速：进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的；

C、可扩展：协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文；

D、互操作：能支持不同语言写的客户端和服务端进行交互；

正确答案：A,B,C,D

8、下列针对mapreduce特点的说法错误的是（）

A、写分布式程序时，只需要简单的实现mapreduce提供的对应接口就可以了，因为mapreduce编程模型是很易于编程的。

B、Mapreduce可以通过简单的增加集群中机器的数量来扩展它的计算能力

C、Mapreduce除了适合离线计算，还适合实时计算和流式计算

D、Mapreduce具有高容错性，当一个任务失败时，hadoop内部会自动的把该节点上的任务转移到其他可用节点，而不需要人工参与

正确答案：C

解析：

mapreduce适合基于海量数据的离线处理，并不适合毫秒或秒级就返回结果的在线计算。Mapreduce的设计特点要求输入的数据集必须是静态的，而不能向流式计算那样输入数据集可以是动态的。

9、下列说法错误的是（）

A、mapreduce的一个split对应hdfs的一个block

B、每个map阶段后，数据会输出到本地磁盘

C、在hadoop中，任务调度器是一个可插拔的模块，用户可以根据自己的需求设计相应的调度器

D、Map task只能用map slot，reduce task只能用reduce slot，两者不能混用

正确答案：A

解析：

A：默认情况下，一个split对应一个block，当然也可以对应多个block，他们之间的关系由InputFormat决定

10、下列说法正确的是（）

A、MapReduce框架通常和分布式文件系统运行在一组相同的节点上，也就是说，计算节点和存储节点通常在一起

B、map任务不是随随便便地分配给某个TaskTracker的，而是将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，而分配reduce任务时并不考虑数据本地化。

C、map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默认为100M）当该缓冲区快要溢出时（默认为缓冲区大小的80%），会在本地文件系统中创建一个溢出文件，将该缓冲区中的数据写入这个文件。

D、Combiner操作的目的是尽可能少写入到磁盘的数据量，尽可能减少复制阶段网络之间传输的数据量，所以是必不可少的

正确答案：A,B,C

解析：

combiner操作不是必不可少的，虽然有很多好处，但是它不能影响reducer的结果

11、数据本地性的类别有（）

A、同节点（node-local）

B、同机架（rack-local）

C、跨机架（off-switch）

正确答案：A,B,C

12、下列属于hadoop作业调度器的是（）

A、FIFO

B、Capacity Scheduler

C、Fair Scheduler

正确答案：A,B,C

13、调度器调度作业时需要考虑的因素（）

A、作业优先级，优先级越高，获取的资源就越多

B、作业提交时间，提交时间越早，越先执行

C、作业所在队列的资源限制

D、内存的限制

正确答案：A,B,C,D

14、如果不设置过滤器，FileInputFormat 会使用一个默认的过滤器来排除隐藏文件。如果通过调用 setInputPathFilter()设置了过滤器，它会在默认过滤器的基础上进行过滤。换句话说，自定义的过滤器只能看到非隐藏文件。（）

A、正确

B、错误

正确答案：A

15、下列说法正确的是（）

A、默认情况下，输出文件的个数与 Reduce 的个数一致

B、OutputFormat 是 MapReduce 输出的基类，所有实现 MapReduce 输出都实现了 OutputFormat 接口

C、默认的输出格式是 TextOutputFormat

D、可以通过一些方法实现reducer输出多个文件。

正确答案：A,B,C,D

欢迎大家，加入我的微信公众号：大数据躺过的坑免费给分享

同时，大家可以关注我的个人博客：

http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/

　　人生苦短，我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神，汇聚于互联网和个人学习工作的精华干货知识，一切来于互联网，反馈回互联网。
　　目前研究领域：大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。语言涉及：Java、Scala、Python、Shell、Linux等。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。只要你一直关注和呆在群里，每天必须有收获

以及对应本平台的QQ群：161156071（大数据躺过的坑）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航