您的位置:首页 > 运维架构

Hadoop概念学习系列之hadoop细节知识题小整理(二十四)

2016-07-11 17:55 155 查看
1、下列有关hdfs的说法正确的是()

A、HDFS是分布式计算中数据存储管理的基础,可以运行在多台廉价的商用服务器上

B、HDFS来源于Google2003年10月发表的GFS(Google File System)论文,是GFS的一个克隆版本

C、HDFS具有高容错性,由HDFS内部机制自动保存和恢复多个副本,我们不必关心

D、HDFS支持文件的并发写入和随机修改

正确答案:A,B,C

解析:

为了保证数据的一致性,一个文件只能有一个写,不允许多个线程同时写,不支持文件的随机修改,仅支持数据的append(追加)

2、下列有关HDFS架构组成部分的说法正确的是()

A、HDFS采用Master/Slave的架构来存储数据

B、Client负责在文件上传到HDFS之前将文件切分成一个一个的Block,然后进行存储

C、namenode是master,负责管理,datanode是slave,负责实际的数据操作

D、当namenode挂掉时,secondarynamenode会马上替换namenode并提供服务。

正确答案:A,B,C

解析:

secondarynamenode并不是namenode热备,所以当namenode挂掉时,secondarynamenode并不会马上替换namenode并提供服务。

3、hadoop自身具有严格的权限管理和安全措施保障集群正常运行()

A、正确

B、错误

正确答案:B

解析:

hadoop只能阻止好人办坏事,但是不能阻止坏人干坏事

4、Namenode本地磁盘保存了Block的位置信息()

A、正确

B、错误

正确答案:A

解析:

DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode

5、NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。()

A、正确

B、错误

正确答案:B

解析:

NameNode 不需要从磁盘读取 metadata,所有数据都在内存中,硬盘上的只是序列化的结果,只有每次 namenode 启动的时候才会读取。

1)文件写入

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

2)文件读取

Client向NameNode发起文件读取的请求。

Client读取文件信息

6、查看压缩文件内容的参数是()

A、Cat

B、Tail

C、Text

D、More

正确答案:C

解析:

对于压缩的结果文件只能用 -text 参数来查看,否则是乱码。

7、Hadoop中各个节点的通信是通过远程调用(RPC)实现的,那么 RPC序列化应该具备哪些要求?()

A、紧凑:紧凑的格式能让我们能充分利用网络带宽,而带宽是数据中心最稀缺的资源;

B、 快速:进程通信形成了分布式系统的骨架,所以需要尽量减少序列化和反序列化的性能开销,这是基本的;

C、可扩展:协议为了满足新的需求变化,所以控制客户端和服务器过程中,需要直接引进相应的协议,这些是新协议,原序列化方式能支持新的协议报文;

D、互操作:能支持不同语言写的客户端和服务端进行交互;

正确答案:A,B,C,D

8、下列针对mapreduce特点的说法错误的是()

A、写分布式程序时,只需要简单的实现mapreduce提供的对应接口就可以了,因为mapreduce编程模型是很易于编程的。

B、Mapreduce可以通过简单的增加集群中机器的数量来扩展它的计算能力

C、Mapreduce除了适合离线计算,还适合实时计算和流式计算

D、Mapreduce具有高容错性,当一个任务失败时,hadoop内部会自动的把该节点上的任务转移到其他可用节点,而不需要人工参与

正确答案:C

解析:

mapreduce适合基于海量数据的离线处理,并不适合毫秒或秒级就返回结果的在线计算。Mapreduce的设计特点要求输入的数据集必须是静态的,而不能向流式计算那样输入数据集可以是动态的。

9、下列说法错误的是()

A、mapreduce的一个split对应hdfs的一个block

B、每个map阶段后,数据会输出到本地磁盘

C、在hadoop中,任务调度器是一个可插拔的模块,用户可以根据自己的需求设计相应的调度器

D、Map task只能用map slot,reduce task只能用reduce slot,两者不能混用

正确答案:A

解析:

A:默认情况下,一个split对应一个block,当然也可以对应多个block,他们之间的关系由InputFormat决定

10、下列说法正确的是()

A、MapReduce框架通常和分布式文件系统运行在一组相同的节点上,也就是说,计算节点和存储节点通常在一起

B、map任务不是随随便便地分配给某个TaskTracker的,而是将map任务分配给含有该map处理的数据块的TaskTracker上,同时将程序JAR包复制到该TaskTracker上来运行,而分配reduce任务时并不考虑数据本地化。

C、map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M)当该缓冲区快要溢出时(默认为缓冲区大小的80%),会在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入这个文件。

D、Combiner操作的目的是尽可能少写入到磁盘的数据量,尽可能减少复制阶段网络之间传输的数据量,所以是必不可少的

正确答案:A,B,C

解析:

combiner操作不是必不可少的,虽然有很多好处,但是它不能影响reducer的结果

11、数据本地性的类别有()

A、同节点(node-local)

B、同机架(rack-local)

C、跨机架(off-switch)

正确答案:A,B,C

12、下列属于hadoop作业调度器的是()

A、FIFO

B、Capacity Scheduler

C、Fair Scheduler

正确答案:A,B,C

13、调度器调度作业时需要考虑的因素()

A、作业优先级,优先级越高,获取的资源就越多

B、作业提交时间,提交时间越早,越先执行

C、作业所在队列的资源限制

D、内存的限制

正确答案:A,B,C,D

14、如果不设置过滤器,FileInputFormat 会使用一个默认的过滤器来排除隐藏文件。 如果通过调用 setInputPathFilter()设置了过滤器,它会在默认过滤器的基础上进行过滤。换句话说,自定义的过滤器只能看到非隐藏文件。()

A、正确

B、错误

正确答案:A

15、下列说法正确的是()

A、默认情况下,输出文件的个数与 Reduce 的个数一致

B、OutputFormat 是 MapReduce 输出的基类,所有实现 MapReduce 输出都实现了 OutputFormat 接口

C、 默认的输出格式是 TextOutputFormat

D、可以通过一些方法实现reducer输出多个文件。

正确答案:A,B,C,D

欢迎大家,加入我的微信公众号:大数据躺过的坑 免费给分享

同时,大家可以关注我的个人博客

http://www.cnblogs.com/zlslch/ http://www.cnblogs.com/lchzls/

  人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
  目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获

以及对应本平台的QQ群:161156071(大数据躺过的坑)





内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: