您的位置：首页 > 大数据 > Hadoop

《大数据基础——基于Hadoop与Spark》课后习题——第一章部分答案

2018-12-17 16:03 921 查看

仅用于我个人的学习。书籍为人民邮电出版社的《大数据技术基础——基于Hadoop与Spark》。课后习题选择是我个人认为有用的。记录下来是为了督促我学习:)
共好

1.请指出以下术语的基本含义。

元数据；分布式存储；计算机集群；并行计算；DFS；MapReduce；

元数据：Metadata，为描述数据的数据，主要是描述数据属性（property）的信息。简言之，元数据就是关于数据的数据。

分布式存储：分布式存储是一种数据存储技术，通过网络使用企业中的每台机器上的磁盘空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散的存储在企业的各个角落。

计算机集群：一种计算机系统，它通过一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上，他们可以被看作是一台计算机。

并行计算：并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。

DFS：Distributed File System，分布式文件系统，是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。DFS使得分布在多个节点上的文件如同位于网络上的一个位置一样便于动态扩展和维护。

MapReduce：处理大量半结构化数据集合的并行编程模型。编程模型是一种处理并结构化特定问题的方式

不同的机构或者个人有不同的理解，难以有一个非常定量的定义。

特征有以下五大特征

主要区别：
MapReduce：以分布式文件系统为基础的并行计算模式
Spark：以分布式内存缓存为基础的并行计算模式

PS：其它区别在这一章就不详述了：）

HDFS、YARN、MapReduce、Hive、HBase、Mahout、Spark、ZooKeeper。

HDFS：提供高可靠性、高可扩展性和高吞吐率的数据存储服务

YARN：负责集群资源的统一管理和调度。

MapReduce：计算框架（离线计算）

Hive：基于MapReduce的数据仓库

HBase：分布式数据库

Mahout：基于Hadoop的机器学习和数据挖掘的分布式计算框架

Spark：计算框架（内存计算）

ZooKeeper：分布式协作服务组件，用于解决分布式环境下的数据管理问题，包括统一命名、数据同步、汲取管理、配置同步等。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航