您的位置:首页 > 运维架构

Hadoop, Google File System等相关名词解释

2013-06-10 21:22 471 查看
GFS

Google File System(GFS or GoogleFS) is a proprietary distributed file system developed by Google Inc. for its own use. It is designed to provide efficient reliable access to data using large clusters of commodity
hardware. A new version of the Goofle File System is codenamed Colossus.

GFS is optimized for Google’s core data storage and usage needs(primarily the search engine), which can generate enormous amounts of data that needs to be retained. GFS grew out of an earlier Google effort,
“BigFiles”. Files are divided into fixed-size chunks of 64 megabytes, similar to clusters or sectors in regular file systems, which are only extremely rarely overwritten. Pr shrunk; files are usually appended to or read. It is also designed and optimized to
run on Google’s computing clysers, dense nodes which consist of cheap, “commodity” computers, which means precautions must be taken against the high failure rate of individual nodes and the subsequent data loss. Other design decisions select for high data
throughputs, even when it comes at the cost of latency.

 





节点分为两类:主节点和ChunkServers. ChunkServers存储数据文件,这些单个的文件像常见的文件系统中的簇或者山区那样被分成固定大小的数据块。每个数据块有一个唯一的64位标签,维护从文件到组成的数据块的逻辑映射。每个数据块在网络上复制一个固定数量的次数,缺省次数是3此,对于常见文件如可执行文件的次数要更多。主服务器通常并不存储实际的大块数据,而是存储与大块数据相关的元数据,这样的数据如映射表格将64位标签映射到大块数据位置及其组成的文件,大块数据副本位置,哪个进程正在读写特定的大数据块或者追踪复制大块数据的“快照”。

MapReduce

 

BigTable

一个分布式的结构化数据存储系统,它被设计用来处理海量数据,通常是分布在数千台普通数据服务器上的PB级的数据。BigTable和数据库很类似,它实用了很多数据库的实现策略,但它不支持完整的关系数据模型;与之相反,为客户提供了简单的数据模型,利用这个模型,客户可以动态控制数据的分布和格式。BigTable是一个稀疏的,分布式的,持久化存储的多维度排序Map。由key和value组成。

HDFS

Hadoop Distributed File System(HDFS)是一个分布式文件系统。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high
throughput)来访问应用程序和数据,适合那些有着超大数据集(large data set)的应用程序。

大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建,写入,关闭之后就不需要修改了。这个假定简单化了数据一致的问题和并使高吞吐量数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。

Lisp

List Processor,即列表处理语言,它的表达式是一个原子(atom)或者list,原子又包括符号与数值,表是由零个或者多个表达式组成的序列,表达式之间用空格分隔开,放入一对括号中,如:

abc

()

(abc xyz)

(a b (c) d)

 

HBASE

Hadoop Database是一个高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可在廉价的PA Server上搭建起大规模结构化存储集群。

HBase是Google Bigtable的开源实现,类似于Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统,Google运行MapReduce来处理BigTable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。

Chubby和Zookeeper分别是分布式的服务框架,用来解决分布式集群中应用系统的一致性问题。它们能提供基于类似于文件系统的目录节点树方式的数据存储。



 


Hive

基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。进行数据提取转化加载(ETL),这是一种可以存储,查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。

PIG-latin

PIG-latin数据模型包括以下四个部分:

(1)。原子值

(2)。元组

(3)。包

(4)。映射
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: