您的位置:首页 > 运维架构

Hadoop之分布式文件系统—HDFS(1)

2016-09-11 11:25 477 查看
虽然现在业内用Hadoop自带的Map Reduce来处理数据的已经不是很多了,但还是用Hadoop的分布式存储系统HDFS结合Spark来处理大数据。所以这里先分享我所学习的有关HDFS的知识。

HDFS简介

自从Hadoop问世以后,它的文件存储机制就成为了一种虚拟化存储中的经典。这就是HDFS。HDFS是Hadoop的最高级文件存储系统,包含了其自身特有的文件存储机制、本地文件系统和Amazon S3等优秀的系统。

HDFS的特点

1.少存储,多读取。减少写入次数,即一次写入大量数据;然后分多次读取数据,把更多的时间留给对数据的处理上。

2.Hadoop的硬件基础往往是便宜的普通零件,而不是特别高质量的硬件组,所以硬件的损坏还是很可观的。但是HDFS又被设计成了具有较高容能力的虚拟化系统。

3.HDFS牺牲了一定的时间来换取了较高的吞吐率,所以它的数据访问速度不如Hive和HBase。

4.HDFS的存储块很大,至少大到物理磁盘的100多倍。这使得HDFS在节省存储空间、寻找数据地址的能力有了一定的提升。

5.HDFS在大文件上的优势要远远大于小文件。如果小文件的数量足够大,那么在HDFS管理下很有可能硬件设备就不满足了需求了。

6.单用户管理写入和修改,多用户读取数据。

HDFS的数据分块

HDFS主要处理大数据,这个数据量非常大,以至于如果按照普通的文件系统分块方法,会极大地增加数据寻找时间,这在效率上会带来弊端。所以HDFS的默认块大小是64MB,当然可以提升至更高。但是由于HDFS处理数据是按块读取,块空间过大,块数量就会过少,这样处理效率也会减慢。

HDFS好处

HDFS是将所有硬件磁盘虚拟化的一个大仓库。所以一个文件很有可能被分为几部分,分别存放在不同的物理磁盘上。但在HDFS这个层面上看到的还是一个完整的文件。这也就意味这文件的安全性得到了提高—HDFS的高容错和高回复在这里起到了至关重要的作用。同时HDFS中应该有正常空闲或专门用来备用的机器,这些用来在节点物理破坏后进行数据恢复和维持集群正常、保持负载均衡时使用。

acc6
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: