Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍
2017-09-26 00:00
393 查看
在HDFS中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置
Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。
当我们往HDFS上写入新的数据块,DataNode 将会使用volume选择策略来为这个块选择存储的地方。目前Hadoop支持两种volume选择策略:round-robin 和 available space(详情参见:HDFS-1804),我们可以通过
循环(round-robin)策略将新块均匀分布在可用磁盘上;而可用空间( available-space )策略优先将数据写入具有最大可用空间的磁盘(通过百分比计算的)。正如下图所示:
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop
默认情况下,DataNode 是使用基于round-robin策略来写入新的数据块。然而在一个长时间运行的集群中,由于HDFS中的大规模文件删除或者通过往DataNode 中添加新的磁盘仍然会导致同一个DataNode中的不同磁盘存储的数据很不均衡。即使你使用的是基于可用空间的策略,卷(volume)不平衡仍可导致较低效率的磁盘I/O。比如所有新增的数据块都会往新增的磁盘上写,在此期间,其他的磁盘会处于空闲状态,这样新的磁盘将会是整个系统的瓶颈。
最近,Apache Hadoop community开发了好几个离线的脚本(可以参见 HDFS-1312 或者 hadoop-balancer )以缓解数据不平衡问题。然而这些脚本都是在HDFS代码库之外,在执行这些脚本往不同磁盘之间移动数据的时候,需要要求DataNode处于关闭状态。结果,HDFS-1312 还引入了一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行DataNode上的磁盘数据。和现有的HDFS均衡器类似,HDFS 磁盘均衡器在DataNode中以线程的形式运行,并在相同存储类型的卷(volumes)之间移动数据。我们要注意,本文介绍的HDFS
磁盘均衡器是在同一个DataNode中的不同磁盘之间移动数据,而之前的HDFS均衡器是在不同的DataNode之间移动数据。
在下面的文章中,我将介绍如何使用这个新功能。
让我们通过一个例子逐步探讨这个有用的功能。首先,确保所有DataNode上的
df命令来显示磁盘的使用率:
从上面的输出可以看出,两个磁盘的使用率很不均衡,所以我们来将这两个磁盘的数据均衡一下。
典型的磁盘平衡器任务涉及三个步骤(通过HDFS的diskbalancer 命令):plan, execute 和 query。第一步,HDFS客户端从NameNode上读取指定DataNode的的必要信息以生成执行计划:
从上面的输出可以看出,HDFS磁盘平衡器通过使用DataNode报告给NameNode的磁盘使用信息并结合计划程序来计算指定DataNode上数据移动计划的步骤,每个步骤指定要移动数据的源卷和目标卷,以及预计移动的数据量。
截止到撰写本文的时候,HDFS仅仅支持
则认为此磁盘已经达到了平衡。当然,我们还可以通过使用
磁盘平衡执行计划生成的文件内容格式是Json的,并且存储在HDFS之上。在默认情况下,这些文件是存储在
可以通过下面的命令在DataNode上执行这个生成的计划:
这个命令将JSON里面的计划提交给DataNode,而DataNode会启动一个名为BlockMover的线程中执行这个计划。我们可以使用
上面结果输出的
上面的结果证明,磁盘平衡器成功地将
猜你喜欢
欢迎关注本公众号:iteblog_hadoop:
0、回复 电子书 获取 本站所有可下载的电子书
1、SparkSQL
– 深入浅出了解Catalyst
2、TensorFlow
on Yarn:深度学习遇上大数据
3、Apache
Spark 2.2.0新特性详细介绍
4、干货
| Spark SQL:过去,现在以及未来
5、ElasticSearch内置也将支持SQL特性
6、全球100款大数据工具汇总,总有你需要的
7、Spark
Summit 2017全部PPT下载[共143个]
8、NodeManager节点自身健康状态检测机制
9、NodeManager
生命周期介绍
10、Apache
Flink 1.3.0正式发布及其新功能介绍
11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop)12、Flink中文文档:http://flink.iteblog.com
hdfs-site.xml里面的
dfs.datanode.data.dir参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard
Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。
当我们往HDFS上写入新的数据块,DataNode 将会使用volume选择策略来为这个块选择存储的地方。目前Hadoop支持两种volume选择策略:round-robin 和 available space(详情参见:HDFS-1804),我们可以通过
dfs.datanode.fsdataset.volume.choosing.policy参数来设置。
循环(round-robin)策略将新块均匀分布在可用磁盘上;而可用空间( available-space )策略优先将数据写入具有最大可用空间的磁盘(通过百分比计算的)。正如下图所示:
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop
默认情况下,DataNode 是使用基于round-robin策略来写入新的数据块。然而在一个长时间运行的集群中,由于HDFS中的大规模文件删除或者通过往DataNode 中添加新的磁盘仍然会导致同一个DataNode中的不同磁盘存储的数据很不均衡。即使你使用的是基于可用空间的策略,卷(volume)不平衡仍可导致较低效率的磁盘I/O。比如所有新增的数据块都会往新增的磁盘上写,在此期间,其他的磁盘会处于空闲状态,这样新的磁盘将会是整个系统的瓶颈。
最近,Apache Hadoop community开发了好几个离线的脚本(可以参见 HDFS-1312 或者 hadoop-balancer )以缓解数据不平衡问题。然而这些脚本都是在HDFS代码库之外,在执行这些脚本往不同磁盘之间移动数据的时候,需要要求DataNode处于关闭状态。结果,HDFS-1312 还引入了一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行DataNode上的磁盘数据。和现有的HDFS均衡器类似,HDFS 磁盘均衡器在DataNode中以线程的形式运行,并在相同存储类型的卷(volumes)之间移动数据。我们要注意,本文介绍的HDFS
磁盘均衡器是在同一个DataNode中的不同磁盘之间移动数据,而之前的HDFS均衡器是在不同的DataNode之间移动数据。
在下面的文章中,我将介绍如何使用这个新功能。
让我们通过一个例子逐步探讨这个有用的功能。首先,确保所有DataNode上的
dfs.disk.balancer.enabled参数设置成true。本例子中,我们的DataNode已经挂载了一个磁盘(
/mnt/disk1),现在我们往这个DataNode上挂载新的磁盘(
/mnt/disk2),我们使用
df命令来显示磁盘的使用率:
典型的磁盘平衡器任务涉及三个步骤(通过HDFS的diskbalancer 命令):plan, execute 和 query。第一步,HDFS客户端从NameNode上读取指定DataNode的的必要信息以生成执行计划:
截止到撰写本文的时候,HDFS仅仅支持
GreedyPlanner,其不断地将数据从最常用的设备移动到最少使用的设备,直到所有数据均匀地分布在所有设备上。用户还可以在使用 plan 命令的时候指定空间利用阀值,也就是说,如果空间利用率的差异低于此阀值,planner
则认为此磁盘已经达到了平衡。当然,我们还可以通过使用
--bandwidth参数来限制磁盘数据移动时的I/O。
磁盘平衡执行计划生成的文件内容格式是Json的,并且存储在HDFS之上。在默认情况下,这些文件是存储在
/system/diskbalancer目录下面:
query命令来查询DataNode上diskbalancer任务的状态:
PLAN_DONE表示disk-balancing task已经执行完成。为了验证磁盘平衡器的有效性,我们可以使用df -h 命令来查看各个磁盘的空间使用率:
/var/disk1和
/var/disk2空间使用率的差异降低到10%以下,说明任务完成!
猜你喜欢
欢迎关注本公众号:iteblog_hadoop:
0、回复 电子书 获取 本站所有可下载的电子书
1、SparkSQL
– 深入浅出了解Catalyst
2、TensorFlow
on Yarn:深度学习遇上大数据
3、Apache
Spark 2.2.0新特性详细介绍
4、干货
| Spark SQL:过去,现在以及未来
5、ElasticSearch内置也将支持SQL特性
6、全球100款大数据工具汇总,总有你需要的
7、Spark
Summit 2017全部PPT下载[共143个]
8、NodeManager节点自身健康状态检测机制
9、NodeManager
生命周期介绍
10、Apache
Flink 1.3.0正式发布及其新功能介绍
11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop)12、Flink中文文档:http://flink.iteblog.com
相关文章推荐
- Android Studio 3.0 下载 使用新功能介绍
- Heritrix3.0教程 使用教程(三) CrawlJob控制台界面(一) 大概介绍
- Hadoop API 使用介绍
- linux 磁盘io技术3------libaio使用介绍
- xUtils3.0使用介绍:数据库模块
- Hadoop群组服务器部署使用介绍(一)
- Hadoop API 使用介绍
- Hadoop3.0安装以及新特性介绍
- [Android Pro] Android P版本 新功能介绍和兼容性处理(三)Android Studio 3.0 ~ 3.2 其他特性
- Hadoop API 使用介绍
- C# Mvc.net 3.0 Razor Leyout布局视图使用介绍
- Linux 查看磁盘分区、文件系统、磁盘的使用情况相关的命令和工具介绍
- Alex 的 Hadoop 菜鸟教程: 第9课 zookeeper 介绍和使用
- C# Mvc.net 3.0 Razor Leyout布局视图使用介绍
- Linux 查看磁盘分区、文件系统、磁盘的使用情况相关的命令和工具介绍
- AndroidStudio3.0 下载及使用新功能介绍
- Hadoop集群中Hbase的介绍、安装、使用
- xUtils3.0使用介绍:图片加载模块
- AndroidStudio3.0 下载使用新功能介绍