HBase一次慢查询请求的问题排查与解决过程
2014-02-20 15:46
1341 查看
以下是我们对HBase集群一次慢查询请求问题的排查解决过程。
接着排查,发现这张表的TTL只有5天,因此到一定程度后会有大量过期数据存在。同时,由于这张表每天早上会导入一批数据(其中,发现问题的5天前那天曾集中导入了7亿多条记录),而集群的major compact周期配置是7天,虽然到当天时这部分数据已经过期了,但是由于还没有经过major compact触发清除所有过期的数据,因此,这个时间窗口内存在大量过期但尚未被清除的数据,导致即使按照各个region分别仅scan少数几条数据,仍需要过滤掉一大批过期的数据(从监控看到当时的Block
Cache访问量比平时要高了一倍左右,如下图所示),才能扫到实际有用的数据,所以查询响应时间很慢。
1)每天早上导入数据后,强制触发一次major compact操作(见HBaseAdmin的majorCompct方法,异步执行),使得表中每个region中的过期数据可以被及时清除掉。
2)由于集群的major compact周期为7天,而表的TTL为5天,因此可以将major compact周期调小(配置参数为hbase.hregion.majorcompaction,单位为毫秒;同 时,hbase.offpeak.start.hour可以设置major compact启动的小时,例如,设置为1,可保证在1点后触发),从集群级别保证major compact尽早触发执行。
http://blog.linezing.com/?p=2103
1. 发现问题
项目中有一张HBase表,每天凌晨以后会集中批量导入一批数据,导入数据量很大,在千万到亿的量级,然后白天为用户提供查询服务。某天突然发现, 该表按照各个region(共计256个)分别仅顺序scan少数几条数据时,部分region的查询请求的响应时间很慢,长达10秒甚至几十秒不等。2. 排查问题
首先,通过查看HBase的region server监控界面,看到这张表的每个region下面只有1~3个StoreFile,排除了由于StoreFile过多导致查询响应慢的情况。接着排查,发现这张表的TTL只有5天,因此到一定程度后会有大量过期数据存在。同时,由于这张表每天早上会导入一批数据(其中,发现问题的5天前那天曾集中导入了7亿多条记录),而集群的major compact周期配置是7天,虽然到当天时这部分数据已经过期了,但是由于还没有经过major compact触发清除所有过期的数据,因此,这个时间窗口内存在大量过期但尚未被清除的数据,导致即使按照各个region分别仅scan少数几条数据,仍需要过滤掉一大批过期的数据(从监控看到当时的Block
Cache访问量比平时要高了一倍左右,如下图所示),才能扫到实际有用的数据,所以查询响应时间很慢。
3. 解决问题
针对这一问题,有以下两种解决方法:1)每天早上导入数据后,强制触发一次major compact操作(见HBaseAdmin的majorCompct方法,异步执行),使得表中每个region中的过期数据可以被及时清除掉。
2)由于集群的major compact周期为7天,而表的TTL为5天,因此可以将major compact周期调小(配置参数为hbase.hregion.majorcompaction,单位为毫秒;同 时,hbase.offpeak.start.hour可以设置major compact启动的小时,例如,设置为1,可保证在1点后触发),从集群级别保证major compact尽早触发执行。
http://blog.linezing.com/?p=2103
相关文章推荐
- HBase一次慢查询请求的问题排查与解决过程
- 一次生产问题排查解决过程(小问题,大神请绕过)
- SQLSERVER 占了500多M内存,原来的程序无法一次查询出50多W数据了,记录下这个问题的解决过程。
- HBase解决Region Server Compact过程占用大量网络出口带宽的问题
- 记录一次自定义参数绑定错误问题的解决过程
- HBase解决Region Server Compact过程占用大量网络出口带宽的问题
- 记一次Oracle数据库连接不释放问题排查过程
- MySQL redo死锁问题排查及解决过程分析
- 记一次非常痛苦的解决问题过程
- HBase解决Region Server Compact过程占用大量网络出口带宽的问题
- HBase集群出现NotServingRegionException问题的排查及解决方法
- 记一次磁盘IO高问题排查过程
- idea下一次Jar包依赖问题的解决过程
- 最为关心的问题,hbase查询一条数据的过程.
- Microsoft Windows 2000 Server 上ORA-01089到ora-27100问题的一次解决过程!
- 记一次Base64以及URLEncode转码过程中浏览器请求后台问题
- HBase集群出现NotServingRegionException问题的排查及解决方法
- WAS集群:记一次Node Agent不活动问题解决过程
- 一次ORA-39083,ORA-01917的问题解决过程
- mybatis性能优化二之多对多查询:用一次请求解决n次请求查询