您的位置：首页 > 其它

Hive优化

2017-08-29 14:30 120 查看

1 sql书写规范

尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区。

案例：

SELECT a.key,col1,col2,col3,col4

FROM

A a

LEFT OUTER JOIN

B b

ON a.key = b.key and a.dt=‘20150101’ and b.dt=‘20150101';

优化方法1：

SELECT ...

FROM A

LEFT OUTER JOIN B ON A.key = B.key

WHERE A.dt='20150101'

AND B.dt='20150101';

优化方法2：

SELECT a.key,col1,col2,col3,col4

FROM

(SELECT key,col1,col2

FROM A

WHERE dt='20150101') a

LEFT OUTER JOIN

(SELECT key,col3,clo4

FROM B

WHERE dt='20150101' ) b ON a.key = b.key;

2 设置合理的map、reduce数

2.1 splitSize的计算方式

map数的主要决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(blockSize默认为64M)，以及maxSize(mapred.max.split.size)决定。

splitSize的计算公式：max{minSize,min{maxSize,blockSize}}，其中minSize为max(getFormatMinSplitSize(), getMinSplitSize(job))，即是某格式的文件的最小分割size(如sequenceFile是2000)和mapred.min.split.size之间的较大的那个；maxSize为mapred.max.split.size的值。

2.2 map数的计算方式

单个文件：

文件大小/splitSize>1.1，创建一个split0，文件剩余大小=文件大小-splitSize

.....

剩余文件大小/splitSize<=1.1 将剩余的部分作为一个split

每一个分片对应一个map任务。

总map数：每个文件的map数之和。

2.3 调整map数

通过设置参数，来合并map输入的小文件：

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; ##执行Map前进行小文件合并

set mapred.max.split.size=128000000; ##每个Map最大输入大小

注：mapred.map.tasks设置map个数无效。

2.4 调整Reduce数

不指定reducer个数的情况下，Hive会猜测确定一个reducer个数，基于以下两个设定：

参数1：hive.exec.reducers.bytes.per.reducer（每个reduce处理的数据大小，默认为1G）

参数2 ：hive.exec.reducers.max（每个job使用的最大reduce个数，默认为999）

计算reducer数的公式：

N=min(参数2，总输入数据量/参数1)

通过设置这两个参数来减少或增加reduce数，案例：

set hive.exec.reducers.bytes.per.reducer=256000000;##每个reduce处理的数据大小

set mapred.reduce.tasks=10;##设置reduce个数

set hive.exec.reducers.max=2000;##增加最大reduce个数

3 尽量减少job数

hive对union all优化只局限于非嵌套查询。

案例：

select * from

(select * from t1

Group by c1,c2,c3

Union all

Select * from t2

Group by c1,c2,c3) t3

Group by c1,c2,c3;

从业务逻辑上说，子查询内的group by 怎么都看显得多余（功能上的多余,除非有count(distinct)），如果不是因为hive bug或者性能上的考量(曾经出现如果不子查询group by ，数据得不到正确的结果的hive bug)。所以这个hive按经验转换成

select * from

(select * from t1

Union all

Select * from t2

) t3

Group by c1,c2,c3;

经过测试，并未出现union all的hive bug,数据是一致的。mr的作业数有3减少到1

4 解决数据倾斜问题

4.1 无效数值取值过多

通常的解决思路是，将无效的数据转换为随机数，均匀分配到不同的reduce上处理。

案例：

Select *

From log a

Join bmw_users b

On a.user_id is not null

And a.user_id = b.user_id

Union all

Select *

from log a

where a.user_id is null.
优化方法：

Select *

from log a

left outer join bmw_users b

on case when a.user_id is null then concat(‘dp_hive’,rand() ) else a.user_id end = b.user_id;

4.2 有效数值取值过多

如业务需要加工一张订单商品表，订单表order与商品表sku通过sku_id相关联，基本上每天“热销的商品”（商品被购买次数非常多）是固定的几个sku，在未改造前经常出现数据倾斜（这几个热销sku_id在对应的reduce上处理时间过长）。

解决思路：先生成一张每天的热销商品清单表（table_sku_top)，然后选取top前4的sku_id（根据实际情况而定）, 在关联时，若order表的sku_id是top前4的sku_id，则将sku_id转换为sku_id_rand的形式，rand的随机取值可能是1~n，随机份数视情况而定；且商品表通过列转行方式，将商品表中的sku_id也生成对应的若干行sku_id_rand格式数据，然后两表通过sku_id_rand关联，热销商品将会随机分配若干份到reduce上并行处理，从而解决倾斜问题。

案例：

select
t1.order_id,t2.skuname,t2.classname,t2.price
from
(
select
order_id,
sku_id
from order
where dt='20150101'
)t1
left outer join
(
selecr
sku_id,
skuname,
classname,
price
from sku
where dt='20150101'
)t2
on t1.sku_id= t2.sku_id
;

优化方法：

select
t1.order_id,t3.skuname,t3.classname,t3.price
from
(
select
order_id,
sku_id,
getRand(sku_id,'table_sku_top','rand') as sku_id_rand
from order
where dt='20150101'
)t1
left outer join
(select
col1 as sku_id_rand,

skuname,
classname,
price
from
(
selecr
sku_id,
getRand(sku_id,'table_sku_top','read') as sku_id_rand,

skuname,

classname,
price
from sku
where dt='20150101'
)t2
lateral view explode(split(sku_id_rand,',')) mytable as col1
)t3 on t1.sku_id_rand=t3.sku_id_rand;

4.3 不同数据类型关联

一张表日志表，每个商品一条记录，要和商品表关联。但关联却碰到倾斜的问题。日志表中有字符串商品id,也有数字的商品id,类型是string的，但商品中的数字id是bigint的。猜测问题的原因是把s8的商品id转成数字id做hash来分配reduce，所以字符串id的s8日志，都到一个reduce上了。

优化方法：把数字类型转换成字符串类型

Select * from s8_log a

Left outer join r_auction_auctions b

On a.auction_id = cast(b.auction_id as string);

4.4 count(distinct )问题

4.4.1 多粒度平级的汇总

比如要计算店铺的uv，还有要计算页面的uv

案例：

Select shopid,count(distinct uid)

From log group by shopid;

Select pageid, count(distinct uid),

From log group by pageid;

由于存在数据倾斜问题，这个结果的运行时间是非常长的。

优化方法：

Select

type_name,

sum(if(type='page',1,0)) page_uv,

sum(if(type='shop',1,0)) shop_uv

From

(

Select type,type_name,uid

From (

Select ‘page’ as type,

Pageid as type_name,

Uid

From log

Union all

Select ‘shop’ as type,

Shopid as type_name,

Uid

From log ) y

Group by type,type_name,uid

)t

group by type_name;

4.4.2 多粒度逐层向上的汇总

案例：目前log日志一天有25亿+的数据量，要从日志中按照国家、省份、地市三个粒度分别逐层计算uv及visits 。

Select country_id,province_id,city_id,count(distinct uuid) uv,count(distinct visits) visits

From log

group by country_id,province_id,city_id;

Select country_id,province_id,count(distinct uuid) uv,count(distinct visits) visits

From log

group by country_id,province_id;

Select country_id,count(distinct uuid) uv,count(distinct visits) visits

From log

group by country_id;

优化方法：

按照country、province、city，对uuid与visits打上标签，合并到一起后使用group去重；然后使用row_number函数，统计不同粒度的排名，最终产生临时表tmp。

insert overwrite table tmp1 partition(dt='20150101')

select

country_id,province_id,city_id,type,

row_number() over(partition by country_id,province_id,city_id,type order by value) as city_rn,

row_number() over(partition by country_id,province_id,type order by value) as province_rn,

row_number() over(partition by country_id,type order by value) as country_rn

from

(select country_id,province_id,city_id,type,value

from

(

select country_id,province_id,city_id,'u' type,uuid as value from log where dt='20150101'

union all

select country_id,province_id,city_id,'v' type,visits value from log where dt='20150101'

)t1

group by country_id,province_id,city_id,type,value

)t2;

最后，按照三个层级粒度分别对uv和visits进行汇总统计。

sql1:

select

country_id,province_id,city_id,

sum(case when type='u' and city_rn=1 then 1 else 0 end) as city_uv,

sum(case when type='v' and city_rn=1 then 1 else 0 end) as city_visits

from

tmp1

where dt='20150101'

group by

country_id,province_id,city_id;

sql2:

select

country_id,province_id,

sum(case when type='u' and province_rn=1 then 1 else 0 end) as province_uv,

sum(case when type='v' and province_rn=1 then 1 else 0 end) as province_visits

from

tmp1

where dt='20150101'

group by

country_id,province_id;

sql3:

select

country_id,province_id,

sum(case when type='u' and country_rn=1 then 1 else 0 end) as country_uv,

sum(case when type='v' and country_rn=1 then 1 else 0 end) as country_visits

from

tmp1

where dt='20150101'

group by

country_id,province_id;

5 Mapjoin优化

5.1 大小表关联

一张表十分小，一张表很大，使用mapjoin模式，提交作业的时候先将小表文件放到该作业的DistributedCache中，然后从DistributeCache中取出该小表进行join key / value解释分割放到内存中(可以放大Hash Map等等容器中)。然后扫描大表，看大表中的每条记录的join key /value值是否能够在内存中找到相同join key的记录，如果有则直接输出结果。在适合使用mapjoin的场景，可以在select后使用 /*+ mapjoin(a)*/的方式，或者设置自动开启mapjoin模式参数，set hive.auto.convert.join=true;

例如：

•INSERT OVERWRITE TABLE phone_traffic

SELECT /*+ MAPJOIN(phone_location) */ l.phone,p.location,l.traffic from phone_location p join log l on (p.phone=l.phone)

5.2 小表过大

如果小表过大，超过mapjoin适合的场景。比如member表100万条记录，日志log表上亿条记录，就不能简单的使用mapjoin了。但通过了解到业务场景，每天活跃的用户数memberid比较少，则可以先对log表的member_id去重后，使用mapjoin关联member表，然后再和log表通过mapjoin关联。

案例：

Select * from log a

Left outer join members b

On a.memberid = b.memberid.

优化方法：

Select /*+mapjoin(x)*/* from log a

Left outer join (select /*+mapjoin(c)*/d.*

From (select distinct memberid from log ) c

Join members d

On c.memberid = d.memberid

)x

On a.memberid = b.memberid。

6 善用multi insert,union all

multi insert适合基于同一个源表按照不同逻辑不同粒度处理插入不同表的场景，做到只需要扫描源表一次，job个数不变，减少源表扫描次数。

例如：

FROM test
INSERT OVERWRITE TABLE count1
SELECT count(DISTINCT test.dqcode)
GROUP BY test.zipcode
INSERT OVERWRITE TABLE count2
SELECT count(DISTINCT test.dqcode)
GROUP BY test.sfcode;

union all用好，可减少表的扫描次数，减少job的个数,通常预先按不同逻辑不同条件生成的查询union all后，再统一group by计算,不同表的union all相当于multiple inputs,同一个表的union all,相当map一次输出多条。

例如：

select country_id,province_id,city_id,type,value

from

(

select country_id,province_id,city_id,'u' type,uuid as value from log where dt='20150101'

union all

select country_id,province_id,city_id,'v' type,visits value from log where dt='20150101'

)t1

group by country_id,province_id,city_id,type,value;

7 参数设置

7.1 并发执行

hive.exec.parallel=true;默认为false
hive.exec.parallel.thread.number=8;

7.2 本地模式(小任务)

需要满足以下条件：
　　1.job的输入数据大小必须小于参数：hive.exec.mode.local.auto.inputbytes.max(默认128MB)
　　2.job的map数必须小于参数：hive.exec.mode.local.auto.tasks.max(默认4)
　　3.job的reduce数必须为0或者1
hive.exec.mode.local.auto.inputbytes.max=134217728
hive.exec.mode.local.auto.tasks.max=4
hive.exec.mode.local.auto=true
hive.mapred.local.mem：本地模式启动的JVM内存大小

7.3 Strict Mode

hive.mapred.mode=true，严格模式不允许执行以下查询：
分区表上没有指定了分区
没有limit限制的order by语句
笛卡尔积：JOIN时没有ON语句

7.4 动态分区

hive.exec.dynamic.partition.mode=strict：该模式下必须指定一个静态分区
hive.exec.max.dynamic.partitions=1000 :每个DML语句可以创建的最大分区数
hive.exec.max.dynamic.partitions.pernode=100：在每一个mapper/reducer节点允许创建的最大分区数
DATANODE：dfs.datanode.max.xceivers=8192：允许DATANODE打开多少个文件

7.5 map聚合

hive.map.aggr=true;在map中会做部分聚集操作，效率更高但需要更多的内存。
hive.groupby.mapaggr.checkinterval：在Map端进行聚合操作的条目数目

7.6 负载均衡

hive.groupby.skewindata=true：数据倾斜时负载均衡，当选项设定为true，生成的查询计划会有两个MRJob。第一个MRJob 中，
Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key
有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到
Reduce中（这个过程可以保证相同的GroupBy Key被分布到同一个Reduce中），最后完成最终的聚合操作。

7.7 排序

ORDER BY colName ASC/DESC
hive.mapred.mode=strict时需要跟limit子句
hive.mapred.mode=nonstrict时使用单个reduce完成排序
SORT BY colName ASC/DESC ：每个reduce内排序
DISTRIBUTE BY(子查询情况下使用 )：控制特定行应该到哪个reducer，并不保证reduce内数据的顺序
CLUSTER BY ：当SORT BY 、DISTRIBUTE BY使用相同的列时。

7.8 合并小文件

hive.merg.mapfiles=true：合并map输出
hive.merge.mapredfiles=false：合并reduce输出
hive.merge.size.per.task=256*1000*1000：合并文件的大小
hive.mergejob.maponly=true：如果支持CombineHiveInputFormat则生成只有Map的任务执行merge
hive.merge.smallfiles.avgsize=16000000：文件的平均大小小于该值时，会启动一个MR任务执行merge。

7.9 使用索引

hive.optimize.index.filter：自动使用索引
hive.optimize.index.groupby：使用聚合索引优化GROUP BY操作

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航