您的位置:首页 > 其它

Hive 合并输入输出文件

2015-06-18 10:59 218 查看
如果HIVE的输入文件是大量的小文件,而每个文件启动一个map的话是对yarn资源的浪费,同样的,Hive输出的文件也远远小于HDFS块大小,对后续处理也是不利的

HIVE中支持通过参数调整输入和输出的文件大小

1、合并输入文件

set mapred.max.split.size=256000000; #每个Map最大输入大小

set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小

set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; #执行Map前进行小文件合并

开启org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一个data node节点上多个小文件会进行合并,合并文件数由mapred.max.split.size限制的大小决定

mapred.min.split.size.per.node决定了多个data node上的文件是否需要合并

mapred.min.split.size.per.rack决定了多个交换机上的文件是否需要合并

2、合并输出文件

set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件

set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件

set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小

set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: