您的位置:首页 > 运维架构

hadoop 处理小文件 方式TBD

2016-01-27 17:13 441 查看
1.如果hdfs系统里都是小文件,每个mapper 平均只会处理极端的时间,那么这显然调度那么多map去处理如此小文件 是一种浪费,这时可以采用CombineFileInputFormat,一个map读取多个小文件

2. 设置离线的merge 任务,或者前置,或者 如odps red后,会判断输出文件的大小数量,如果满足条件则启动merge任务,将小文件合并起来, (常用的文件格式 RCFILE sequenceFile  refer to http://blog.csdn.net/xhh198781/article/details/7693358)
TBD
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: