您的位置:首页 > 其它

map-reduce程序提升处理效率的方式

2013-12-01 16:14 393 查看
这里假设你已经会写简单的map-reduce 程序(本博对应搜索技术分类中我介意的介绍过map-reduce使用方法)

那么同样一个map-reduce程序,输入的数据量大小一样,有什么办法可以加快map部分的计算效率呢?

我先说一下碰到的实际问题: 同样一批日志一天一个目录如2013-12-01,目录下为各小时文件如****00.log......****01.log .....***23.log

每次map-reduce都不快,查看发现启动的map数量个数为24个(一天目录下只有24个文件),后来我们把每小时的一个文件切分成按分钟的60个文件这样一天的目录中就有60*24个文件,再启动map-reduce时我们可以看到map启动的数量为60*24个了,效率明显提升;

所以map的启动依赖于输入的数量而与数据量无关,

谨以此段经历希望能给予你帮助
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: