您的位置:首页 > 运维架构

Hadoop 和 spark 读取多个文件通配符规则(正则表达式)joe

2017-07-09 14:22 316 查看
最近在公司需要计算手机信令数据 但是每次spark读取文件的时候都是把当天24小时从头到尾读取一遍 非常耗时,在一步操作中处理批量文件,这个要求很常见。举例来说,处理日志的MapReduce作业可能会分析一个月的文件,这些文件被包含在大量目录中。Hadoop有一个通配的操作,可以方便地使用通配符在一个表达式中核对多个文件,不需要列举每个文件和目录来指定输入如下图所示:

点击打开链接












例如 我想读取 hdfs://master:9000/population/unicom_phone/pekin/20150701/02

和hdfs://master:9000/population/unicom_phone/pekin/20150701/03的文件  

也就是我想读20150701 下的02 和03文件 通过通配符可以写成如下:

hdfs://master:9000/population/unicom_phone/pekin/20150701/0[2-3]


再次执行 计算速度快了四倍。

Fei joe

点击打开链接
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: