Hadoop之MapReduce调度:通过shell进行多日期的串行跑批统计
2017-08-29 19:17
453 查看
1、统计对应链接访问量的Python脚本
由于业务上暂用不到reduce过程,所以只有一个mapper脚本。
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/filter_mapperOnly.py
2、按天调度的shell脚本
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/mpBatResultGet.sh
3、扩展
根据需要,可以按不同的链接地址、不同的日志路径及日期进行总体性动态实现;暂时这部分没有做,可能会在以后的版本中涉及和实现。
由于业务上暂用不到reduce过程,所以只有一个mapper脚本。
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/filter_mapperOnly.py
#!/usr/bin/env python # encoding: utf-8 import sys # 输入为标准输入stdin for line in sys.stdin: if '/room/m-1015.htm' in line: print '%s' % (line)
2、按天调度的shell脚本
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/mpBatResultGet.sh
#!/usr/bin/env bash rm -rf result.txt for dataDate in 2017-08-21 2017-08-22 2017-08-23 2017-08-24 2017-08-25 2017-08-26 2017-08-27 2017-08-28; do echo $dataDate hadoop dfs -rm -r -skipTrash /nisj/mp_result; hadoop jar /opt/apps/hadoop-2.7.2/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar \ -mapper /home/hadoop/nisj/hitsCalc3/filter_mapperOnly.py -file /home/hadoop/nisj/hitsCalc3/filter_mapperOnly.py \ -input /tmp/oss_access/$dataDate/*_localhost_access_log.$dataDate.*.txt \ -output /nisj/mp_result #hadoop dfs -cat /nisj/mp_result/* hitsNum=`hadoop dfs -cat /nisj/mp_result/* |grep -v "^$"|wc -l` echo $dataDate '--->' $hitsNum >> result.txt done
3、扩展
根据需要,可以按不同的链接地址、不同的日志路径及日期进行总体性动态实现;暂时这部分没有做,可能会在以后的版本中涉及和实现。
相关文章推荐
- Hadoop之MapReduce调度:通过Python进行多日期多链接地址的串行跑批统计
- hadoop基础----hadoop实战(三)-----hadoop运行MapReduce---对单词进行统计--经典的自带例子wordcount
- 【Big Data - Hadoop - MapReduce】通过腾讯shuffle部署对shuffle过程进行详解
- 在hadoop上进行编写mapreduce程序,统计关键词在text出现次数
- 通过Hadoop Shell命令进行导入导出操作
- Mysql分表数据通过Shell进行导出与统计
- 在hadoop上进行编写mapreduce程序,统计关键词在text出现次数
- hadoop基础----hadoop实战(三)-----hadoop运行MapReduce---对单词进行统计--经典的自带例子wordcount
- 【Python学习系列四】Python程序通过hadoop-streaming提交到Hadoop集群执行MapReduce
- 通过MapReduce程序导出Hbase到Hadoop
- Hadoop - Map/Reduce 通过理解org.apache.hadoop.mapreduce.Job类来学习hadoop的执行逻辑
- Hadoop: MapReduce2多个job串行处理
- hadoop编程(5)-MapReduce案例:通过MinimalMapReduce进一步了解MR的机制
- (13) Hadoop Java 实现MapReduce HelloWord 单词统计 更新版 2
- 在hadoop集群上运行mapreduce程序时报错“org.apache.hadoop.util.Shell$ExitCodeException:***not found”
- 和我一起学Hadoop(五):MapReduce的单词统计,wordcount
- 通过Setters方式对日期属性及日期格式进行IOC注入
- Hadoop(4-3)-MapReduce程序案例-统计每一年最高温度
- Hadoop MapReduce进阶 使用分布式缓存进行replicated join