大数据入门第十三天——离线综合案例:网站点击流数据分析
2018-02-27 20:21
429 查看
推荐书籍:《网站分析实战——如何以数据驱动决策,提升网站价值》
相关随笔:http://blog.csdn.net/u014033218/article/details/76847263
[b][b] 1.web访问日志[/b][/b]
日志示例:
2.点击流数据模型
WeblogPreProcess
运行mr进行过滤处理:
###剩余模块,待补充,暂时参考文首博文
相关随笔:http://blog.csdn.net/u014033218/article/details/76847263
[b][b]一、网站点击流数据分析项目业务背景[/b][/b]
[b][b] 1.什么是点击流数据[/b][/b][b][b] 1.web访问日志[/b][/b]
即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。 而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。 日志的生成渠道: 1)是网站的web服务器所记录的web访问日志; 2)是通过在页面嵌入自定义的js代码来获取用户的所有访问行为(比如鼠标悬停的位置,点击的页面组件等), 然后通过ajax请求到后台记录日志;这种方式所能采集的信息最全面; 3)通过在页面上埋点1像素的图片,将相关页面访问信息请求到后台记录日志; 日志数据内容详述: 在实际操作中,有以下几个方面的数据可以被采集: 1)访客的系统属性特征。比如所采用的操作系统、浏览器、域名和访问速度等。 2)访问特征。包括停留时间、点击的URL等。 3)来源特征。包括网络内容信息类型、内容分类和来访URL等。 产品特征。包括所访问的产品编号、产品类别、产品颜色、产品价格、产品利润、
日志示例:
GET /log.gif?t=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600x900$ul=zh-cn$cs=GBK$dt=【云南白药套装】云南白药 牙膏 180g×3 (留兰香型)【行情 报价 价格 评测】-京东$hn=item.jd.com$fl=16.0 r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411 HTTP/1.1
2.点击流数据模型
点击流概念
点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来形成的“线”。也可以把“点”认为是网站的Page,而“线”则是访问网站的Session。所以点击流数据是由网站日志中整理得到的,它可以比网站日志包含更多的信息,从而使基于点击流数据统计得到的结果更加丰富和高效。点击流模型生成
点击流数据在具体操作上是由散点状的点击日志数据梳理所得,从而,点击数据在数据建模时应该存在两张模型表(Pageviews和visits):package cn.itcast.bigdata.hive.mr.pre; import java.io.IOException; import java.util.HashSet; import java.util.Set; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import cn.itcast.bigdata.hive.mrbean.WebLogBean; import cn.itcast.bigdata.hive.mrbean.WebLogParser; /** * 处理原始日志,过滤出真实pv请求 * 转换时间格式 * 对缺失字段填充默认值 * 对记录标记valid和invalid * * @author * */ public class WeblogPreProcess { static class WeblogPreProcessMapper extends Mapper<LongWritable, Text, Text, NullWritable> { //用来存储网站url分类数据 Set<String> pages = new HashSet<String>(); Text k = new Text(); NullWritable v = NullWritable.get(); /** * 从外部加载网站url分类数据 */ @Override protected void setup(Context context) throws IOException, InterruptedException { pages.add("/about"); pages.add("/black-ip-list/"); pages.add("/cassandra-clustor/"); pages.add("/finance-rhive-repurchase/"); pages.add("/hadoop-family-roadmap/"); pages.add("/hadoop-hive-intro/"); pages.add("/hadoop-zookeeper-intro/"); pages.add("/hadoop-mahout-roadmap/"); } @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); WebLogBean webLogBean = WebLogParser.parser(line); // 过滤js/图片/css等静态资源 WebLogParser.filtStaticResource(webLogBean, pages); /* if (!webLogBean.isValid()) return; */ k.set(webLogBean.toString()); context.write(k, v); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf); job.setJarByClass(WeblogPreProcess.class); job.setMapperClass(WeblogPreProcessMapper.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(NullWritable.class); // FileInputFormat.setInputPaths(job, new Path(args[0])); // FileOutputFormat.setOutputPath(job, new Path(args[1])); FileInputFormat.setInputPaths(job, new Path("c:/weblog/input")); FileOutputFormat.setOutputPath(job, new Path("c:/weblog/output")); job.setNumReduceTasks(0); job.waitForCompletion(true); } }
WeblogPreProcess
运行mr进行过滤处理:
hadoop jar weblog.jar cn.itcast.bigdata.hive.mr.WeblogPreProcess /weblog/input /weblog/preout
###剩余模块,待补充,暂时参考文首博文
相关文章推荐
- 网站数据统计分析相关入门
- 网站日志分析项目案例(二)数据清洗
- 网站点击流数据分析项目----之现学现卖
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
- 026 使用大数据对网站基本指标PV案例的分析
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
- 大数据IMF传奇行动绝密课程第104-114课:Spark Streaming电商广告点击综合案例
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
- 大数据IMF传奇行动绝密课程第75-79课:Spark SQL基于网站Log的综合案例实战
- 网站点击流数据分析项目
- 大数据案例:点击流日志分析
- 第107课: Spark Streaming电商广告点击综合案例底层数据层的建模和编码实现(基于MySQL)
- 大数据IMF传奇行动绝密课程第80课:Spark SQL网站搜索综合案例实战
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
- 第76课:Spark SQL基于网站Log的综合案例实战之Hive数据导入、Spark SQL对数据操作每天晚上20:00YY频道现场授课频道68917580
- HtmlUnit java爬虫入门 真实案例讲解 爬取电商网站数据
- 第104讲: Spark Streaming电商广告点击综合案例需求分析和技术架构
- Hadoop—网站日志分析项目案例(二)数据清洗