互联网日志的种类、存储和计算
2013-12-17 20:45
260 查看
最近几年,经常听到数据挖掘这个词。
不过,我仔细看了下,发现这个词还是挺模糊的。
挖掘
这个词,应该指从数据中发现有价值的信息。
比如从搜索词中,发现网民的关注点,进而指导广告投放、产品推荐,生产用户需要的产品。
数据
根据我有限的阅历来看,数据最常见的形式就是日志,各种各样的日志。
限于从业经验有限,本文只是简要介绍下日志的种类、存储和计算,仅供参考。
一个广告的一次曝光,会产生一条曝光日志。
日志格式:广告位ID、媒体、频道、曝光时间、IP、来源、操作系统、浏览器、用户ID等。
注:可以用监测点ID来代替媒体和频道等更多信息。
b.网页访问日志
网页被一个用户访问一次,产生一条访问日志。
日志格式:网页URL、用户ID、访问时间、来源、操作系统、浏览器等。
日志格式:广告位ID、媒体、频道、点击时间、IP、来源、操作系统、浏览器、用户ID等。
b.内容点击日志
用户点击了站内的链接,记录这个日志,可以得出用户的喜好。
日志格式: 与网页访问和广告点击日志类似。
c.分享日志
用户分享了文章或者文章的一部分。
d.收藏
用户收藏了商品、文章、代码等。
e.搜索
百度肯定记录了用户的搜索记录。
优酷等视频网站、新浪等媒体网站也有吧。
更多日志,不再一一列举。
日志也会存储到多台服务器上。
日志可以存储到文件中,一条日志一个文件,或者多个日志共用一个文件。
至于怎样更合理,我还没有啥实际经验。
两个疑问
1.日志数据作为互联网公司的重要资产,是否会统一存储起来呢?
我觉得最终会统一存放到数据仓库中,一台机器显然是不够的,会有很多台。
2.这些日志数据有必要备份么?
我觉得有必要。
然后,把多态服务器上的计算结果累加,得出最终的结果。
现在,很多客户都要求“实时数据”。比如,广告投放15分钟之后,就可以看到监测数据了。
实时计算能力已经成为一个技术公司的核心竞争力了。
这种方式,准确度会更高。
有的技术公司,不但有私有的云存储技术,还对外提供服务。比如百度、金山、QQ等都有免费提供给用户的云存储服务。
公司内部与向外提供还是有区别的。比如象访问和点击日志这种,文件比较小。而对外提供的,文件可能比较大。
场景和需求的不同,也就决定了云存储技术还是会分化成好几种。
姑且就认为云计算=分布式计算。
我的理解,云计算就是把一个复杂的计算问题,拆分成了可以单独计算的多个部分,然后把多个计算结果进行合并。
(上周末看了《云计算-大数据时代的系统工程》这本书,对云计算有了更清晰的认识。)
本人正在努力学习和研究当中。
欢迎提出建设性的意见和建议。
原文链接:http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn)
不过,我仔细看了下,发现这个词还是挺模糊的。
挖掘
这个词,应该指从数据中发现有价值的信息。
比如从搜索词中,发现网民的关注点,进而指导广告投放、产品推荐,生产用户需要的产品。
数据
根据我有限的阅历来看,数据最常见的形式就是日志,各种各样的日志。
限于从业经验有限,本文只是简要介绍下日志的种类、存储和计算,仅供参考。
日志的种类
1.浏览日志
a.广告曝光日志一个广告的一次曝光,会产生一条曝光日志。
日志格式:广告位ID、媒体、频道、曝光时间、IP、来源、操作系统、浏览器、用户ID等。
注:可以用监测点ID来代替媒体和频道等更多信息。
b.网页访问日志
网页被一个用户访问一次,产生一条访问日志。
日志格式:网页URL、用户ID、访问时间、来源、操作系统、浏览器等。
2.行为日志
a.广告点击日志日志格式:广告位ID、媒体、频道、点击时间、IP、来源、操作系统、浏览器、用户ID等。
b.内容点击日志
用户点击了站内的链接,记录这个日志,可以得出用户的喜好。
日志格式: 与网页访问和广告点击日志类似。
c.分享日志
用户分享了文章或者文章的一部分。
d.收藏
用户收藏了商品、文章、代码等。
e.搜索
百度肯定记录了用户的搜索记录。
优酷等视频网站、新浪等媒体网站也有吧。
更多日志,不再一一列举。
日志的存储
百度、优酷等大型互联网网站,肯定有很多服务器。日志也会存储到多台服务器上。
日志可以存储到文件中,一条日志一个文件,或者多个日志共用一个文件。
至于怎样更合理,我还没有啥实际经验。
两个疑问
1.日志数据作为互联网公司的重要资产,是否会统一存储起来呢?
我觉得最终会统一存放到数据仓库中,一台机器显然是不够的,会有很多台。
2.这些日志数据有必要备份么?
我觉得有必要。
日志的计算
1.实时计算
来一条日志,或者一定量的日志,就计算。然后,把多态服务器上的计算结果累加,得出最终的结果。
现在,很多客户都要求“实时数据”。比如,广告投放15分钟之后,就可以看到监测数据了。
实时计算能力已经成为一个技术公司的核心竞争力了。
2.非实时计算
等所有相关数据都出来了,然后再统一计算。这种方式,准确度会更高。
云存储
有的技术公司,有自己私有的云存储技术,不对外提供。有的技术公司,不但有私有的云存储技术,还对外提供服务。比如百度、金山、QQ等都有免费提供给用户的云存储服务。
公司内部与向外提供还是有区别的。比如象访问和点击日志这种,文件比较小。而对外提供的,文件可能比较大。
场景和需求的不同,也就决定了云存储技术还是会分化成好几种。
云计算
我一直没有搞清楚“云计算”和“分布式计算”有啥区别,总感觉“云”就是一个模糊的让人“云山雾绕”的概念。姑且就认为云计算=分布式计算。
我的理解,云计算就是把一个复杂的计算问题,拆分成了可以单独计算的多个部分,然后把多个计算结果进行合并。
(上周末看了《云计算-大数据时代的系统工程》这本书,对云计算有了更清晰的认识。)
友情提示
本人从业时间有限,经验有限,因此本文仅供参考。本人正在努力学习和研究当中。
欢迎提出建设性的意见和建议。
原文链接:http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn)
相关文章推荐
- 互联网日志的种类、存储和计算
- 互联网日志的种类、存储和计算
- 互联网日志的种类、存储和计算
- 互联网日志的种类、存储和计算
- kafka + spark streaming 实时读取计算 nginx 日志,存储结果到 mongodb/mysql
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 云计算项目实战——某大型互联网企业用户上网行为日志分析系统 PPT下载
- 记录一下互联网日志实时收集和实时计算的简单方案
- TimesTen计算和配置TimesTen的ttmesg日志存储空间
- 记录一下互联网日志实时收集和实时计算的简单方案
- 互联网日志实时收集和实时计算的简单方案
- 【无中生有】---6---系统日志记录系统存储设计
- 计算数据库中数据总和的存储过程
- 【独家】互联网变现与计算广告(干货+5000字精彩问答)
- ACM--再说利用数组存储计算过程对程序效率带来的好处
- 计算与存储的融合
- SQL Server数据库事务日志存储序列
- Apache Kafka源码剖析:第7篇 日志存储系列2-FileMessageSet
- 存储系统性能 - 带宽计算