日志分析到底有什么用?实战网站日志分析全步骤!
日志分析是做网站必要步骤,很多人只管做站,从来不看日志,认为看日志是一个浪费时间的活,更别说是日志分析了。
我个人认为日志分析有以下几个好处:
了解网站蜘蛛爬取情况
看是否有人盯住你的网站
优化网站配置
我们分析网站一般用到日志分析工具,在这里推荐三款:爱站日志分析、站长日志分析和LOGHAO等。为了公平起见,我用同一份日志,在三个工具里都跑了一遍:
结果是,LOGHAO和站长日志分析比较准确,爱站不准。以下是分析步骤:我提取了收录的url链接;
这些url是按照快照时间,大约是15个小时收录的,按照文章发布时间,推算出这些文章大概都是秒收。
220.181.108.147 文章A /original/38.html
220.181.108.145 文章B /zhuanzai/42.html
220.181.108.146 文章C /original/53.html
220.181.108.171 文章D /original/44.html
220.181.108.117
220.181.108.86 文章E /down/36.html
124.166.232.42 (山西省阳泉市 联通 ) 文章F /zhuanzai/51.html
那么这个IP段,LOGHAO和站长是一致的。根据IP段来说,220.181.108.*这个IP段(专用抓取首页IP权重段,爬过的文章或首页,隔日快照)
124.166.232.42这个IP通过nslookp反查也是百度的蜘蛛。
我们拿到这些数据除了看看,还能干吗呢?
如果你做了蜘蛛池或者做了引蜘蛛的操作,那就看下来IP多的到底是多少,一般情况下,只有220.181.108.*等网段IP过来才能被收录,如果这些IP不过来,那怎么收录呢?
如果你的网站出现很多莫名其妙的路径的IP,赶紧去堵住漏洞或者网站做上安全防护,因为你被人用工具扫了。
如果日志里过多的404错误,检查下你的网站内部是不是因为某些原因出现死链,或者是因为改版出现链接失效,记得把这些链接提交到站长工具死链提交工具里。
另外,这网段的IP是收录的前提,有这些IP过来才有可能被收录,但不是一定收录。请注意理解意思,还有一点值得注意的是robots的合理应用。
文章首发运营笔记。
- hadoop实战 -- 网站日志KPI指标分析
- Spark SQL 笔记(11)——实战网站日志分析(2)统计结果入库
- hadoop 实战——网站日志数据分析
- seo实战密码之网站日志分析详解
- 基于SparkSQL的网站日志分析实战
- Spark SQL 笔记(13)——实战网站日志分析(3)按照流量统计TopN
- Spark SQL 笔记(15)——实战网站日志分析(5)数据可视化
- HDInsight-Hadoop实战(一)网站日志分析
- Spark SQL 笔记(10)——实战网站日志分析(1)
- Spark SQL 笔记(14)——实战网站日志分析(4)代码重构之删除指定日期已有的数据
- spark实战之网站日志分析
- Spark SQL 笔记(12)——实战网站日志分析(3)按照地市统计结果
- MapReduce实战--分析apatch日志访问页面大小
- 用户日志分析系统实战(二)
- 疑惑?实战演示疑惑 mysql insert到底加什么锁
- 10分布式数据仓库 HIVE -- HIVE案例实战1 apache common日志分析
- Spark 10 Spark SQL 实战:日志分析(三)结果可视化
- 日志分析工具Awstats实战之Apache篇-多站点日志分析
- (3)Storm实时日志分析实战--编码实现
- 网站数据统计分析之一:日志收集原理及其实现