您的位置:首页 > 运维架构 > 网站架构

分析网站访问日志

2012-07-22 23:24 218 查看
互联网发展的初级阶段,分析网站访问日志几乎是掌握网站运行状况的唯一方式。如今我们有很多站长工具,比如百度统计、百度站长、谷歌站长、谷歌分析、腾讯统计等等,这些专业的站长工具可以分析我们网站的IP、PV、有效来源、访客分布、页面分布、跳出率等等指标,并提供各种分析报告,可以有效帮助我们掌握网站的状态。尽管如此,分析原始访问日志对站长仍然有重要意义。

站长工具有自身的缺陷,无法完全统计到网站到访的准确状况,另一方面站长工具也会过滤掉它认为不重要的记录,比如百度统计不会统计搜索引擎的到访状况。如果我们要看看自己的网站是否收到搜索引擎的青睐,蜘蛛到访的频率如何,那么分析网站日志是最好的方法。

V9zz偶尔会看下自己的网站日志,下面将以apache为例,讲解日志的简单分析,其他服务器如nginx、iis可以自己查找文档。我的http服务器是apache,apache的日志保存在access_log中,当然很多人给自己的域名配置了独立的访问日志,比如v9zz将v9zz.com的访问日志设置为,v9zz.com-access_log,这些日志保存在apache的logs目录下,centos、redhat、fedora等系统放在/etc/httpd/logs下,ubuntu等放在/etc/apache2/logs下,如果你做了特殊配置,需要自己找到配置文件。

V9zz截取了主站的访问日志(点击查看大图):





首先我们看到有很多IP,如果你的网站很久才有一个IP请求,那么说明人气不高,网站还处于很原始的阶段。从V9zz目前的状况来看,网站的到访状况还不错,处于发展上升阶段。下面分析下这几个IP的来源,大家可以去一些网站查询,我是在ip138上查询的:
220.181.108.104,20.181.108.81,220.181.108.94 : 北京市(南三环洋桥电信机房) 电信 ,经百度搜索,基本确认是百度蜘蛛。
124.115.0.140,124.115.0.105,124.115.4.201,124.115.0.17:陕西省西安市 电信,经百度搜索,基本确认是腾讯搜搜的蜘蛛。
124.126.5.67:北京市 中国电信北京研究院 ,个人访客?蜘蛛?不太确定。
116.238.133.145:上海市 电信,可能客人访问者,但请求有些奇怪。
203.208.60.167,203.208.60.169:北京市 飞翔人信息技术有限公司,Google中国
61.144.246.168:广东省深圳市 电信,我自己。
38.101.148.126:美国,谷歌,bing?谷歌了下,位于华盛顿哥伦比亚特区,没准是奥巴马呢。
112.90.85.200:广东省 联通,这是个蜘蛛,但不知道是什么,企鹅的?多次访问我的站,几乎每天必来。
174.129.237.157,美国,经谷歌查询是美国华盛顿州金县西雅图市亚马逊公司,也是蜘蛛。
184.106.154.230,美国,加州。谷歌?查了可能是一所大学的。

通过分析,这点时间段,我的网站到访量还是比较丰富的,有个人访客,当然大部分是蜘蛛。蜘蛛频繁到访说明我的网站已有收录的价值。说实话,一直坚持原创,我的网站收录状况一直很好,只是百度一直对我不太友善,收录了也不放出。但是我每天都能看到百度蜘蛛到我的服务器上来,相信走出沙盒只是时间问题。

对于新手而言,分析自己的日志可以让自己掌握网站的基本信息,同时也能锻炼自己的分析能力。当然了,更为高阶的方法是自己写脚本,或者使用高级工具分析日志,这里讲的是最原始的方法。未来v9zz将写一些脚本,或者开发一些小工具,和大家分享,深入讨论日志分析。

>>v9zz原创(原文地址)转载请保留。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: