您的位置:首页 > 大数据

数据挖掘学习笔记(4)

2014-03-22 21:43 211 查看
网站日志分析相关知识:

W3C扩展日志文件格式常用属性说明表
字段名描述
客户端IP地址访问服务器的任何客户端的IP地址
用户名称访问服务器的用户名称
服务名在客户机上运行的Internet服务
服务器名称生成日志项的服务器名称
服务器IP生成日志项的服务器IP地址
服务器端口商户端连接到的端口号
方法客户端试图执行的操作(例如,GET命令)
ServiceStatus简单邮件传输协议(SMTP)回复代码
URI查询客户端试图执行的查询(如果有)。在日志中记录了客户搜索以进行匹配的一个或多个搜索字符串
协议状态以HTTP术语表示的操作的状态
发送的字节数服务器发送的字节数
接收的字节数服务器接收的字节数
所用时间操作所需的时间长短
协议版本客户端使用的协议(HTTP, FTP)版本。对于HTTP,是HTTP1.0或HTTP1.1
主机计算机名
用户代理在客户端使用的浏览器
Cookie发送或接收的Cookie的内容(如果有)
引用站点将用记指向当前站点的站点
常用服务器错误代码:

200——OK

206——Partial Content,部分内容

301——Moved Permanently,用户所访问的某个页面url已经做了301重定向(永久性)处理

302——Found,内容被暂时重定向,已经找到

304——Not Modified,未修改,采用缓存(cache)拷贝

401——Unauthorised(password required),需要密码

403——Forbidden,不可访问

404——Not Found,没有内容

408——Request Timeout,请求超时

500——Server Error,通常是服务器发生错误,比如在维护或者下线了

以上几篇数据挖掘学习笔记都摘自于谭磊的《大数据挖掘》中,由电子工业出版社出版,该书以最通俗易懂的介绍性语言来介绍数据挖掘相关概念,原理,算法以及在实际生活中的应用,所讲知识全面易懂,思路清晰,从头读到尾一点不觉得乏味,个人觉得是一本相当不错的书,极力推荐各位有兴趣的朋友去看看。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据挖掘 大数据