您的位置:首页 > 理论基础 > 计算机网络

2015百度一道面试题引发的思考(shell脚本和网络)

2014-12-17 09:05 561 查看
原文 http://blog.csdn.net/chhuach2005/article/details/40044863


前言

百度2面出了这样一题(前篇博文求职之路中有提到),给你一个log文件,文件中有3列,分别为ip,访问时间,
和访问内容。你用shell脚本找出访问频率最高的10个IP。

因为平时用shell脚本也就是配置些文件,自动化部署一些软件,突然遇到这个问题。还真不知道怎么弄呢,反正知道要排序,当时就没答出来。回来在网上找了下,网上有很多类似的解答。下面给出几种解答方式,一一道来啊。


一、log格式分析

就利用ubuntu httpserver 安装配置(apache+mysql+php) 中部署的httpsever产生的log文件,目录为:/var/log/apache2/access.log
.log格式如图1所示



图1 httpseverlog格式


二、解答


解答一

shell脚本:cat /var/log/apache2/access.log | awk -F - '{print $1}' | sort | uniq -c | sort -rn

或者直接:awk -F - '{print $1}' /var/log/apache2/access.log | sort | uniq -c | sort -rn

awk -F - '{print $1}' 是一行中以-为分隔符打印第一列;

sort 排序(默认是升序,降序用sort -r);

uniq -c 计数并去重(仅去重用uniq即可)

sort -rn 以计数降序排序

结果如图2所示第一列为访问次数 第二列是ip;



图2 找出访问量最大的几个IP


解答二

shell 脚本:cut -d- -f 1 /var/log/apache2/access.log |sort| uniq -c | sort -rn | head -10

cut -d- -f 1 /var/log/apache2/access.log 其中-d-表示以 - 为分隔符; -f 1表示打印第一列

后面的和解答1都一样 无需解释,结果和解答一完全一样。


三、补充

下面再补充一点啊

1)列出某一ip访问了哪些页面

grep ^223.3.52.172 /var/log/apache2/access.log | awk '{print $1,$7}' | head -30

说明^223.3.52.172 表示以该ip开始的一行,后面的上面都解释过了

结果如图3所示



图3 某一ip访问过的页面

某一页面被访问的次数:grep "/file1" /var/log/apache2/access.log | wc -l

ip访问总量 :awk -F - '{print $1}' /var/log/apache2/access.log | wc -l

参考 /article/1281271.html学习并列举一下哈

1、查看当天有多少个IP访问:

awk '{print $1}' log_file|sort|uniq|wc -l

2、查看某一个页面被访问的次数;

grep "/index.php" log_file | wc -l

3、查看每一个IP访问了多少个页面:

awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file

4、将每个IP访问的页面数进行从小到大排序:

awk '{++S[$1]} END {for (a in S) print S[a],a}' log_file | sort -n

5、查看某一个IP访问了哪些页面:

grep ^111.111.111.111 log_file| awk '{print $1,$7}'

6、去掉搜索引擎统计当天的页面:

awk '{print $12,$1}' log_file | grep ^\"Mozilla | awk '{print$2}' |sort | uniq | wc -l

7、查看2009年6月21日14时这一个小时内有多少IP访问:

awk '{print $4,$1}' log_file | grep 21/Jun/2009:14 | awk '{print$2}'| sort | uniq | wc -l
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: