您的位置：首页 > 运维架构 > Shell

让文本飞 linux shell脚本数据挖掘实践，统计出出现次数top3的url。

2012-08-28 22:27 447 查看

让文本飞 linux shell脚本数据挖掘实践

参考书：Linux Shell 脚本攻略

对文件中的以下网址排序，统计出出现次数排名top3的网址。

文件名：

website

http://www.google.com http://www.baidu.com http://www.sina.com http://www.bjtu.edu.cn http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.bjtu.edu.cn http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.qq.com http://www.hao123.com http://www.163.com http://youku.com http://taobao/com http://www.bjtu.edu.cn http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.qq.com http://www.hao123.com http://www.163.com http://youku.com http://taobao/com

shell脚本如下：

#!/bin/bash
#文件名:websort
#用途:计算文件中网址出现的次数
foo()
{
if [ $# -ne 1 ];
then
echo "Usage:$0 filename";#$0脚本名字
exit -1
fi

filename=$1#函数第一个参数

egrep -o "http://[a-zA-Z0-9.]+\.[a-zA-Z]{2,3}" $filename | \
#网站出现的次数统计，用到关联数组
awk '{ count[$0]++ }#$0代表每行，只需遍历一次
END{ printf("%-30s%s\n","wensite","count");
for(ind in count)
{ printf("%-30s%d\n",ind,count[ind]); }
}'
}
#输出出现次数排名前三位的网址
foo website | sort -nrk 2 | head -n 3 >websorted2.txt;

键入websort

输出

http://www.yahoo.com          5
 http://www.sohu.com           5
 http://www.csdn.com           5

转载请注明出处http://write.blog.csdn.net/postlist

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航