让文本飞 linux shell脚本数据挖掘实践,统计出出现次数top3的url。
2012-08-28 22:27
447 查看
让文本飞 linux shell脚本数据挖掘实践
参考书:Linux Shell 脚本攻略
对文件中的以下网址排序,统计出出现次数排名top3的网址。
文件名:
website
shell脚本如下:
键入websort
输出
转载请注明出处http://write.blog.csdn.net/postlist
参考书:Linux Shell 脚本攻略
对文件中的以下网址排序,统计出出现次数排名top3的网址。
文件名:
website
http://www.google.com http://www.baidu.com http://www.sina.com http://www.bjtu.edu.cn http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.bjtu.edu.cn http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.qq.com http://www.hao123.com http://www.163.com http://youku.com http://taobao/com http://www.bjtu.edu.cn http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.codeproject.com http://www.csdn.com http://www.sohu.com http://www.yahoo.com http://mail.163.com http://www.qq.com http://www.hao123.com http://www.163.com http://youku.com http://taobao/com
shell脚本如下:
#!/bin/bash #文件名:websort #用途:计算文件中网址出现的次数 foo() { if [ $# -ne 1 ]; then echo "Usage:$0 filename";#$0脚本名字 exit -1 fi filename=$1#函数第一个参数 egrep -o "http://[a-zA-Z0-9.]+\.[a-zA-Z]{2,3}" $filename | \ #网站出现的次数统计,用到关联数组 awk '{ count[$0]++ }#$0代表每行,只需遍历一次 END{ printf("%-30s%s\n","wensite","count"); for(ind in count) { printf("%-30s%d\n",ind,count[ind]); } }' } #输出出现次数排名前三位的网址 foo website | sort -nrk 2 | head -n 3 >websorted2.txt;
键入websort
输出
http://www.yahoo.com 5 http://www.sohu.com 5 http://www.csdn.com 5
转载请注明出处http://write.blog.csdn.net/postlist
相关文章推荐
- Spark Streaming从Kafka中获取数据,并进行实时单词统计,统计URL出现的次数
- linux统计出现次数top3的url
- HDU 3065 病毒侵袭持续中 ac自动机 统计文本串的单词和其出现的次数。
- java统计文本中某个字符串出现的次数
- 文本数据挖掘实践
- python统计文本中单词出现次数
- awk统计文本中同一数据出现的次数排序(转)
- go语言之map练习(二):编写一个程序wordfreq程序,统计输入文本中每个单词出现的频率(次数)
- OpenCL-- 统计给定单词在文本中出现次数
- Linux shell 统计单词出现的次数、替换
- shell统计文本中单词的出现次数
- linux实现针对文本统计字母出现的次数(所有的可打印的字符)
- 统计txt文本中各个字符出现的频率和次数
- 第0004道练习题_Python统计文本里单词出现次数
- 宏的使用 -- 定制菜单 -- 让Word统计文本种文字出现的次数
- 用python统计文本里的单词出现次数最多的10个
- 利用PYTHON快速统计数字|单词在文本中出现的次数
- 用hash_map统计出现次数最多的前N个URL
- C#统计给定的文本中字符出现的次数,使用循环和递归两种方法