海量日志数据,提取出某日访问百度次数最多的那个IP
2015-07-25 22:14
555 查看
这道题目 的思路就是 :
先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来
承受不了!然后再对结果排序。
但是,这里有一个问题,怎么把大的文件分成小文件了?
看网友们的博客的时候,大家都说,对IP地址hash 然后再取模 == Hash(IP) % 1000;
然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,
难道,就只有1000个IP地址!!!
可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的
先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来
承受不了!然后再对结果排序。
但是,这里有一个问题,怎么把大的文件分成小文件了?
看网友们的博客的时候,大家都说,对IP地址hash 然后再取模 == Hash(IP) % 1000;
然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,
难道,就只有1000个IP地址!!!
可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的
相关文章推荐
- 使用递归和非递归求f(m,n)
- 各式 Web 前端開發工具整理
- 将make命令输出的warning和error信息输出到文件里
- JavaScript的子集和超集
- Github
- 从源代码安装git
- 3 - 在有序二维数组中查找元素
- median of medians(中位数的中位数)
- 名词概念学习
- codeforces 445 A、B、C、D
- omxpayer 播放rtsp延时(海康摄像机)
- Codeforces Round #313 (Div. 1) Gerald's Hexagon
- qt项目生成exe文件指南
- android使用全局变量的两种方法
- Android RecycleView 实现滑动删除按钮
- PCA(principal component analysis)主成分分析法
- C++ 继承与接口 知识点 小结(二)
- wpf种的各种形状的Fill属性的声明及使用
- 使用 PHP 框架 Yii 访问 MS SQL 的尝试
- 把数组中的n个元素的值分别扩大5倍,要求数组名作为参数。