您的位置:首页 > 其它

海量日志数据,提取出某日访问百度次数最多的那个IP

2015-07-25 22:14 555 查看
  这道题目 的思路就是 :

    先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来

承受不了!然后再对结果排序。

 

   但是,这里有一个问题,怎么把大的文件分成小文件了?

   看网友们的博客的时候,大家都说,对IP地址hash 然后再取模  == Hash(IP) % 1000;

   然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,

   难道,就只有1000个IP地址!!!

   可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: