您的位置:首页 > 其它

网页关键字碰到的问题

2015-10-16 17:34 239 查看
生成了一个大的日志文件3.3G。文件结构如下:

url:...
src_ip&src_port:...
dst_ip&dst_port:...
gzip_deflate_hex_coding:...
gzip_deflate_length:...


要提取coding跟length字段进行分析: 将所有的coding字段重复的length加和,然后除以总的length,日志太大,不能用简单的cpp实现(外部排序实现起来必定要花很多时间)

步骤如下:

先将coding跟length合并为一行,用cpp或者Python都行

然后外部排序,这里用系统自带的sort命令

然后再借鉴uniq命令,逐行与上一行对比,如果重复则记下来长度统计,可以用随便cpp或者Python什么语言。

收获蛮大的~~happy
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: