网页关键字碰到的问题
2015-10-16 17:34
239 查看
生成了一个大的日志文件3.3G。文件结构如下:
要提取coding跟length字段进行分析: 将所有的coding字段重复的length加和,然后除以总的length,日志太大,不能用简单的cpp实现(外部排序实现起来必定要花很多时间)
步骤如下:
先将coding跟length合并为一行,用cpp或者Python都行
然后外部排序,这里用系统自带的sort命令
然后再借鉴uniq命令,逐行与上一行对比,如果重复则记下来长度统计,可以用随便cpp或者Python什么语言。
收获蛮大的~~happy
url:... src_ip&src_port:... dst_ip&dst_port:... gzip_deflate_hex_coding:... gzip_deflate_length:...
要提取coding跟length字段进行分析: 将所有的coding字段重复的length加和,然后除以总的length,日志太大,不能用简单的cpp实现(外部排序实现起来必定要花很多时间)
步骤如下:
先将coding跟length合并为一行,用cpp或者Python都行
然后外部排序,这里用系统自带的sort命令
然后再借鉴uniq命令,逐行与上一行对比,如果重复则记下来长度统计,可以用随便cpp或者Python什么语言。
收获蛮大的~~happy
相关文章推荐
- mac下修改程序默认打开方式
- iOS中 用FMDB封装一个SQLite数据库
- 黑马程序员——高新技术--泛型
- iOS中 用FMDB封装一个SQLite数据库
- CUDAExample-0-clock
- 用kindeditor 报:org.apache.catalina.connector.RequestFacade cannot be cast to org.springframework.web.multipart.MultipartHttpServletRequest
- 可扩展的Web系统和分布式系统(Scalable Web Architecture and Distributed Systems)
- js最新手机号码、身份证正则表达式
- 每天一个linux命令(7):mv命令
- Merge Sorted Array
- 用TransactionProxyFactoryBean实现spring的声明式事务
- iOS开发总结之代码规范
- Java反射工具包
- [Leetcode]Container With Most Water
- 17.3.4 Replicating Different Databases to Different Slaves 复制不同的数据库到不同的Slaves
- 每天一个linux命令(6):rmdir 命令
- 演示java内存泄漏(通过HashSet实现)
- 有关ie兼容
- TextView控件和属性
- Apache JMeter应用中对于中文乱码的主要解决方法