java file 海量文件处理
2016-03-10 16:05
495 查看
最近在做一个文件处理的系统。大概就是扫描一个文件里面所有的子文件。(文件可能有几百万条,文件不大)
如果有新文件进来。就把这个文件上传到别的服务器上去。然后在服务器在把文件转换数据入库。xml转换成java对象入库。这这里有很多种实现方式。用smb,socket....
在测试中发现性能瓶颈在扫描文件的操作中。当文件夹里面的文件多了。所消耗的时间非常多。
第一种做法:单线程扫描文件夹里面的文件file.listFiles()。当文件夹里面有10多万子文件的时候。发现速度非常慢.有时候还出现堆溢出的现象。后来就改用了file.list();只取出了文件的名称数组
第二种做法:采用多线程分割file.list()数组。发现速度提升了一点。但是不是很多。有可能是我测试机的配置太差了,奔腾,2G内存的机子。
第三种做法:连多线都用上了。性能还是达不到标准啊。怎么办了。结果我用了filefilter试了一下。在刚开始的时候我就知道filefilter可以过滤文件。但是一直对海量文件处理没什么经验。结果。用filefilter过滤文件试了下。本地扫描12w文件只需1.1秒。基本上是。1秒每万条。我想应该filefilter。java底层封装了。filefilter的实现,。所以才有这么快。
如果有新文件进来。就把这个文件上传到别的服务器上去。然后在服务器在把文件转换数据入库。xml转换成java对象入库。这这里有很多种实现方式。用smb,socket....
在测试中发现性能瓶颈在扫描文件的操作中。当文件夹里面的文件多了。所消耗的时间非常多。
第一种做法:单线程扫描文件夹里面的文件file.listFiles()。当文件夹里面有10多万子文件的时候。发现速度非常慢.有时候还出现堆溢出的现象。后来就改用了file.list();只取出了文件的名称数组
第二种做法:采用多线程分割file.list()数组。发现速度提升了一点。但是不是很多。有可能是我测试机的配置太差了,奔腾,2G内存的机子。
第三种做法:连多线都用上了。性能还是达不到标准啊。怎么办了。结果我用了filefilter试了一下。在刚开始的时候我就知道filefilter可以过滤文件。但是一直对海量文件处理没什么经验。结果。用filefilter过滤文件试了下。本地扫描12w文件只需1.1秒。基本上是。1秒每万条。我想应该filefilter。java底层封装了。filefilter的实现,。所以才有这么快。
相关文章推荐
- JDK 源码设计 时间换空间 & 空间换时间
- Exception in thread "main" java.lang.LinkageError错误的解决
- myeclipse使用maven教程
- 《深入理解java虚拟机》学习笔记4——Java虚拟机垃圾收集器
- myeclipse 上安装 Maven3
- 各种 Java 的序列化库的性能比较测试结果
- eclipse JRebel 插件
- MyBatis-spring和spring JDBC批量插入Mysql的效率比较
- struts2 ognl java.lang.NoSuchMethodException Ljava.lang.String
- java clinit 死锁
- java.lang.NoSuchMethodError: javax.xml.ws.WebFault.messageName()Ljava/lang/Strin
- java 多线程下载图片
- java json lib 日期
- java cas
- 你能不能谈谈,java GC是在什么时候,对什么东西,做了什么事情?”
- Eclipse快捷键 10个最有用的快捷键
- java.lang.UnsupportedOperationException
- java class修改
- 深入理解Java虚拟机笔记---方法调用
- Java 代理使用及代理原理