Atitit.论图片类型 垃圾文件的识别与清理 流程与设计原则 与api概要设计 v2 pbj
2015-12-17 18:35
375 查看
Atitit.论图片类型 垃圾文件的识别与清理 流程与设计原则 与api概要设计 v2 pbj
1. 俩个问题::识别垃圾文件与清理策略1
2. 如何识别垃圾图片1
2.1. 体积过小文件<10kb1
2.2. 增加扩展名对于无扩展名文件1
2.3. 清理非图片(bmp,jpg,jpeg,png)的文件2
2.4. 尺寸过小图片(210*150)2
2.5. 清理广告图片(高度宽度不成比例)超长超宽图片2
2.6. 清理重复图片(此结果不能加入指纹库)2
2.7. 非本类别的图片(人工识别)2
3. 垃圾图片文件指纹库3
3.1. 根据垃圾文件指纹库(模式结果固化)3
3.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3
4. 人工识别垃圾图片策略3
5. 清理策略3
6. Code3
6.1. 文件去重4
import com.attilax.clr.imp.MoveExcuter;
import com.attilax.clr.imp.NoPicReconer;
import com.attilax.clr.imp.tooMinSizePicClrerPartImp;
import com.attilax.clr.imp.tooMiniPixPicClrerPartImp;
public class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
c.dir="D:\\ati\\p2015\\pic_p";
NoExtnameCheckerImp neImp=new NoExtnameCheckerImp();
c.PreProcessor=neImp;
c.traveDir(c.dir);
System.out.println("--f");
转载请注明来源: http://www.cnblogs.com/attilax/
不能like的pic
误删除的文件专门集中放在isho_manu文件夹中,人工处理
移动到制定文件夹(推荐)
public class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
//c.GabFileRecongers.add(new NoPicReconer());
tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();
ClrerPartImp.dir=c.dir;
ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";
c.IClrerParts.add(ClrerPartImp);
tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();
tmsc.dir=c.dir;
tmsc.targetDir="d:/ati/tooMinSize_files";
c.IClrerParts.add(tmsc);
c.traveDir(c.dir);
System.out.println("--f");
}
1. 俩个问题::识别垃圾文件与清理策略1
2. 如何识别垃圾图片1
2.1. 体积过小文件<10kb1
2.2. 增加扩展名对于无扩展名文件1
2.3. 清理非图片(bmp,jpg,jpeg,png)的文件2
2.4. 尺寸过小图片(210*150)2
2.5. 清理广告图片(高度宽度不成比例)超长超宽图片2
2.6. 清理重复图片(此结果不能加入指纹库)2
2.7. 非本类别的图片(人工识别)2
3. 垃圾图片文件指纹库3
3.1. 根据垃圾文件指纹库(模式结果固化)3
3.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3
4. 人工识别垃圾图片策略3
5. 清理策略3
6. Code3
6.1. 文件去重4
1. 俩个问题::识别垃圾文件与清理策略
2. 如何识别垃圾图片
2.1. 体积过小文件<10kb
2.2. 增加扩展名对于无扩展名文件
package com.attilax.clr;import com.attilax.clr.imp.MoveExcuter;
import com.attilax.clr.imp.NoPicReconer;
import com.attilax.clr.imp.tooMinSizePicClrerPartImp;
import com.attilax.clr.imp.tooMiniPixPicClrerPartImp;
public class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
c.dir="D:\\ati\\p2015\\pic_p";
NoExtnameCheckerImp neImp=new NoExtnameCheckerImp();
c.PreProcessor=neImp;
c.traveDir(c.dir);
System.out.println("--f");
2.3. 清理非图片(bmp,jpg,jpeg,png)的文件
Gif js2.4. 尺寸过小图片(210*150)
2.5. 清理广告图片(高度宽度不成比例)超长超宽图片
长宽比大于2的图片2.6. 清理重复图片(此结果不能加入指纹库)
部分重复文件是广告文件,所以容易重复2.7. 非本类别的图片(人工识别)
作者:: 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com转载请注明来源: http://www.cnblogs.com/attilax/
3. 垃圾图片文件指纹库
3.1. 根据垃圾文件指纹库(模式结果固化)
3.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)
4. 人工识别垃圾图片策略
不好的isho不能like的pic
误删除的文件专门集中放在isho_manu文件夹中,人工处理
5. 清理策略
生成清理脚本(或者直接java程序模式)移动到制定文件夹(推荐)
6. Code
AtibrowPrjpublic class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
//c.GabFileRecongers.add(new NoPicReconer());
tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();
ClrerPartImp.dir=c.dir;
ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";
c.IClrerParts.add(ClrerPartImp);
tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();
tmsc.dir=c.dir;
tmsc.targetDir="d:/ati/tooMinSize_files";
c.IClrerParts.add(tmsc);
c.traveDir(c.dir);
System.out.println("--f");
}
6.1. 文件去重
DeduliAbs_ByMoveToNewFolder.java相关文章推荐
- siege压测工具的安装与使用
- Ext.js5的数组表格(3)
- VC++或QT下 高精度 多媒体定时器
- 学习Canvas绘图与动画基础 为多边形着色(三)
- 关于nil 跟NULL的区别
- atitit.网络文件访问协议.unc smb nfs ftp http的区别
- MapReduce Kmeans聚类算法
- atitit.网络文件访问协议.unc smb nfs ftp http的区别
- atitit.网络文件访问协议.unc smb nfs ftp http的区别
- python之Linux开发环境安装
- iOS 从摄像头获取YUV420SP数据
- android 动画之 属性动画propertyAnimator(一)
- sqlite基础语法
- bootstrap学习网站
- 在项目中常见的问题,是时候总结点常见的小的问题了
- java面向对象
- java类型转化之Hbase ImmutableBytesWritable类型转String
- python 快速排序
- OAuth
- 斯坦福机器学习课程 Exercise 习题二