利用文件哈希值进行排重的Python脚本
2013-10-20 16:19
169 查看
下载了些图片,里面有少量重复的。写了个脚本,给每个文件算SHA-256,哈希值重复的就删掉。
import re, sys, os, hashlib folder = 'C:\\XXX\\'; dicFile = {} n = 0; for filename in sorted(os.listdir(folder)): path = folder + filename; sig = hashlib.sha256(open(path, 'rb').read()).hexdigest() if(sig not in dicFile): dicFile[sig] = filename; else: print(filename + " is dupe with " + dicFile[sig]); os.remove(path); n = n + 1; print("total deleted: " + str(n));
相关文章推荐
- QGis 利用Python Console编写脚本进行批量处理
- 利用Python脚本进行删除不需要的行数
- 利用python调用elasticsearch-api来分析数据并作图进行日报邮件发送
- Windows下为了R的读入利用python对csv文件进行编码转换
- Python 提醒:利用下载的zip文件进行安装第三方包如果出现import错误,有可能是下载的包不完整
- 利用python的sklearn开源包进行文本挖掘
- Python脚本利用openoffice将office文档转为html或者pdf。
- 利用Python-caffe进行图像分类,卷积核的显示,激活值特征图的显示以及全连接层直方图显示
- 在arcgis使用python脚本进行字段计算时对中文的处理方案
- 利用python进行数据分析-pandas入门3
- 在arcgis使用python脚本进行字段计算时是如何解决中文问题的
- 利用Python Pandas进行数据预处理-Pandas基本的数据结构
- 利用python进行识别相似图片(二)
- 如何利用cURL和python对服务端和web端进行接口测试
- 利用nodemcu以及Python数据处理进行的wifi的局域网远程温度测量
- 利用 Python 进行数据分析(八)pandas 基本操作(Series 和 DataFrame)
- opencv for python(8) 利用颜色空间转换进行物体跟踪
- 利用php利用root权限执行shell脚本必须进行以下几个步骤
- [置顶] 利用python进行折线图,直方图和饼图的绘制
- 利用python进行数据分析之pandas库的应用(二)