Mongodb 删除重复数据的几个方法
2017-07-10 17:52
344 查看
Mongodb 删除重复的数据
最近在处理一些专利数据,从专利局爬数据的时候,总会间隙性出现中断,为了保证数据的完整性就进行了一些重复下载。将数据从几万个Excel表格中导入Mongodb后,第一步就是要去掉重复的数据。我的第一反应是写个Python小脚本,结果在执行的时候,由于数据量确实比较大,有十几万条,执行了半个小时仍不见结束。这时候才想着使用数据库的查询命令是不是可以实现去重复的功能。简单搜索实践后总结如下:1. 使用Python小脚本去重复的代码:
# -*- coding: utf-8 -*- # # @Author yxiao@aliyun.com # import os import io import sys from pymongo import * reload(sys) sys.setdefaultencoding( "utf-8" ) client = MongoClient(address, port) db_data = client.db_name collection_patent = db_data.collection_name patents = {} count = 0 for patent_record in collection_patent.find({"_id":{"$ne":0}}): if patent_record['public_no'] not in patents.keys(): patents[patent_record['public_no']] = patent_record else: count += 1 collection_patent.delete_one({"public_no":patent_record['public_no']}) print count
2.使用
ensureIndex建立索引来删除重复记录,此命令适用于
Mongodb 3.0以下版本。在
Mongodb3.0以上版本,
ensureIndex已经被
createIndex取代了,同时
dropDups选项也已经被移除了,所以不能再使用以上命令来去掉重复数据:
db.your_collection.ensureIndex({public_no:1}, {unique: true, dropDups: true})
3.下面提供一种比较简单的巧方法:
将数据导出为JSON格式存档:
mongoexport.exe -d database_name -c collection_name -o filename.json
清空当前集合的数据:
db.yourcollection.remove({})
新建唯一索引:
db.yourcollection.createIndex({public_no:1}, {unique:true})
导入之前存档的JSON文件数据:
mongoimport -d database_name -c collection_name --upsert filename.json
用到的几个参数选项说明:
-d 数据库名
-c 集合名
-o 导出后的目录及文件名
--upsert 会根据唯一索引去掉重复记录
相关文章推荐
- SQL Server中删除重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- SQL Server中删除重复数据的几个方法
- Sql Server实用操作-删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- java中删除数据库中重复数据的几个方法
- SQL Server中删除重复数据的几个方法
- 删除数据库中重复数据的几个方法
- [转帖]记录:删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- 删除数据库中重复数据的几个方法
- SQL Server中删除重复数据的几个方法