Python对多属性的重复数据去重
2018-01-10 14:18
295 查看
python中的pandas模块中对重复数据去重步骤:
1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。
注释:
如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。
具体实例如下:
[plain] view
plain copy
>>> import pandas as pd
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}
>>> frame=pd.DataFrame(data)
>>> frame
pop state
0 a 1
1 b 1
2 c 2
3 d 2
>>> IsDuplicated=frame.duplicated()
>>> print IsDuplicated
0 False
1 False
2 False
3 False
dtype: bool
>>> frame=frame.drop_duplicates(['state'])
>>> frame
pop state
0 a 1
2 c 2
>>> IsDuplicated=frame.duplicated(['state'])
>>> print IsDuplicated
0 False
2 False
dtype: bool
>>>
1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。
注释:
如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。
具体实例如下:
[plain] view
plain copy
>>> import pandas as pd
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}
>>> frame=pd.DataFrame(data)
>>> frame
pop state
0 a 1
1 b 1
2 c 2
3 d 2
>>> IsDuplicated=frame.duplicated()
>>> print IsDuplicated
0 False
1 False
2 False
3 False
dtype: bool
>>> frame=frame.drop_duplicates(['state'])
>>> frame
pop state
0 a 1
2 c 2
>>> IsDuplicated=frame.duplicated(['state'])
>>> print IsDuplicated
0 False
2 False
dtype: bool
>>>
相关文章推荐
- Python对多属性的重复数据去重
- Python对多属性的重复数据去重实例
- 在pandas中,使用frame.drop_duplicates(['state'])去掉多属性数据中重复行
- Python 删除列表中的重复数据
- ###Springmvc封装复杂表单数据:表单提交多个实体类的参数【对象类型参数,自动封装】name属性值不能重复。和实体类属性名一致
- 6.9Python面向对象(9):属性访问器与数据安全
- Python 删除列表中的重复数据
- 【python】详解类class的属性:类数据属性、实例数据属性、特殊的类属性、属性隐藏(二)
- python list排序(正倒)以及获取重复数据
- Python数据分析-数据处理-重复值处理
- 【再回首Python之美】【类】类数据属性和实例数据属性的基本使用
- 去除字符串重复数据 分类: python基础学习 2013-08-08 17:43 171人阅读 评论(0) 收藏
- python Django批量导入不重复数据
- EXTJS的JsonStore中取数据和idProperty属性重复
- Python操作MySQL数据库,插入重复数据
- python/pandas/numpy数据分析(十)-函数, rank,重复索引
- python 移除重复数据
- Linq使用Distinct删除重复数据时如何指定所要依据的成员属性zz
- Python 小练习 剔除列表内重复数据