详解pandas如何去掉、过滤数据集中的某些值或者某些行?
2019-05-25 07:02
2763 查看
摘要在进行数据分析与清理中,我们可能常常需要在数据集中去掉某些异常值。具体来说,看看下面的例子。
0.导入我们需要使用的包
import pandas as pd
pandas是很常用的数据分析,数据处理的包。anaconda已经有这个包了,纯净版python的可以自行pip安装。
1.去掉某些具体值
数据集df中,对于属性appPlatform(最后一列),我们想删除掉取值为2的那些样本。如何做?非常简单。
import pandas as pd
df[(True-df['appPlatform'].isin([2]))]
当然,有时候我们需要去掉不止一个值,这个时候只需要在isin([])的列表中添加。更具体来说,例如,对于appID这个属性,我们想去掉appID=278和appID=382的样本。
df[(True-df['appID'].isin([278,382]))]
另外,我们有时候并不只是考虑某一列,还需要考虑另外若干列的情况。例如,我们需要过滤掉appPlatform=2而且appID=278和appID=382的样本呢?非常简单。
df[(True-df['appID'].isin([278,382]))&(True-df['appPlatform'].isin([2]))]
其实,在这里我们看到,就是由两部分组成的,第一部分就是appID中等于278和382的,另外一部分就是appPlatform中等于2的。两者取逻辑关系 与(&)
2.过滤掉某个范围的值
上面我们是了解了如何取掉某个具体值,下面,我们要看看如何过滤掉某个范围的值。对于数据集df,我们想过滤掉creativeID(第一列)中ID值大于10000的样本。
df[df['creativeID']<=10000]
另外,如果要考虑多列的话,其实和上面一样,将两种情况做逻辑与(&)就可以,不过值得注意的是,每个条件要用括号()括起来。
以上所述是小编给大家介绍的pandas如何去掉、过滤数据集中的某些值或者某些行详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!
您可能感兴趣的文章:
相关文章推荐
- pandas如何去掉、过滤数据集中的某些值或者某些行?
- python pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置,np.where的使用
- ODI如何通过logminer技术从oracle 9i或者10g中抽取增量数据(三)
- 详解如何解决vue开发请求数据跨域的问题(基于浏览器的配置解决)
- 如何去掉a标签的下划线 各种样式详解
- 从网上或者哪里拷贝下来的代码前面总有编号,如何去掉(原创)
- ros如何及时清除障碍物层或者超声波层的的消息 clear_costmap_recovery 代码详解
- (2) 第二章 WCF服务与数据契约 服务契约详解(二)- 如何引用WCF提供的服务
- 如何使用GIST+LIBLINEAR分类器提取CIFAR-10 dataset数据集中图像特征,并用测试数据进行实验
- php 参数过滤、数据过滤详解
- pandas dataframe 做机器学习训练数据=》直接使用iloc或者as_matrix即可
- 如何对某些门户网站进行过滤?
- List或者arraylist去掉重复数据(对象也可以)
- 利用python如何处理nc数据详解
- 子线程如何获取和设置 或者控制窗口实时显示数据(网上的资料经个人整理拼凑总结)
- iOS如何过滤网络数据中的换行符
- 如何优化一段VBA:去掉有且只有2个或者1个数字的行
- 数据分析之Pandas(二):索引、过滤 、算术运算、 函数应用和映射
- 如何在显示前过滤数据,使得Grid只列出符合逻辑要求的数据?
- ajax 原生代码 已封装get,post,封装 附加 Promise 如何请求数据 详解