您的位置：首页 > 编程语言 > Python开发

如何在 Python 数据中清洗常用 4 板斧？

2019-10-18 10:12 519 查看

作者 | 周志鹏
责编 | 刘静
这是Python数据分析实战基础的第三篇内容，主要对前两篇进行补充，把实际数据清洗场景下常用但零散的方法，按增、删、查、分四板斧的逻辑进行归类，以减少记忆成本，提升学习和使用效率。

首先，导入案例数据集。因为案例数据存放在同一个Excel表的不同Sheet下，我们需要指定sheetname分别读取：

下面开始清洗的正餐。

增——拓展数据维度

1.1 纵向合并

这三个sheet的数据，维度完全一致（每列数据都是一样），纵向合并起来分析十分方便。说到纵向合并，concat大佬不请自来，他的招式简单明了——pd.concat([表1，表2，表3])，对于列字段统一的数据，我们只需把表依次传入参数：

concat大佬继续说到：“其实把我参数axis设置成1就可以横向合并.."说时迟那时快，我一个箭步冲上去捂住他的嘴巴“牛逼的人做好一件事就够了，横向的就交给merge吧~”

小Z温馨提示：pandas中很多函数功能十分强大，能够实现多种功能，但对于萌新来说，过多甚至交叉的功能往往会造成懵B的状态，所以这里一种功能先只用一种方式来实现。

1.2 横向合并

横向合并涉及到连接问题，为方便理解，我们构造一些更有代表性的数据集练手：

两个DataFrame是两张成绩表，h1是5位同学的数学、英语、语文成绩，h2是4位同学的篮球和舞蹈成绩，现在想找到并合并两张表同时出现的同学及其成绩，可以用merge方法：

我们来详解一下merge的参数，left和rgiht分别对应着需要连接的左表和右表，这里语数外成绩表是左表，篮球、舞蹈成绩是右表。

left_index与right_index是当我们用索引（这两个表的名字在索引中）连接时指定的参数，设置为on表示用该表的索引作为连接的条件（或者说桥梁）。假设姓名是单独的一列值，且需要根据姓名进行匹配，那就需要用“left_on = '姓名',right_on = '姓名'”，我们可以分别指定左表的匹配列和右表的匹配列。

how是指定连接方式，这里用的inner，表示我们基于姓名索引来匹配，只返回两个表中共同（同时出现）姓名的数据。下面详解一下inner还涉及到的其他参数——left,right,outer。

左右连接（left和right）：

左连接（left）和右连接（right），我们可以直观理解为哪边的表是老大，谁是老大，就听谁的（所有行全部保持），先看左连接，左表h1原封不动，右边根据左表进行合并，如果存在相关的名字，就正常返回数据，如果不存在（韩梅梅、李雷），就返回空(NAN)值；右连接就是听右表的，左表有则返回无则为空。

外连接（outer）：

外连接是两张表妥协的产物，我的数据全保留，你的也全保留，你有我无的就空着，你无我有的也空着。

02 删——删空去重

2.1 删空

在一些场景，源数据的缺失（空值）对于分析来说是干扰项，需要系统的删除。上文我们合并后的df数据集就是有缺失数据的：

要删除空值，一个dropna即可搞定：

dropna函数默认删除所有出现空值的行，即只要一行中任意一个字段为空，就会被删除。我们可以设置subset参数，例如dropna(subset = ['city'])，来指定当一行中的city字段为空时，才会被删除。

2.2 去重

说是讲去重，但是案例数据比较干净，没有两行数据是完全一样的，所以我们要制造点困难，增加几行重复值：

把源数据重复两遍，赋值给repeat，这样每一行数据都有重复的数据。要把重复数据删掉，一行代码就搞定：

drop_duplicates方法去重默认会删掉完全重复的行（每个值都一样的行），如果我们要删除指定列重复的数据，可以通过指定subset参数来实现，假如我们有个奇葩想法，要基于“流量级别”这列进行去重，则可以：

我们会发现，流量有三个级别，通过指定subset参数，我们删除了这个字段重复的行，保留了各自不重复的第一行。继续展开讲，在源数据中，流量渠道为“一级”的有7行数据，每行数据其他字段都不相同，这里我们删除了后6行，只保留了第一行，但如果我们想在去重的过程中删除前面6行，保留最后一行数据怎么操作？答案很简单，指定keep参数即可。

keep值等于last，保留最后一行数据，不输入keep值时，系统默认会给keep赋值为first，就会保留第一行数据而删掉其他的。

查——基于条件查询

查，不是单纯的返回几行数据，而是根据业务实际需求，基于一定的条件查看和选择数据。

3.1 按条件索引/筛选

loc独白：你没有看错，哥的分量实在是太重了，所以又来抢个沙发，刷个脸熟。

这次需求是筛选出访客数大于10000的一级渠道，loc一下：

在行参数设置好同时满足访客数大于10000和流量级别等于“一级”这两个条件即可。

3.2 排序

很多情况下，我们都需要通过排序来观察数据规律，以及快速筛选出TOP N的数据项。对于案例数据，我们怎么样按交易金额进行排序并筛选出TOP3的渠道呢？

问题的关键就在于排序，这个时候sort_values函数就派上用场了：

整个操作十分简单，sort_values函数，顾名思义是按照数值进行排序，首先要传入的参数是列参数，即我们根据哪一列的数值来进行排序，ascending参数决定了排序顺序，等于Flase则是从大到小的降序，设置为True则是升序。

排序完之后，筛选TOP3渠道就非常简单：

补充一个知识点，如果跟着文章操作，会发现无论是删空的dropna，还是去重的drop_duplicates，或者是排序的sort_values，在对源数据进行操作后，源数据并未改变，这是因为我们没有对这几个函数的inplace值进行设置，如果设置成inplace = True，删空、去重和排序都会在源数据上生效。

但这里为了避免出现不必要的错误而无法更改，更建议大家把操作后的源数据赋值给新的变量，如new = df.dropna()，而不是将源数据的inplace参数设置为True。

分——分组和切分

话天下大势，合久必分，数据亦是如此。在分组的版块中，我们重点介绍groupby分组和cut切分。

4.1分组

在案例数据中，总的流量级别有三级，每一级下又有多个投放地区，如果我们想汇总看每个级别流量所对应的总访客数和支付金额，就需要用到分组了。

groupby是分组函数，最主要的参数是列参数，即按照哪一列或者哪几列（多列要用列表外括）进行汇总，这里是按照流量级别：

可以看到，直接分组之后，没有返回任何我们期望的数据，要进一步得到数据，需要在分组的时候对相关字段进行计算（常用的计算方法包括sum、max、min、mean、std）：

后面加上了sum，代表我们先按照流量级别进行分组，再对分组内的字段求和。由于没有指定求和的列，所以是对所有数值型字段进行了求和。此处我们只想要各级别流量下的访客数和支付金额，需要指明参数：

流量级别作为汇总的依据列，默认转化为索引列，如果我们不希望它变成索引，向groupby内传入参数as_index = False即可：

4.2 切分

切分（分桶）操作常用于一维数组的分类和打标，cut函数能够高效的完成任务。它的主要参数和用法如下：

不要被复杂的解释迷惑，一个例子就完全搞懂了。

以案例数据为例，每个渠道都有对应的访客数，我们现在希望对各渠道访客级别进行评估，按照访客数大小，分成辣鸡（流量100以内的）、百级、千级和万级的渠道。

因为我们想对流量级别进行百、千、万的归类，所以把分组数值标准传入bins参数。从结果可以看到，在不设置right的情况下，分组区间是默认左开右闭的，而我们希望的是左闭右开，即百级流量渠道访客数在0-99之间，所以需要将right值设置为False。

下面我们直接对分组后的数据进行打标，访客数在0-99设置为“辣鸡”，100-999设置为百级，千级和万级以此类推，同时将打好标签的数据作为新列给到源数据：

非常高效，一行半代码就搞定了分组、判断和打标的过程。

总结

本文从增、删、查、分四个模块，分别介绍了横向、纵向合并；删空、去重；筛选、排序和分组、切分等数据清洗过程中的常见操作。在实际运用中，各操作往往是你中有我，我中有你，共同为了营造一个“干净”的数据而努力。

作者：周志鹏，2年数据分析，深切感受到数据分析的有趣和学习过程中缺少案例的无奈，遂新开公众号「数据不吹牛」，定期更新数据分析相关技巧和有趣案例（含实战数据集），欢迎大家关注交流。

声明：本文为作者投稿，版权归作者个人所有。

【END】

热文 推荐

☞三年一跳槽、拒绝“唯学历”，火速 Get 这份程序员求生指南！

☞计算机大数乘法引发的思考 | CSDN 博文精选

☞神经网络中的分类器该如何改成生成器？

☞在办公室装警报、参加杨超越编程大赛——“开发者之友”声网Agora团队是怎样炼成的？

☞巨头垂涎却不能染指，loT 数据库风口已至

☞【建议收藏】数据中心服务器基础知识大全

☞大规模1.4亿中文知识图谱数据，我把它开源了

☞“国家队”入局! 中移动、银联等宣布区块链服务网络(BSN)正式内测！

点击阅读原文，参与中国开发者现状调查问卷！

你点的每个“在看”，我都认真当成了喜欢

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

如何在 Python 数据中清洗常用 4 板斧？

作者 | 周志鹏责编 | 刘静这是Python数据分析实战基础的第三篇内容，主要对前两篇进行补充，把实际数据清洗场景下常用但零散的方法，按增、删、查、分四板斧的逻辑进行归类，以减少记忆成本，提升学习和使用效率。

作者 | 周志鹏
责编 | 刘静
这是Python数据分析实战基础的第三篇内容，主要对前两篇进行补充，把实际数据清洗场景下常用但零散的方法，按增、删、查、分四板斧的逻辑进行归类，以减少记忆成本，提升学习和使用效率。