您的位置：首页 > 其它

第二章：第一节数据清洗及特征处理

2020-08-20 22:19 113 查看

数据清洗简述
我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。

缺失值观察
df.info()
df.isnull().sum()
df[[‘Age’,‘Cabin’,‘Embarked’]].head(3)

对缺失值进行处理
df[df[‘Age’]==None]=0
df.head(3)
df[df[‘Age’].isnull()] = 0 # 还好
df.head(3)

重复值观察与处理
df.drop_duplicates().head()

对年龄进行分箱（离散化）处理
对文本变量进行转换

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航