您的位置:首页 > 其它

第二章:第一节数据清洗及特征处理

2020-08-20 22:19 113 查看

数据清洗简述
我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。

缺失值观察
df.info()
df.isnull().sum()
df[[‘Age’,‘Cabin’,‘Embarked’]].head(3)

对缺失值进行处理
df[df[‘Age’]==None]=0
df.head(3)
df[df[‘Age’].isnull()] = 0 # 还好
df.head(3)

重复值观察与处理
df.drop_duplicates().head()

对年龄进行分箱(离散化)处理
对文本变量进行转换

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: