第二章:第一节数据清洗及特征处理
2020-08-20 22:19
113 查看
数据清洗简述
我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。
缺失值观察
df.info()
df.isnull().sum()
df[[‘Age’,‘Cabin’,‘Embarked’]].head(3)
对缺失值进行处理
df[df[‘Age’]==None]=0
df.head(3)
df[df[‘Age’].isnull()] = 0 # 还好
df.head(3)
重复值观察与处理
df.drop_duplicates().head()
对年龄进行分箱(离散化)处理
对文本变量进行转换
相关文章推荐
- 数据分析 第二章 1.数据清洗及特征处理
- 机器学习中的数据清洗与特征处理综述
- 转自美团技术:机器学习中的数据清洗与特征处理综述&实例详解机器学习如何解决问题
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述(转)
- 结合美团下单率预测详解机器学习中的数据清洗与特征处理
- 结合美团下单率预测详解机器学习中的数据清洗与特征处理
- 参考美团的"机器学习中的数据清洗与特征处理综述"
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述
- MySQL二手车数据清洗及特征处理
- 美团点击下单率预测问题(以数据清洗与特征处理为主)
- 机器学习中的数据清洗与特征处理综述
- 【方法】机器学习中的数据清洗与特征处理
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述
- 机器学习中的数据清洗与特征处理综述