python 数据预处理
2018-09-04 15:56
148 查看
1.缺失值填充
[code]import numpy as np import pandas as pd df = pd.DataFrame({'a': [3, 1, 3, 2, 4, 3, 2, 4, 3], 'b': [4, 6, np.nan, 6, 2, 7, np.nan, 3, 5], 'c': [np.nan, 8, 2, 4, np.nan, 7, 6, 3, 5]}) print(df) df['b'].fillna(df['b'].mean(), inplace=True) # 均值填充 df['c'].fillna(df['c'].median(), inplace=True) # 中位数填充 print(df)
2.oneHot编码
[code]import pandas as pd from sklearn.preprocessing import OneHotEncoder from sklearn.preprocessing import LabelEncoder df = pd.DataFrame({'a': [4, 2, 2, 1, 3, 2, 4, 2, 1], 'b': ['a', 'd', 'c', 'b', 'b', 'a', 'a', 'd', 'b']}) print(df) b = LabelEncoder().fit_transform(df['b']) b_onehot = pd.DataFrame(OneHotEncoder(sparse=False).fit_transform(b.reshape(len(b), 1))) df = pd.concat([df, b_onehot], ignore_index=True, axis=1) print(df)
3.数据归一化
[code]import pandas as pd from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler df = pd.DataFrame({'a': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'b': [4, 3, 5, 3, 2, 4, 2, 1, 5]}) scaler = StandardScaler() print(scaler.fit_transform(pd.DataFrame(df['a']))) min_max_scaler = MinMaxScaler() print(min_max_scaler.fit_transform(pd.DataFrame(df['a'])))
阅读更多
相关文章推荐
- 关于python 在神经网络训练图像数据预处理时使用的transpose
- python data analysis | python数据预处理(基于scikit-learn模块)
- python实现数据预处理之填充缺失值的示例
- Python数据分析与挖掘实战第四章笔记之数据预处理
- 利用python Pandas进行数据预处理
- Python股票处理之六_数据预处理A
- python数据分析与挖掘学习笔记(2)-淘宝商品数据清洗及预处理
- 用Python进行数据挖掘(数据预处理)
- 利用Python Pandas进行数据预处理-Pandas基本的数据结构
- 机器学习02-使用python中的sklearn库进行数据的预处理(数据的特征工程)
- 京东猪脸识别比赛数据预处理:用Python将视频每一帧提取存储为图片
- python学习(三)---数值计算(矩阵,数据预处理)
- Python数据预处理:缺失值替换
- 利用Python Pandas进行数据预处理-数据清洗
- python 数据预处理 数据抽样
- 基于python包scikit-learn的数据预处理方法
- Python下的机器学习工具scikit-learn(学习笔记3--数据预处理)
- python数据预处理(抽样、数据集转换)
- 数据预处理(2) ——数据变换与数据离散化 使用python(sklearn,pandas,numpy)实现
- 数据预处理练习 等频分箱、one_hot(独热编码)、数据归一化 #python