Python每日一记20>>>哑变量
2019-03-21 12:38
99 查看
“对于特定应用,如何找到最佳数据表示,这个问题被称为特征工程”
特征工程是数据科学家和机器学习从业者在尝试解决现实问题的主要任务之一,用正确的方式表达数据,对于大部分算法的影响比选择正确的参数还要重要。
连续性数据可以较好的用于建模,但是打不分模型并不支持分类性变量(如男女,好坏等)的建模,因此需要对其进行编码处理,转化为数值型变量,这种转化称为哑变量转换或者虚拟变量转换。
首先我们可以检查一下数据的某一列分类变量的个数:data[ ].value_counts 这个函数会统计类别的个数,如男:89,女:90
然后我们再进行哑变量处理:
pandas.get_dummies(data,columns=[ ]),正常情况下,默认不对数值型变量进行处理,但如果指定了列,则会强制进行转换。转换类似于下图:
相关文章推荐
- 【每日一记3.16】python学习记录2--字符串方法
- Python每日一记25>>>pandas数据类型dtype
- [每日一记] Python报错 IndentationError: unexpected indent
- Python每日一记21>>>交叉验证
- 【每日一记3.16】python学习记录3----字典,列表,元组
- Python每日一记26>>>自定义相关系数计算
- Python每日一记36>>>机器学习实战遇到的问题
- Python每日一记
- Python每日一记41>>>groupby 和flatten使用
- Python每日一记28>>>字符串及其相关操作
- Python 每日一记34>>>pandas多条件筛选,写多sheet的excel
- Python每日一记38>>>pandas相关小问题
- Python每日一记23>>>分类模型的可信度评估
- [每日一记] Python报错 综述
- Python每日一记27>>>变量、整数、浮点数
- Python每日一记30>>>字典与集合
- Python 每日一记31>>>相关性矩阵建立
- Python 每日一记33>>>zip、推导式创建序列
- Python每日一记24>>>海龟作图turtle安装失败
- Python每日一记22>>>网格搜索