归一化处理数据 python
2017-09-26 13:46
537 查看
源自 machine learning in action
1.原因:
例如在用 KNN 算法处理数据时,比如有两个特征,一个特征的取值范围为0~1,另一个取值范围为1W 以上,那么用欧式距离计算的话第一个特征的影响几乎就会微不足道,为了解决这个问题,在处理数据的时候对数据进行归一化处理。
2.代码:
1.原因:
例如在用 KNN 算法处理数据时,比如有两个特征,一个特征的取值范围为0~1,另一个取值范围为1W 以上,那么用欧式距离计算的话第一个特征的影响几乎就会微不足道,为了解决这个问题,在处理数据的时候对数据进行归一化处理。
2.代码:
def autoNorm(dataSet): #every minimum value of each column, return a list minVals = dataSet.min(0) #every maximum value of each column, return a list maxVals = dataSet.max(0) ranges = maxVals - minValus numRow = dataSet.shape[0] diffSet = dataSet - tile(minVals,(numRow,1)) normSet = diffSet/tile(ranges, (numRow, 1)) return normSet
相关文章推荐
- Python数据预处理(包括处理数据离散值和归一化,分开处理训练集与测试集)
- 图像数据集制作——窗位窗宽+归一化处理【python版本】
- 使用Python Pandas处理亿级数据
- python数据分析-处理CSV/EXCEL表格文件
- 用python对文本格式的数据进行统计处理
- python处理字符串数据容易犯错的几个地方
- (转)大数据处理之道(十分钟学会Python)
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 - 数客
- Python处理Excel(四):自定义类处理Excel数据
- Python读取和处理文件后缀为.sqlite的数据文件(实例讲解)
- 使用Python Pandas处理亿级数据
- Head Frist Python 读书笔记 第五章 处理数据
- 利用python进行数据分析(三):pandas--处理数据的工具
- python处理二进制数据的方法
- python - 【数据】基本概念以及处理方式
- 数据归一化处理
- Python让繁琐工作自动化——chapter14 处理CSV和JSON数据
- R + python︱数据规范化、归一化、Z-Score
- python︱处理与使用json格式的数据(json/UltraJSON/Demjson)