数据预处理技术
2016-05-25 16:15
162 查看
进行数据挖掘和机器学习之前,必须保证数据是可靠、可用的。
这就要通过一定技术,对数据进行处理和转换,将原始数据转化成算法和模型需要的格式和内容。
这就是数据预处理技术,其对数据挖掘效果的好坏,预测结果的正确性具有基础性的作用。
数据预处理一般包括:数据清洗、集成、转换、规约。
数据清洗:
目的:格式标准化、异常数据清理、错误纠正、重复数据清除。
主要任务:缺失值处理、去噪。
缺省值的处理:忽略元祖、人工填写、使用全局常量、使用属性中位数、使用属性平均值、使用同类样本属性平均值或中位数。
去噪:噪声由随机误差产生。去噪的方法:舍弃噪声数据、噪声平滑、人工检查。
去噪的数据平滑方法:分箱(等深、等宽)、回归。
数据集成:
目的:集成多个数据源的数据,增大数据完整性
数据转化:
目的:将数据抓换成数据挖掘算法、机器学习算法接受的格式。
方法:线性归一化,Z-score规范化为标准高斯分布。
数据规约:
目的:降低数据维度,在不丢失数据信息量的情况下。
方法:采样(均匀采样、分层采样);PCA主成分分析,SVD奇异值分析。
参考文章
1、http://www.cnblogs.com/ss815367696/p/4051046.html
2、http://blog.csdn.net/lizhengnanhua/article/details/8982968
这就要通过一定技术,对数据进行处理和转换,将原始数据转化成算法和模型需要的格式和内容。
这就是数据预处理技术,其对数据挖掘效果的好坏,预测结果的正确性具有基础性的作用。
数据预处理一般包括:数据清洗、集成、转换、规约。
数据清洗:
目的:格式标准化、异常数据清理、错误纠正、重复数据清除。
主要任务:缺失值处理、去噪。
缺省值的处理:忽略元祖、人工填写、使用全局常量、使用属性中位数、使用属性平均值、使用同类样本属性平均值或中位数。
去噪:噪声由随机误差产生。去噪的方法:舍弃噪声数据、噪声平滑、人工检查。
去噪的数据平滑方法:分箱(等深、等宽)、回归。
数据集成:
目的:集成多个数据源的数据,增大数据完整性
数据转化:
目的:将数据抓换成数据挖掘算法、机器学习算法接受的格式。
方法:线性归一化,Z-score规范化为标准高斯分布。
数据规约:
目的:降低数据维度,在不丢失数据信息量的情况下。
方法:采样(均匀采样、分层采样);PCA主成分分析,SVD奇异值分析。
参考文章
1、http://www.cnblogs.com/ss815367696/p/4051046.html
2、http://blog.csdn.net/lizhengnanhua/article/details/8982968
相关文章推荐
- JSON复杂数据处理之Json树形结构数据转Java对象并存储到数据库的实现
- PHP数学运算与数据处理实例分析
- PHP数学运算与数据处理实例分析
- jQuery常用数据处理方法小结
- 学习机器学习 数据处理时 找到的这些链接 可以在上面下载到开源的研究数据数据
- sql处理数据保留小数点后两位
- Asp.net mvc 提交列表(二)
- Asp.net mvc 提交列表(三)
- 均方根信息滤波(SRIF)测试(一)
- 数据处理
- 海量数据处理:十道面试题与十个海量数据处理方法总结
- 工业企业数据库处理——2.匹配样本
- 工业企业数据库处理代码完整版本——2.匹配样本
- python对csv文件的处理
- 《汇编语言(王爽)》第七、八章【总结】
- Spark Scala选取面向行数据中的某几列
- matlab:矩阵中对NaN的处理方式
- R 笔记:大型数据文件流读取与写入
- iOS数据持久化文件读写之偏好设置
- 数据预处理之归一化