数据预处理的过程
2011-09-27 11:27
211 查看
1.数据预处理的原因
因为挖掘中的数据存在不完整,不一致,含噪声错误的情况。2.数据预处理包含的步骤
2.1 数据汇总
2.2 数据清理
2.3数据集成和变换
数据集成合并多个数据源中的数据,存放在一个一致的数据存储中。数据变换将数据转换或统一成适合挖掘的形式。
可能包含如下内容:
光滑:去掉数据中的噪声。
聚集:对数据进行汇总或聚集。
数据泛化:使用概念对数据属性进行分层。
规范化:将属性数据按比例缩放,使之落入到一个小的特定区间。
属性构造:可以构造新的属性并添加到属性集中,以帮助数据挖掘。
2.4数据规约
数据规约技术可以用来得到数据集的规约表示,它小的多,但仍接近保持原数据的完整性。数据规约的策略如下:
(1)数据立方体聚集。
(2)属性子集选择:可以检测并删除不相关,弱相关或冗余的属性或维。
(3)维度规约:使用编码机制减少数据集的规模。
(4)数值规约:用替代的,较小的数据表示替换或估计数据。
(5)离散化和概念分成产生:属性的原始数据值用区间值或较高层的概念替换。
相关文章推荐
- 谷歌发布全新TensorFlow库“tf.Transform” 简化机器学习数据预处理过程
- 数据的存储过程(通过预处理)
- R函数在数据预处理、数据准备过程中的使用
- 数据挖掘过程中:数据预处理
- 数据预处理过程
- Tensorflow nmt的数据预处理过程
- 补MySQL第六天----Java中实现预处理、批处理、大数据字段与存储过程
- 数据挖掘过程中:数据预处理
- php预处理数据
- 数据存储过程之MySQL与ORACLE数据库的差别
- 循环神经网络的数据预处理
- 网络数据流接收处理过程分析
- 只有rman的备份文件(数据文件)恢复过程
- Nutch2.3分布执行过程中Mongodb中数据的变化
- 采用存储过程的方式批量更新数据
- Faster-rcnn数据准备过程
- sql server之触发器调用C#CLR存储过程实现两个表的数据同步
- 利用存储过程取得SQL Server 2005数据表信息
- 记录一次数据恢复过程
- Hbase数据解析mapreduce过程及遇到的问题